Określanie progów podstawowych wskaźników internetowych

Badania i metodologia stojące za progami podstawowych wskaźników internetowych

Bryan McQuade
Bryan McQuade

Podstawowe wskaźniki internetowe to zestaw danych funkcjonalnych, które służą do pomiaru ważnych aspektów rzeczywistych wrażeń użytkowników internetu. Podstawowe wskaźniki internetowe zawierają wskaźniki, a także progi docelowe poszczególnych rodzajów danych, które pomagają programistom określić, czy witryna jest „dobra”, „wymagana”, czy „słaba”. W tym poście wyjaśnimy, jak ogólnie przebiega wybór progów dla podstawowych wskaźników internetowych, a także jak zostały ustalone progi poszczególnych podstawowych wskaźników internetowych.

Odświeżenie: podstawowe wskaźniki internetowe i progi

W 2020 r. podstawowe wskaźniki internetowe obejmują 3 rodzaje danych: największe wyrenderowanie treści (LCP), opóźnienie przy pierwszym działaniu (FID) i skumulowane przesunięcie układu (CLS). Każdy wskaźnik mierzy inne wrażenia użytkownika: LCP mierzy postrzeganą szybkość wczytywania i oznacza punkt na osi czasu wczytywania strony, w którym główna treść strony prawdopodobnie została wczytana. FID mierzy czas reagowania i odczucia użytkowników podczas pierwszej interakcji ze stroną, a CLS mierzy stabilność wizualną i określa ilość nieoczekiwanych przesunięć układu widocznych treści strony.

Każdy podstawowy wskaźnik internetowy ma powiązane progi, które klasyfikują skuteczność jako „dobrą”, „wymagającą poprawy” lub „słabą”:

Rekomendacje dotyczące progu największego wyrenderowania treści Rekomendacje dotyczące progu opóźnienia przy pierwszym działaniu Rekomendacje dotyczące progu skumulowanego przesunięcia układu
  Prawidłowy Słaby Percentyl
największe wyrenderowanie treści ≤2500ms >4000ms 75
Opóźnienie przy pierwszym działaniu ≤100ms > 300 ms 75
zbiorcze przesunięcie układu ≤ 0,1 > 0,25 75

Ponadto do sklasyfikowania ogólnej skuteczności strony lub witryny używamy 75 centyla wszystkich wyświetleń strony lub witryny. Inaczej mówiąc, jeśli co najmniej 75% wyświetleń strony w witrynie osiągnęło próg „dobrej”, to witryna ma „dobrą” skuteczność pod względem tej wartości. Jeśli natomiast co najmniej 25% wyświetleń stron osiągnęło próg „niskiej”, witryna jest klasyfikowana jako „niska”. Na przykład 75 centyl LCP na 2 sekundach jest klasyfikowany jako „dobry”, a 75 percentyl LCP wynoszący 5 sekund jest klasyfikowany jako „zły”.

Kryteria progów wartości progowych podstawowych wskaźników internetowych

Przy ustalaniu progów dla podstawowych wskaźników internetowych najpierw zidentyfikowaliśmy kryteria, które musi spełniać każdy z progów. Poniżej wyjaśniam, jakich kryteriów używamy do oceny progów wskaźników podstawowych wskaźników internetowych w 2020 r. W kolejnych sekcjach znajdziesz bardziej szczegółowe informacje o tym, jak te kryteria były stosowane przy określaniu progów dla poszczególnych rodzajów danych w 2020 r. W przyszłych latach planujemy ulepszenie i uzupełnienie kryteriów oraz progów, aby jeszcze bardziej zwiększyć nasze możliwości w zakresie pomiaru wrażeń użytkowników w internecie.

Wysokiej jakości wrażenia użytkowników

Naszym głównym celem jest optymalizacja pod kątem wygody użytkowników i ich jakości. Z tego względu dokładamy wszelkich starań, aby strony, które spełniają „dobre” wartości progowe Podstawowych wskaźników internetowych, zapewniały użytkownikom wysoką jakość usług.

Aby określić próg związany z wygodą użytkowników, przyglądamy się postrzeganiu przez człowieka i badaniom HCI. Choć badanie jest czasami podsumowywane przy użyciu jednego stałego progu, okazuje się, że podstawę badania wyraża się zwykle jako zakres wartości. Na przykład badanie czasu, przez jaki użytkownicy zwykle czekają, zanim utracą koncentrację, czasami określa się jako 1 sekundę, podczas gdy w rzeczywistości przedstawiane jest badanie jako zakres od setek milisekund do kilku sekund. Próg postrzegania wartości różni się w zależności od użytkownika i kontekstu oraz dodatkowo poparte zagregowanymi i zanonimizowanymi danymi z Chrome. Oznacza to, że nie ma jednego czasu oczekiwania na wyświetlenie treści na stronie przed zakończeniem jej wczytywania. Dane te zapewniają płynny i ciągły rozkład. Bardziej szczegółowe informacje o progach postrzegania przez człowieka i odpowiednich badaniach HCI znajdziesz na stronie The Science Behind Web Viitals.

Jeśli w przypadku danego rodzaju danych dostępne są odpowiednie badania wrażeń użytkowników i w literaturze panuje racjonalna zgodność zakresu wartości, wykorzystujemy ten zakres jako dane wejściowe podczas procesu wyboru progu. Jeśli nie są dostępne odpowiednie badania wrażeń użytkowników, np. w przypadku nowych danych (np. skumulowane przesunięcie układu), oceniamy zamiast tego rzeczywiste strony, które spełniają różne wymagania dotyczące danych progowych, aby określić wartość progową, która zapewnia użytkownikom dobre wrażenia.

Dostępność przez istniejącą treść internetową

Ponadto, aby mieć pewność, że właściciele witryn skutecznie zoptymalizują swoje witryny tak, aby osiągały „dobre” progi, wymagamy, aby progi te były osiągalne w przypadku istniejących treści w internecie. Na przykład 0 milisekund to idealny próg „dobrego” LCP, który zapewnia natychmiastowe wczytywanie, ale w większości przypadków nie jest osiągalny ze względu na opóźnienia przetwarzania w sieci i urządzeniach. Z tego względu zero milisekund nie stanowi rozsądnego progu „dobrego” LCP dla podstawowych wskaźników internetowych.

Oceniając progi „dobrych” podstawowych wskaźników internetowych, na podstawie danych z Raportu na temat użytkowania Chrome (CrUX) sprawdzamy, czy te wartości progowe są osiągalne. Aby potwierdzić, że próg jest możliwy do osiągnięcia, wymagamy, aby co najmniej 10% źródeł spełniało obecnie „dobry” próg. Dodatkowo, aby mieć pewność, że dobrze zoptymalizowane witryny nie zostaną błędnie sklasyfikowane z powodu zmienności danych, sprawdzamy też, czy dobrze zoptymalizowane treści stale przekraczają próg „dobrej”.

I na odwrót, wyznaczamy próg „niskiej jakości”, identyfikując poziom wydajności, którego obecnie nie spełnia jedynie niewielka część pochodzenia. O ile nie są dostępne badania istotne do określenia progu „niskiej” wartości, domyślnie 10–30% źródeł o niskiej skuteczności jest klasyfikowanych jako „słabe”.

Końcowe przemyślenia na temat kryteriów

Podczas oceny progów kandydujących odkryliśmy, że kryteria te czasami są ze sobą sprzeczne. Może istnieć na przykład napięcie między stałym dążeniem do osiągnięcia progu a zapewnianiem niezmiennie wysokiej jakości wygody użytkowników. Co więcej, ponieważ badania postrzegania przez ludzi zwykle podają zakres wartości, a dane o zachowaniach użytkowników wykazują stopniowe zmiany w zachowaniu, stwierdziliśmy, że często nie ma jednego „prawidłowego” progu dla danych. Dlatego naszym podejściem do określania podstawowych wskaźników internetowych na rok 2020 było wybranie progów, które najlepiej spełniają powyższe kryteria. Uznaliśmy jednocześnie, że nie ma jednego idealnego progu i czasem możemy wybierać z kilku uzasadnionych progów kandydujących. Zamiast pytać „Jaki jest idealny próg?”, skupiliśmy się na pytaniu „Który próg kandydata najlepiej spełnia nasze kryteria?”.

Wybór percentyla

Jak już wspomnieliśmy, do sklasyfikowania ogólnej skuteczności strony lub witryny używamy 75. percentyla wszystkich wizyt na tej stronie lub w tej witrynie. 75 percentyl został wybrany na podstawie 2 kryteriów. Po pierwsze, percentyl powinien umożliwiać w przypadku większości wizyt na stronie lub w witrynie docelowy poziom skuteczności. Po drugie, na wartość przy wybranym percentylu nie powinny mieć nadmiernego wpływu wartości odstające.

Cele te nie są ze sobą zgodne. Aby osiągnąć pierwszy cel, lepszym wyborem jest zwykle wyższy centyl. Jednak im wyższe percentyle wpływają na wynikową wartość także wtedy, gdy dane odstające są większe. Jeśli kilka wizyt w witrynie wiąże się z niestabilnymi połączeniami sieciowymi, co skutkuje bardzo dużymi próbkami LCP, nie chcemy, aby klasyfikacja naszej witryny była brana pod uwagę na podstawie tych odstających prób. Na przykład w przypadku oceny skuteczności witryny z 100 wizytami przy użyciu wysokiego percentyla (np. 95. centyl) wystarczyłoby 5 próbek odstających, aby miały wpływ na wartość 95 percentyla.

Biorąc pod uwagę, że te cele są nieco sprzeczne, po analizie doszliśmy do wniosku, że 75 percentyl zapewnia rozsądną równowagę. Korzystając z 75. percentyla, wiemy, że w przypadku większości wizyt w witrynie (3 z 4) miała miejsce docelowe lub lepsze wyniki. Dodatkowo na wartość 75 centyla mniej prawdopodobne jest to, że wyniki odstające będą miały wpływ na wartość odstającą. Wróćmy do naszego przykładu. W przypadku witryny z 100 wizytami 25 z tych wizyt musiałoby odnotować duże próbki odstające dla wartości 75. percentyla, w której wartości odstające miały wpływ na wyniki odstające. Choć 25 ze 100 próbek może być wartościami odstającymi, jest ono znacznie mniej prawdopodobne niż w 95. percentylu.

największe wyrenderowanie treści

Jakość

1 sekundę często określa się jako czas, przez jaki użytkownik będzie musiał czekać, zanim zacznie tracić uwagę na zadaniu. Po bliższym przyjrzeniu się odpowiednim badaniom stwierdziliśmy, że 1 sekunda to przybliżony zakres wartości – od kilkuset milisekund do kilku sekund.

Dwa często cytowane źródła dotyczące progu 1 sekundy to Card etal oraz Miller. Karta określa próg 1-sekundowej „natychmiastowej reakcji” na podstawie metody Unified Theories of Cognition opracowanej przez Newella. Firma Newell określa natychmiastowe reakcje jako „reakcje, które muszą zostać podjęte na jakiś bodźc w ciągu około jednej sekundy (czyli od około 0,3 s do ok.3 s)”. Jest to kontynuacja rozmowy Newella na temat „ograniczeń funkcji poznawczych w czasie rzeczywistym”, w której zaznaczamy, że „interakcje ze środowiskiem, które wywołują zaburzenia poznawcze, zachodzą w kolejności sekundowej”, która trwa od 0,5 do 2–3 sekund. Miller, inne często cytowane źródło 1-sekundowego progu, zauważa: „Zadania, które człowiek może i których wykonuje w komunikacji maszynowej, znacząco zmienią charakter ich postaci, jeśli opóźnienia reakcji są dłuższe niż 2 sekundy, a w niektórych przypadkach możliwe jest wydłużenie o kolejną sekundę”.

Badanie Millera i card opisuje czas oczekiwania użytkownika przed utratą koncentracji (od około 0, 3 do 3 sekund). Oznacza to, że wartość progowa wskaźnika LCP powinna się mieścić w tym zakresie. Poza tym, że obecny próg „dobrego” pierwszego wyrenderowania treści wynosi 1 sekundę, a największe wyrenderowanie treści zwykle następuje po pierwszym wyrenderowaniu treści, dodatkowo ograniczamy zakres kandydujących progów LCP, z 1 do 3 sekund. Aby wybrać w tym zakresie próg, który najlepiej spełnia nasze kryteria, sprawdzamy poniżej osiągalność tych progów.

Osiągalność

Na podstawie danych z raportu na temat użytkowania Chrome możemy określić odsetek źródeł z internetu, które spełniają kandydujące progi „dobrego” LCP.

% źródeł CrUX sklasyfikowanych jako „dobre” (dla kandydujących wartości progowych LCP)

  1 sekunda 1,5 sekundy 2 sekundy 2,5 sekundy 3 sekundy
phone 3,5% 13% 27% 42% 55%
komputer 6,9% 19% 36% 51% 64%

Choć mniej niż 10% witryn spełnia próg 1 sekundy, wszystkie pozostałe progi od 1,5 do 3 sekund spełniają nasze wymaganie, aby co najmniej 10% źródłowych źródeł spełniało próg „dobry”. Oznacza to, że nadal są prawidłowymi kandydatami.

Ponadto, aby mieć pewność, że wybrany próg jest stale osiągalny w przypadku dobrze zoptymalizowanych witryn, analizujemy wskaźnik LCP w przypadku najskuteczniejszych witryn w internecie, aby określić, jakie progi są stale osiągalne w przypadku tych witryn. W szczególności staramy się ustalić próg, który będzie osiągalny konsekwentnie na 75. percentylu dla najskuteczniejszych witryn. Zauważyliśmy, że nie da się konsekwentnie osiągnąć tych 1,5 i 2 sekund, a 2,5 sekundy da się konsekwentnie osiągnąć.

Aby określić próg „niski” w przypadku LCP, wykorzystujemy dane z raportu na temat użytkowania Chrome w celu określenia progu, który jest osiągany przez większość źródeł:

% źródeł CrUX sklasyfikowanych jako „słabe” (dla kandydujących progów LCP)

  3 sekundy 3,5 sekundy 4 sekundy 4,5 sekundy 5 sekund
phone 45% 35% 26% 20% 15%
komputer 36% 26% 19% 14% 10%

W przypadku 4-sekundowego progu ok. 26% urządzeń z telefonami i 21% urządzeń z komputerami zostało sklasyfikowanych jako słabe. Mieści się w naszym docelowym zakresie 10–30%, więc uznajemy, że 4 sekundy to akceptowalny próg „słaby”.

W związku z tym przyjmujemy, że 2,5 sekundy to rozsądny próg „dobrej”, a 4 sekundy – rozsądny próg „słaby” w przypadku największego wyrenderowania treści.

Opóźnienie przy pierwszym działaniu

Jakość

Z badań wynika, że opóźnienia w opóźnieniach wizualnych o długości do 100 ms są postrzegane jako spowodowane przez powiązane źródło, takie jak dane wejściowe użytkownika. To sugeruje, że jako minimalny próg będzie prawdopodobnie odpowiedni próg „dobrego” opóźnienia przy pierwszym działaniu wynoszący 100 ms: jeśli opóźnienie przetwarzania danych wejściowych przekracza 100 ms, nie ma szansy na zakończenie w odpowiednim czasie innych etapów przetwarzania i renderowania.

W artykułach Response Times: The 3 Allowed Limits (Czasy odpowiedzi) często cytuje Jakob Nielsen.Czas oczekiwania na to, że system natychmiast reaguje, definiuje się na 0,1 sekundy. Nielsen cytuje Millera i carda, którzy cytują Michotte'a z 1962 roku: The Perception of Causality. W badaniach Michotte'a uczestnicy eksperymentu widzą „2 obiekty na ekranie”. Obiekt A zaczyna się i przesuwa w kierunku B. Zatrzymuje się w chwili, gdy dochodzi do kontaktu z B, podczas gdy to drugie rozpoczyna się i odchodzi od punktu A”. Michotte zmienia odstęp czasowy między momentem zatrzymania obiektu A a momentem, w którym obiekt B zaczyna się poruszać. Michotte zauważa, że w przypadku opóźnień do około 100 ms uczestnicy mają wrażenie, że obiekt A wywołuje ruch obiektu B. W przypadku opóźnień od około 100 ms do 200 ms sposób postrzegania związku przyczynowo-skutkowego jest zmienny, a w przypadku opóźnień przekraczających 200 ms ruch obiektu B nie jest już spowodowany przez obiekt A.

Podobnie Miller definiuje próg reakcji dla „reakcji na aktywację elementu sterującego” jako „wskaźnik działania podjętego, zwykle przez ruch klucza, przełącznika lub innego elementu sterującego, który sygnalizuje, że zostało fizycznie podjęte. Odpowiedź ta powinna być... postrzegana jako część działania mechanicznego wywołanego przez operatora. Opóźnienie: nie więcej niż 0,1 sekundy” i później „Opóźnienie między naciśnięciem klawisza a komunikatem wizualnym nie powinno być większe niż 0,1–0,2 sekundy”.

Niedawno w publikacji Towards the Temporally Perfect VirtualButton firma Kaaresoja i in. badała postrzeganie równoczesności między dotknięciem wirtualnego przycisku na ekranie dotykowym a późniejszymi wizualnymi sygnałami wskazującymi na dotknięcie przycisku (w przypadku różnych opóźnień). Gdy opóźnienie między naciśnięciem przycisku a potwierdzeniem wizualnym nie przekraczało 85 ms, uczestnicy badania sygnalizowali, że sygnały wizualne pojawiają się jednocześnie po naciśnięciu przycisku przez 75% czasu. Ponadto w przypadku opóźnienia do 100 ms uczestnicy badania zgłaszali, że jakość naciśnięcia przycisku jest zawsze wysoka. postrzegana jakość spada w przypadku opóźnień od 100 ms do 150 ms, a bardzo niskie wartości w przypadku opóźnień do 300 ms.

Mając to na uwadze, przyjmujemy, że badania wskazują zakres wartości około 100 ms jako odpowiedni próg opóźnienia przy pierwszym działaniu dla wskaźników internetowych. Poza tym użytkownicy zgłosili, że jakość była niska z powodu opóźnienia wynoszącego co najmniej 300 ms. Wynika to z wartości 300 ms, która jest uzasadniona „słabą” wartością progową.

Osiągalność

Na podstawie danych z CrUX dowiadujemy się, że większość źródeł w internecie spełnia próg „dobrej” wartości FID wynosząca 100 ms przy 75 centylu:

% źródeł CrUX sklasyfikowanych jako „dobre” przy progu FID 100 ms

100 ms
phone 78%
komputer >99%

Dodatkowo obserwujemy, że najpopularniejsze witryny w internecie są w stanie konsekwentnie osiągać ten próg na 75. percentylu (często na 95. percentylu).

Mając to na uwadze, przyjmujemy, że 100 ms to rozsądny próg „dobrej” wartości w przypadku FID.

zbiorcze przesunięcie układu

Jakość

skumulowane przesunięcie układu (CLS) to nowy wskaźnik, który pokazuje, jak bardzo przesuwa się widoczna treść strony. Ze względu na to, że CLS jest nowy, nie znamy wyników badań, które mogłyby bezpośrednio określić wartości progowe tego wskaźnika. Aby określić próg zgodny z oczekiwaniami użytkowników, oceniliśmy strony rzeczywiste z różnymi stopniami przesunięcia układu, aby określić maksymalną ilość przesunięcia, które jest postrzegane jako akceptowalne, zanim spowoduje poważne zakłócenia podczas korzystania z treści strony. Podczas testów wewnętrznych stwierdziliśmy, że zmiany z poziomu 0,15 i wyższego były konsekwentnie postrzegane jako destrukcyjne, a zmiany o 0,1 i niższe były zauważalne, ale nie nadmiernie uciążliwe. Idealna jest zerowa zmiana układu, ale wywnioskowaliśmy, że wartości do 0,1 to „dobre” progi CLS.

Osiągalność

Na podstawie danych z raportu na temat użytkowania Chrome widzimy, że prawie 50% źródeł ma CLS na poziomie 0,05 lub niższym.

% źródeł CrUX sklasyfikowanych jako „dobre” (dla kandydujących progów CLS)

  0,05 0,1 0,15
phone O 49% 60% 69%
komputer 42% 59% 69%

Chociaż dane raportu na temat użytkowania Chrome sugerują, że wartość 0,05 może być rozsądnym „dobrym” progiem CLS, zdajemy sobie sprawę, że w niektórych przypadkach użycia trudno jest obecnie uniknąć zakłóceń układu. Na przykład w przypadku umieszczonych treści innych firm, takich jak umieszczone w mediach społecznościowych, wysokość umieszczonego elementu może być czasami nieznanej, dopóki nie zostanie wczytany.Może to prowadzić do przesunięcia układu powyżej 0, 05. W związku z tym przyjmujemy, że chociaż wiele źródeł osiąga próg 0,05, nieco mniej rygorystyczny próg CLS wynoszący 0,1 zapewnia lepszą równowagę między jakością a osiągalnością. Mamy nadzieję, że w przyszłości ekosystem internetowy znajdzie rozwiązania, które eliminują zmiany układu spowodowane przez umieszczanie w witrynie innych firm, co pozwoli na zastosowanie bardziej rygorystycznego progu „dobrego” CLS na poziomie 0,05 lub 0 w kolejnych iteracjach podstawowych narzędzi internetowych.

Dodatkowo, aby określić próg „słabe” dla CLS, użyliśmy danych z raportu na temat użytkowania Chrome, aby określić próg osiągnięty w przypadku większości źródeł:

% źródeł CrUX sklasyfikowanych jako „słabe” (dla kandydujących wartości CLS)

  0,15 0,2 0,25 0,3
phone 31% 25% 20% 18%
komputer 31% 23% 18% 16%

W przypadku wartości progowej 0,25 ok.20% urządzeń i 18% urządzeń z komputerami zostanie sklasyfikowanych jako „słabe”. Wartość ta mieści się w naszym docelowym zakresie 10–30%, więc ustaliliśmy, że 0,25 to akceptowalna wartość progowa „słaba”.