Badania i metodologia progowa związanych z podstawowymi wskaźnikami internetowymi
Opublikowano: 21 maja 2020 r.
Podstawowe wskaźniki internetowe to zestaw danych, które służą do pomiaru ważnych aspektów rzeczywistych wrażeń użytkowników w internecie. Podstawowe wskaźniki internetowe obejmują dane oraz progi docelowe dla każdego z nich, które pomagają deweloperom jakościowo ocenić jakość korzystania z witryny: „dobra”, „wymagana poprawa” lub „słaba”. W tym artykule wyjaśnimy, jak wybieraliśmy progi dla poszczególnych podstawowych wskaźników internetowych, a także jak wybieraliśmy progi dla poszczególnych wskaźników.
Przypomnienie: podstawowe wskaźniki internetowe i ich progi
Podstawowe wskaźniki internetowe to 3 parametry: największe wyrenderowanie treści (LCP), interakcja do kolejnego wyrenderowania (INP) i skumulowane przesunięcie układu (CLS). Każdy wskaźnik mierzy inny aspekt wrażeń użytkownika: LCP mierzy postrzeganą szybkość wczytywania i oznacza punkt na osi czasu wczytywania strony, w którym prawdopodobnie wczytano główną treść strony; INP mierzy responsywność i określa, jakie wrażenia mają użytkownicy, gdy próbują wchodzić w interakcję ze stroną; a CLS mierzy stabilność wizualną i określa, jak wiele nieoczekiwanych przesunięć układu występuje w przypadku widocznej zawartości strony.
Każdy wskaźnik podstawowych wskaźników internetowych ma powiązane progi, które klasyfikują działanie jako „dobra jakość”, „wymagana poprawa” lub „słaba jakość”:
Dobry | Niska | Percentyl | |
---|---|---|---|
największe wyrenderowanie treści | ≤2500 ms | >4000 ms | 75 |
Interakcja do kolejnego wyrenderowania | ≤200 ms | > 500 ms | 75 |
zbiorcze przesunięcie układu | ≤0,1 | > 0,25 | 75 |
Dodatkowo, aby sklasyfikować ogólną skuteczność strony lub witryny, używamy wartości 75. percentyla wszystkich wyświetleń tej strony lub witryny. Inaczej mówiąc, jeśli co najmniej 75% wyświetleń strony w witrynie spełnia próg „dobry”, witryna jest klasyfikowana jako „dobra” pod względem tych danych. Jeśli natomiast co najmniej 25 procent wyświetleń stron osiąga próg „słaby”, witryna jest klasyfikowana jako „słaba”. Na przykład 75 procentyl LCP wynoszący 2 sekundy jest klasyfikowany jako „dobry”, a 75 procentyl LCP wynoszący 5 sekund jest klasyfikowany jako „słaby”.
Kryteria progu wskaźników podstawowych wskaźników internetowych
W tej sekcji omówimy kryteria oceny progów danych podstawowych wskaźników internetowych. W kolejnych sekcjach znajdziesz bardziej szczegółowe informacje o sposobie stosowania kryteriów przy wyborze progów dla poszczególnych danych. W przyszłych latach planujemy ulepszać kryteria i progi, aby jeszcze lepiej mierzyć wrażenia użytkowników w internecie.
Wygoda użytkowników
Naszym głównym celem jest optymalizacja pod kątem wygody użytkowników i ich jakości. Dlatego chcemy mieć pewność, że strony, które spełniają „dobre” progi w Podstawowych wskaźnikach internetowych, zapewniają użytkownikom wysoką jakość.
Aby określić próg związany z dobrymi wrażeniami użytkowników, analizujemy ludzkie postrzeganie i badania HCI. Chociaż te badania są czasami podsumowywane za pomocą jednego stałego progu, stwierdziliśmy, że badania podstawowe są zwykle wyrażane jako zakres wartości. Na przykład badania dotyczące czasu, przez jaki użytkownicy zwykle skupiają uwagę, określają czas jako 1 sekundę, podczas gdy w badaniu czas ten jest wyrażany w zakresie od setek milisekund do kilku sekund. Fakt, że progi percepcji różnią się w zależności od użytkownika i kontekstu, potwierdzają również zagregowane i anonimowane dane Chrome, które pokazują, że użytkownicy nie czekają zawsze tak samo długo na wyświetlenie treści przez stronę. Te dane wskazują raczej na płynny i ciągły rozkład. Więcej informacji na temat progów percepcji ludzkiej i odpowiednich badań związanych z HCI znajdziesz na stronie The Science Behind Web Viitals (w języku angielskim).
W przypadku, gdy w przypadku danego rodzaju danych są dostępne odpowiednie badania dotyczące wrażeń użytkowników, a w literaturze występuje rozsądny konsensus co do zakresu wartości, wykorzystujemy ten zakres jako dane wejściowe do procesu wyboru progu. W przypadku braku odpowiednich badań dotyczących wrażeń użytkowników, np. w przypadku nowych danych, takich jak skumulowana zmiana układu, analizujemy strony w użyciu, które spełniają różne progi danych, aby określić próg, który zapewnia dobre wrażenia użytkowników.
Dostępne przy użyciu istniejących treści internetowych
Dodatkowo, aby umożliwić właścicielom witryn optymalizację witryn w celu osiągnięcia „dobrych” wartości progowych, wymagamy, aby te wartości były osiągalne w przypadku istniejących treści w internecie. Na przykład zero milisekund to idealny próg LCP, który zapewnia błyskawiczne wczytywanie, ale w większości przypadków nie da się go osiągnąć ze względu na opóźnienia w sieci i przetwarzaniu na urządzeniu. Dlatego 0 ms nie jest rozsądnym progiem „dobrego” LCP w przypadku podstawowych wskaźników internetowych.
Podczas oceny progów podstawowych wskaźników internetowych, które mogą być uznane za „dobre”, sprawdzamy, czy są one osiągalne na podstawie danych z raportu na temat użytkowania Chrome (CrUX). Aby potwierdzić, że próg jest osiągalny, wymagamy, aby co najmniej 10% źródeł spełniało „dobry” próg. Aby mieć pewność, że dobrze zoptymalizowane witryny nie zostaną błędnie zaklasyfikowane z powodu zmienności danych polowych, sprawdzamy też, czy dobrze zoptymalizowane treści zawsze spełniają kryterium „dobrej jakości”.
I na odwrót, wyznaczamy próg „słabego” źródła, określając poziom wydajności, którego nie spełnia tylko część źródeł. Jeśli nie istnieją badania, które mogłyby pomóc w określeniu progu „słabe”, 10–30% źródeł o najgorszej skuteczności jest domyślnie klasyfikowane jako „słabe”.
czy kryteria mają takie same czy inne w przypadku każdego urządzenia,
Użytkownicy korzystający z komórek i komputerów mają zazwyczaj bardzo różne możliwości i niezawodność sieci. Ma to duży wpływ na kryteria „możliwości osiągnięcia” i sugeruje, że powinniśmy rozważyć zastosowanie oddzielnych progów dla każdego z nich.
Jednak oczekiwania użytkowników dotyczące dobrych lub złych wrażeń nie zależą od urządzenia, nawet jeśli kryteria ich osiągnięcia są spełnione. Z tego powodu zalecane wartości progowe Podstawowych wskaźników internetowych nie są rozdzielane według urządzenia i w obu przypadkach stosowany jest ten sam próg. Ma to też tę zaletę, że ułatwia zrozumienie wartości progowych.
Ponadto urządzenia nie zawsze pasują do jednej kategorii. Czy powinno to zależeć od formatu urządzenia, mocy obliczeniowej lub warunków sieci? Takie same progi mają korzyść w postaci uniknięcia takiej złożoności.
Ze względu na ograniczone możliwości urządzeń mobilnych większość progów jest ustawiana na podstawie osiągalności na urządzeniach mobilnych. Bardziej odzwierciedlają one wartości graniczne dla urządzeń mobilnych niż rzeczywiste wspólne wartości graniczne dla wszystkich typów urządzeń. Ponieważ jednak większość ruchu w przypadku większości witryn pochodzi z urządzeń mobilnych, nie jest to aż tak duży problem.
Uwagi końcowe dotyczące kryteriów
Podczas oceny progów kandydatów stwierdziliśmy, że kryteria czasami się ze sobą ścierają. Może na przykład występować sprzeczność między tym, aby próg był zawsze osiągalny, a tym, aby zapewniał użytkownikom zawsze dobre wrażenia. Dodatkowo, biorąc pod uwagę, że badania dotyczące ludzkiego postrzegania zwykle podają zakres wartości, a dane o zachowaniu użytkowników pokazują stopniowe zmiany w zachowaniu, stwierdziliśmy, że często nie ma jednego „właściwego” progu dla danych. Dlatego w przypadku Podstawowych wskaźników internetowych wybieramy progi, które najlepiej spełniają kryteria, przy czym zdajemy sobie sprawę, że nie ma jednego idealnego progu i czasami trzeba wybrać spośród kilku rozsądnych progów. Zamiast zadawania pytania „Jaki jest idealny próg?” skupiliśmy się na pytaniu „Który z możliwych progów najlepiej spełnia nasze kryteria?”.
Wybór percentyla
Jak już wspomnieliśmy, do klasyfikowania ogólnej skuteczności strony lub witryny używamy wartości 75. percentyla wszystkich wizyt na tej stronie lub w tej witrynie. 75. procentyl został wybrany na podstawie 2 kryteriów. Po pierwsze, wartości procentowe powinny zapewniać, że w przypadku większości wizyt na stronie lub w witrynie osiągany jest docelowy poziom wydajności. Po drugie, na wartość w wybranym centylu nie powinny wpływać wartości odstające.
Te cele są w pewnym stopniu ze sobą sprzeczne. Aby osiągnąć pierwszy cel, zwykle lepiej jest wybrać wyższy przedział. Jednak wraz ze wzrostem wartości percentylów rośnie też prawdopodobieństwo, że wartość wynikowa będzie zawyżona przez wartości odstające. Jeśli kilka wizyt w witrynie odbywa się z powodu niestabilnych połączeń sieciowych, co skutkuje zbyt dużą liczbą próbek LCP, nie chcemy, aby o klasyfikacji witryny były brane pod uwagę te odstające przykłady. Jeśli np. oceniamy skuteczność witryny z 100 wizytami, korzystając z wysokiego kwartyla, np. 95, wystarczy 5 przykładów wartości odstających, aby wartość 95 kwartyla została przez nie zawyżona.
Ponieważ te cele są nieco sprzeczne, po przeanalizowaniu sprawy doszliśmy do wniosku, że 75. procentyl zapewnia odpowiednią równowagę. Na podstawie 75. percentyla wiemy, że w przypadku większości wizyt w witrynie (3 na 4) osiągnięto docelowy poziom wydajności lub lepszy. Dodatkowo wartość 75. percentyla jest mniej podatna na wpływ wartości odstających. Wracając do naszego przykładu: jeśli witryna ma 100 wizyt, 25 z nich musi odnotowywać duże próbki odstające dla wartości na 75. centylu, aby miały wpływ na wyniki odstające. Chociaż 25 z 100 próbek może być wartościami odstającymi, jest to znacznie mniej prawdopodobne niż w przypadku 95. procentyla.
największe wyrenderowanie treści
Progi LCP zostały ustalone z uwzględnieniem kwestii związanych z wrażeniami użytkownika i osiągalnością.
Jakość
1 sekunda jest często podawana jako czas oczekiwania użytkownika, zanim zacznie tracić skupienie na zadaniu. Po dokładnym zbadaniu odpowiednich badań stwierdziliśmy, że 1 sekunda to przybliżone określenie zakresu wartości od około kilkuset milisekund do kilku sekund.
Dwa często cytowane źródła dotyczące progu 1 sekundy to Card and other i Miller. Card definiuje próg „natychmiastowej odpowiedzi” wynoszący 1 sekundę, powołując się na jednolitą teorię poznania Newella. Newell wyjaśnia, że natychmiastowe reakcje to „reakcje, które muszą nastąpić po jakimś bodźcu w ciągu około 1 sekundy (czyli w przybliżeniu od 0,3 do 3 sekund)”. Jest to kontynuacja dyskusji Newella na temat „ograniczeń poznawania w czasie rzeczywistym”, w której zauważono, że „interakcje ze środowiskiem, które wywołują działania poznawcze, odbywają się w kolejności sekundowej” i występują w czasie od około 0,5 do 2–3 sekundy. Miller, który jest kolejnym często przywoływanym źródłem informacji o progresie 1 sekundy, zauważa, że „zadania, które ludzie mogą i będą wykonywać przy użyciu komunikacji z maszynami, zmienią swój charakter, jeśli opóźnienia odpowiedzi będą dłuższe niż 2 sekundy, a czas ten może się jeszcze wydłużyć o około sekundy”.
Badania Millera i Carda opisują czas, przez jaki użytkownik będzie czekać, zanim straci skupienie, jako zakres od około 0,3 do 3 sekund, co sugeruje, że nasz próg „dobry” dla LCP powinien mieścić się w tym zakresie. Dodatkowo, biorąc pod uwagę, że obecny próg „dobry” dla pierwszego wyrenderowania treści wynosi 1 sekundę, a największe wyrenderowanie treści zwykle następuje po pierwszym wyrenderowaniu treści, ograniczyliśmy zakres wartości progowych LCP do 1–3 sekund. Aby wybrać próg, który najlepiej odpowiada naszym kryteriom, sprawdzamy też jego osiągalność.
Możliwość osiągnięcia
Korzystając z danych z raportu CrUX, możemy określić odsetek źródeł w internecie, które spełniają nasze kandydujące progi LCP.
1 sekunda | 1,5 sekundy | 2 sekundy | 2,5 sekundy | 3 sekundy | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
komputer | 6,9% | 19% | 36% | 51% | 64% |
Chociaż mniej niż 10% źródeł osiąga próg 1 sekundy, wszystkie pozostałe progi o długości 1,5–3 sekundy spełniają nasze wymaganie, zgodnie z którym co najmniej 10% źródeł osiąga próg „dobry”, więc nadal są prawidłowymi kandydatami.
Dodatkowo, aby mieć pewność, że wybrany próg jest konsekwentnie osiągalny w przypadku dobrze zoptymalizowanych witryn, analizujemy wyniki LCP najskuteczniejszych witryn w internecie, aby ustalić progi, które można stale osiągnąć w przypadku tych witryn. Chcemy w szczególności określić próg, który można osiągnąć w 75. percentylu w przypadku witryn o najlepszej skuteczności. Wykryliśmy, że progi 1,5 i 2 sekund nie są osiągalne, natomiast 2,5 sekund jest osiągalne w ciągły sposób.
Aby określić próg „zły” dla LCP, używamy danych z pliku CrUX, aby znaleźć próg osiągany przez większość źródeł:
3 sekundy | 3,5 sekundy | 4 sekundy | 4,5 sekundy | 5 sekund | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
komputer | 36% | 26% | 19% | 14% | 10% |
W przypadku progu 4 sekund około 26% telefonów i 21% komputerów zostałoby sklasyfikowanych jako źródła o niskiej jakości. Jest to w zakresie docelowym 10–30%, więc uznaliśmy, że 4 sekundy to akceptowalny próg „słabego” działania.
Dlatego uważamy, że 2,5 sekundy to odpowiedni „dobry” próg, a 4 sekundy – „zły” próg największego wyrenderowania treści.
Interakcja do kolejnego wyrenderowania
Próg INP został ustalony z uwzględnieniem jakości i możliwości.
Jakość
Badania wskazują, że opóźnienia w wizualnej informacji zwrotnej na poziomie do około 100 ms są postrzegane jako spowodowane przez powiązane źródło, takie jak dane wejściowe użytkownika. Sugeruje to, że idealny próg interakcji przed następnym wyrenderowaniem jest bliski tej wartości.
W często przywoływanym artykule Jakoba Nielsena Czas reakcji: 3 ważne limity czas reakcji 0,1 s jest określony jako limit, który sprawia, że użytkownik ma wrażenie, że system reaguje natychmiast. Nielsen powołuje się na Millera i Carda, którzy odwołują się do książki Michotte'a z 1962 r. The Perception of Causality. W ramach badań Michotte uczestnicy eksperymentu widzieli „2 obiekty na ekranie. Obiekt A zaczyna się i zjeżdża w kierunku B. Zatrzymuje się w momencie, gdy wejdzie w kontakt z B, a ten zaczyna się oddalać od A”. Michotte zmienia przedział czasu między zatrzymaniem obiektu A a rozpoczęciem ruchu obiektu B. Michotte stwierdził, że przy opóźnieniach do około 100 ms uczestnicy mają wrażenie, że obiekt A powoduje ruch obiektu B. W przypadku opóźnień od około 100 do 200 ms postrzeganie związku przyczynowo-skutkowego jest mieszane, a w przypadku opóźnień powyżej 200 ms ruch obiektu B nie jest już postrzegany jako spowodowany przez obiekt A.
Podobnie Miller definiuje próg reakcji „odpowiedzi na aktywację elementu sterującego” jako „wskazanie działania, które jest zwykle realizowane przez ruch klucza, przełącznika lub innego elementu sterującego, który sygnalizuje, że został fizycznie aktywowany. Ta odpowiedź powinna być postrzegana jako część działania mechanicznego wywołanego przez operatora. „Opóźnienie czasowe: nie więcej niż 0,1 sekundy” oraz „Opóźnienie między naciśnięciem klawisza a wizualnym potwierdzeniem nie powinno przekraczać 0,1–0,2 sekundy”.
Niedawno w artykule Towards the Temporally Perfect Virtual Button (w tłumaczeniu „Ku idealnemu czasowikowi wirtualnego przycisku”) Kaaresoja i in. badali percepcję jednoczesności dotknięcia wirtualnego przycisku na ekranie dotykowym i następującej informacji zwrotnej wizualnej, która sygnalizuje dotknięcie przycisku, w różnych opóźnieniach. Gdy opóźnienie między naciśnięciem przycisku a wizualnym sygnałem wynosiło 85 ms lub mniej, uczestnicy badania zgłaszali, że w 75% przypadków wizualny sygnał pojawiał się jednocześnie z naciśnięciem przycisku. Dodatkowo w przypadku opóźnień 100 ms lub mniejszych uczestnicy badania zgłaszali konsekwentnie wysoką jakość dźwięku przy wciśnięciu przycisku, a w przypadku opóźnień 100–150 ms jakość była niższa, a przy opóźnieniach 300 ms spadała do bardzo niskiego poziomu.
Na podstawie tych badań stwierdzamy, że w przypadku wskaźników internetowych wartość 100 ms jest „dobrym” progiem interakcji do kolejnego wyrenderowania. Poza tym użytkownicy zgłaszają niskie poziomy jakości z opóźnieniem wynoszącym co najmniej 300 ms, więc najlepiej, gdyby był to próg „słaby”.
Osiągalność
Na podstawie danych z raportu CrUX ustaliliśmy, że większość źródeł w internecie spełnia „dobry” próg INP 200 ms w 75. percentylu:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 12% | 56% | 76% | 88% | 92% |
komputer | 83% | 96% | 98% | 99% | 99% |
Szczególną uwagę poświęciliśmy też możliwości uzyskania INP na urządzeniach mobilnych niższej klasy, które stanowią dużą część wizyt w witrynach. Potwierdziło to odpowiedniość progu 200 ms.
Biorąc pod uwagę próg 100 ms, który jest zgodny z badaniami dotyczącymi jakości wrażeń i kryteriów osiągalności, uznaliśmy, że 200 ms to rozsądny próg dla dobrych wrażeń
Aby określić próg „zły” dla LCP, używamy danych z CrUX, aby znaleźć próg osiągnięty przez większość źródeł:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 88% | 44% | 24% | 12% | 8% |
komputer | 17% | 4% | 2% | 1% | 1% |
Sugeruje to, że próg „słabej” jakości może wynosić 300 ms.
W przeciwieństwie do LCP i CLS INP ma jednak odwrotną korelację z popularnością – im bardziej popularne witryny są bardziej złożone, co skutkuje większym prawdopodobieństwem wzrostu wartości INP. Gdy przyjrzymy się 10 tys. najpopularniejszych witryn, które stanowią zdecydowaną większość stron internetowych, zobaczymy bardziej złożony obraz:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 97% | 77% | 55% | 37% | 24% |
komputer | 48% | 17% | 8% | 4% | 2% |
Na urządzeniach mobilnych próg „zły” wynoszący 300 ms spowoduje, że większość popularnych witryn zostanie sklasyfikowana jako „zła”, co spowoduje rozszerzenie kryteriów osiągalności, natomiast próg 500 ms lepiej pasuje do zakresu 10–30% witryn. Należy też pamiętać, że próg „dobry” wynoszący 200 ms jest też trudniejszy dla tych witryn, ale 23% witryn nadal spełnia to kryterium na urządzeniach mobilnych, co oznacza, że nadal spełnia ono nasze kryterium minimalnej zdawalności na poziomie 10%.
Dlatego uważamy, że 200 ms to odpowiedni „dobry” próg dla większości witryn, a ponad 500 ms to odpowiedni „zły” próg.
zbiorcze przesunięcie układu
Progi CLS zostały ustalone z uwzględnieniem kwestii związanych z wrażeniami użytkownika i osiągalnością.
Jakość
Skumulowane przesunięcie układu (Cumulative Layout Shift, CLS) to nowy wskaźnik, który mierzy, jak bardzo zmienia się widoczna treść strony. Ponieważ CLS jest nowym rodzajem danych, nie mamy dostępnych badań, które mogłyby bezpośrednio określić wartości progowe dla tego wskaźnika. Aby określić próg zgodny z oczekiwaniami użytkowników, przeanalizowaliśmy strony z różnymi wartościami przesunięcia układu, aby określić maksymalną wartość przesunięcia, która jest postrzegana jako akceptowalna, zanim nastąpią znaczne zakłócenia podczas wyświetlania treści strony. Nasze wewnętrzne testy wykazały, że zmiany na poziomie 0,15 i wyższym były konsekwentnie postrzegane jako zakłócenia, a przesunięcia o 0,1 i niższe były zauważalne, ale nie nadmiernie zakłócające. Chociaż zerowa zmiana układu jest idealna, doszliśmy do wniosku, że wartości do 0,1 są „dobrymi” wartościami progowymi CLS.
Osiągalność
Z danych raportu na temat użytkowania Chrome wynika, że prawie 50% źródeł ma CLS na poziomie 0,05 lub niższym.
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
komputer | 42% | 59% | 69% |
Dane z CrUX sugerują, że wartość 0,05 może być odpowiednim „dobrym” progiem CLS, ale zdajemy sobie sprawę, że w niektórych przypadkach trudno uniknąć zakłóceń związanych z przesuwaniem układu. Na przykład w przypadku treści zewnętrznych, takich jak treści umieszczone w mediach społecznościowych, wysokość umieszczonych treści jest czasami nieznana, dopóki nie zakończy się wczytywanie, co może spowodować przesunięcie układu o wartość większą niż 0,05. Dlatego uważamy, że chociaż wiele źródeł spełnia próg 0,05, nieco mniej rygorystyczny próg CLS 0,1 zapewnia lepszą równowagę między jakością obrazu a możliwością osiągnięcia celu. Mamy nadzieję, że w przyszłości ekosystem internetowy znajdzie rozwiązania, które pozwolą rozwiązać problem zmian układu spowodowanych przez osadzenie treści innych firm, co pozwoliłoby użyć w przyszłej wersji Core Web Vitals bardziej rygorystycznego progu „dobrego” wyniku CLS wynoszącego 0,05 lub 0.
Dodatkowo, aby określić próg „zły” dla CLS, użyliśmy danych CrUX, aby zidentyfikować próg osiągany przez większość źródeł:
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
komputer | 31% | 23% | 18% | 16% |
W przypadku progu 0,25 przybliżone 20% źródeł na telefonach i 18% źródeł na komputerach zostałoby sklasyfikowanych jako „słabe”. Wartość ta mieści się w docelowym zakresie 10–30%, więc uznaliśmy, że 0,25 to akceptowalny próg „słabej” jakości.