La ricerca e la metodologia alla base delle soglie di Core Web Vitals
Pubblicata: 21 maggio 2020
I Segnali web essenziali sono un insieme di metriche sul campo che misurano aspetti importanti dell'esperienza utente reale sul web. Core Web Vitals include metriche e soglie target per ogni metrica, che aiutano gli sviluppatori a capire qualitativamente se l'esperienza del loro sito è "buona", "migliorabile" o "scarsa". Questo post illustra l'approccio utilizzato per scegliere le soglie per le metriche di Core Web Vitals in generale, nonché la modalità di scelta delle soglie per ogni metrica specifica di Core Web Vitals.
Aggiornamento: metriche e soglie di Core Web Vitals
Core Web Vitals è composto da tre metriche: Largest Contentful Paint (LCP), Interaction to Next Paint (INP) e Cumulative Layout Shift (CLS). Ogni metrica misura un aspetto diverso dell'esperienza utente: LCP misura la velocità di caricamento percepita e indica il punto della sequenza temporale di caricamento della pagina in cui è probabile che i contenuti principali della pagina siano stati caricati; INP misura l'adattabilità e quantifica l'esperienza degli utenti quando cercano di interagire con la pagina; CLS misura la stabilità visiva e quantifica la quantità di variazione di layout imprevista dei contenuti visibili della pagina.
A ogni metrica di Core Web Vitals sono associate delle soglie che classificano il rendimento come "buono", "migliorabile" o "scadente":
Buono | Scadente | Percentile | |
---|---|---|---|
visualizzazione elemento più grande | ≤2500 ms | >4000 ms | 75 |
Interaction to Next Paint | ≤200 ms | >500 ms | 75 |
variazione layout cumulativa | ≤0,1 | > 0,25 | 75 |
Inoltre, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il valore del 75° percentile di tutte le visualizzazioni di pagina per quella pagina o quel sito. In altre parole, se almeno il 75% delle visualizzazioni di pagina di un sito raggiunge la soglia "buona", il sito viene classificato come "buono" per quella metrica. Al contrario, se almeno il 25% delle visualizzazioni di pagina raggiunge la soglia "scarso", il sito viene classificato come "scarso". Ad esempio, un LCP del 75° percentile pari a 2 secondi è classificato come "buono", mentre un LCP del 75° percentile pari a 5 secondi è classificato come "scadente".
Criteri per le soglie delle metriche di Core Web Vitals
In questa sezione esamineremo i criteri per valutare le soglie delle metriche di Core Web Vitals. Le sezioni successive descrivono in dettaglio in che modo sono stati applicati questi criteri per selezionare le soglie per ogni metrica. Nei prossimi anni prevediamo di apportare miglioramenti e aggiunte ai criteri e alle soglie per migliorare ulteriormente la nostra capacità di misurare esperienze utente ottimali sul web.
Esperienza utente di alta qualità
Il nostro obiettivo principale è ottimizzare per l'utente e la qualità della sua esperienza. Di conseguenza, il nostro obiettivo è garantire che le pagine che soddisfano le soglie "buone" di Core Web Vitals offrano un'esperienza utente di alta qualità.
Per identificare una soglia associata a un'esperienza utente di alta qualità, ci basiamo sulla percezione umana e sulla ricerca sull'HCI. Sebbene a volte questa ricerca venga riassunta utilizzando una singola soglia fissa, abbiamo riscontrato che la ricerca di base è tipicamente espressa come un intervallo di valori. Ad esempio, la ricerca sul tempo che gli utenti in genere aspettano prima di perdere il focus a volte viene descritta come 1 secondo, mentre la ricerca di base è in realtà espressa come un intervallo, da centinaia di millisecondi a più secondi. Il fatto che le soglie di percezione varieranno a seconda dell'utente e del contesto è ulteriormente supportato dai dati delle metriche di Chrome aggregati e anonimizzati, che mostrano che non esiste un unico periodo di tempo che gli utenti aspettano prima che una pagina web mostri i contenuti prima di interrompere il caricamento della pagina. Questi dati mostrano invece una distribuzione uniforme e continua. Per un esame più approfondito delle soglie di percezione umana e della ricerca HCI pertinente, consulta La scienza alla base di WebVitals.
Nei casi in cui siano disponibili ricerche sull'esperienza utente pertinenti per una determinata metrica e esista un consenso ragionevole sull'intervallo di valori nella letteratura, utilizziamo questo intervallo come input per orientare la nostra procedura di selezione delle soglie. Nei casi in cui non siano disponibili ricerche sull'esperienza utente pertinenti, ad esempio per una nuova metrica come il Cumulative Layout Shift, valutiamo invece le pagine reali che soddisfano diverse soglie candidate per una metrica, al fine di identificare una soglia che genera un'esperienza utente positiva.
Raggiungibile tramite i contenuti web esistenti
Inoltre, per garantire che i proprietari di siti riescano a ottimizzare i propri siti per raggiungere le soglie "buone", è necessario che queste soglie siano raggiungibili per i contenuti esistenti sul web. Ad esempio, anche se zero millisecondi è una soglia "buona" LCP ideale, che si traduce in esperienze di caricamento istantaneo, una soglia di zero millisecondi non è praticamente raggiungibile nella maggior parte dei casi, a causa delle latenze di elaborazione della rete e del dispositivo. Pertanto, zero millisecondi non è una soglia "buona" ragionevole per LCP per Core Web Vitals.
Quando valutiamo le soglie "buone" di Core Web Vitals, verifichiamo che siano raggiungibili in base ai dati del Rapporto sull'esperienza utente di Chrome (CrUX). Per confermare che una soglia sia raggiungibile, è necessario che almeno il 10% delle origini soddisfi la soglia "buona". Inoltre, per assicurarci che i siti ben ottimizzati non vengano classificati erroneamente a causa della variabilità dei dati sul campo, verifichiamo anche che i contenuti ben ottimizzati soddisfino costantemente la soglia "buona".
Al contrario, stabiliamo la soglia "scadente" identificando un livello di rendimento che solo una minoranza di origini non soddisfa. A meno che non siano disponibili ricerche pertinenti per definire una soglia "scadente", per impostazione predefinita il 10-30% delle origini con il rendimento peggiore viene classificato come "scadente".
Se utilizzare criteri uguali o diversi per dispositivo
L'utilizzo da dispositivi mobili e computer in genere presenta caratteristiche molto diverse in termini di funzionalità del dispositivo e affidabilità della rete. Ciò influisce notevolmente sui criteri di "raggiungibilità" e suggerisce di prendere in considerazione soglie separate per ciascuno.
Tuttavia, le aspettative degli utenti in merito a un'esperienza positiva o negativa non dipendono dal dispositivo, anche se i criteri di raggiungibilità sì. Per questo motivo, le soglie consigliate di Core Web Vitals non sono suddivise per dispositivo e viene utilizzata la stessa soglia per entrambi. Questo ha anche il vantaggio di semplificare la comprensione delle soglie.
Inoltre, i dispositivi non sempre rientrano perfettamente in una categoria. Deve essere basato sul fattore di forma del dispositivo, sulla potenza di elaborazione o sulle condizioni della rete? Avere le stesse soglie ha il vantaggio aggiuntivo di evitare questa complessità.
La natura più limitata dei dispositivi mobili comporta che la maggior parte delle soglie sia impostata in base alla raggiungibilità da dispositivo mobile. È più probabile che rappresentino soglie per i dispositivi mobili, piuttosto che una vera soglia congiunta per tutti i tipi di dispositivi. Tuttavia, dato che spesso i dispositivi mobili rappresentano la maggior parte del traffico per la maggior parte dei siti, questo non è un problema.
Considerazioni finali sui criteri
Durante la valutazione delle soglie dei candidati, abbiamo riscontrato che a volte i criteri erano in conflitto tra loro. Ad esempio, può esserci una tensione tra il raggiungimento costante di una soglia e la garanzia di esperienze utente costantemente positive. Inoltre, poiché la ricerca sulla percezione umana in genere fornisce un intervallo di valori e le metriche sul comportamento degli utenti mostrano cambiamenti graduali nel comportamento, abbiamo riscontrato che spesso non esiste una singola soglia "corretta" per una metrica. Pertanto, il nostro approccio per i Core Web Vitals è stato scegliere le soglie che soddisfano al meglio i criteri, pur riconoscendo che non esiste una soglia perfetta e che a volte potrebbe essere necessario scegliere tra più soglie candidate ragionevoli. Anziché chiederci "qual è la soglia perfetta?", ci siamo concentrati sulla domanda "quale soglia candidata soddisfa al meglio i nostri criteri?"
Scelta del percentile
Come indicato in precedenza, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il valore del 75° percentile di tutte le visite a quella pagina o a quel sito. Il 75° percentile è stato scelto in base a due criteri. Innanzitutto, il percentile deve garantire che la maggior parte delle visite a una pagina o a un sito abbia raggiunto il livello di rendimento target. In secondo luogo, il valore del percentile scelto non deve essere eccessivamente influenzato dagli outlier.
Questi obiettivi sono in qualche modo in contraddizione tra loro. Per soddisfare il primo obiettivo, in genere è preferibile un percentile più elevato. Tuttavia, con percentile più elevati, aumenta anche la probabilità che il valore risultante sia influenzato da valori anomali. Se alcune visite a un sito avvengono su connessioni di rete instabili che generano campioni LCP eccessivamente grandi, non vogliamo che la classificazione del nostro sito venga decisa da questi campioni outlier. Ad esempio, se stavamo valutando il rendimento di un sito con 100 visite utilizzando una percentuale elevata come la 95a, sarebbero sufficienti solo 5 campioni di valori anomali per far sì che il valore della 95a percentuale sia influenzato dagli outlier.
Dato che questi obiettivi sono un po' in contraddizione, dopo l'analisi abbiamo concluso che il 75° percentile offre un equilibrio ragionevole. Utilizzando il 75° percentile, sappiamo che la maggior parte delle visite al sito (3 su 4) ha registrato il livello di rendimento target o superiore. Inoltre, il valore del 75° percentile è meno soggetto a essere influenzato dagli outlier. Tornando al nostro esempio, per un sito con 100 visite, 25 di queste visite dovrebbero registrare campioni di valori anomali di grandi dimensioni affinché il valore al 75° percentile sia interessato da valori anomali. Sebbene sia possibile che 25 campioni su 100 siano valori anomali, è molto meno probabile rispetto al caso del 95° percentile.
visualizzazione elemento più grande
Le soglie LCP sono state impostate tenendo conto della qualità dell'esperienza e della raggiungibilità.
Qualità dell'esperienza
Spesso si cita 1 secondo come il tempo che un utente attende prima di iniziare a perdere l'attenzione su un'attività. Da un'attenta analisi della ricerca pertinente, abbiamo riscontrato che 1 secondo è un'approssimazione per descrivere un intervallo di valori, da circa diverse centinaia di millisecondi a diversi secondi.
Due fonti comunemente citate per la soglia di 1 secondo sono Card e altri e Miller. La scheda definisce una soglia di "risposta immediata" di 1 secondo, citando le teorie unificate della cognizione di Newell. Newell definisce le risposte immediate come "risposte che devono essere date a uno stimolo entro circa un secondo (ovvero da circa 0, 3 secondi a circa 3 secondi)". Questo si basa sulla discussione di Newell sui "limiti in tempo reale alla cognizione", dove viene notato che "le interazioni con l'ambiente che evocano considerazioni cognitive si verificano nell'ordine dei secondi", che vanno da circa 0,5 a 2-3 secondi. Miller, un'altra fonte comunemente citata per la soglia di 1 secondo, afferma che "le attività che gli esseri umani possono e dovranno svolgere con le comunicazioni con le macchine cambieranno notevolmente se i ritardi di risposta sono superiori a due secondi, con una possibile estensione di un altro secondo circa".
La ricerca di Miller e Card descrive il tempo che un utente attende prima di perdere l'attenzione come un intervallo, da circa 0,3 a 3 secondi, il che suggerisce che la nostra soglia LCP "buona" dovrebbe rientrare in questo intervallo. Inoltre, dato che la soglia "buona" esistente per First Contentful Paint è di 1 secondo e che Largest Contentful Paint si verifica in genere dopo First Contentful Paint, abbiamo ulteriormente limitato la nostra gamma di soglie LCP candidate, da 1 secondo a 3 secondi. Per scegliere la soglia in questo intervallo che soddisfa al meglio i nostri criteri, esaminiamo la possibilità di raggiungere queste soglie candidate.
Raggiungibilità
Utilizzando i dati di CrUX, possiamo determinare la percentuale di origini sul web chesoddisfano le nostre soglie "buone" per LCP candidate.
1 secondo | 1,5 secondi | 2 secondi | 2,5 secondi | 3 secondi | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
desktop | 6,9% | 19% | 36% | 51% | 64% |
Sebbene meno del 10% delle origini soddisfi la soglia di 1 secondo, tutte le altre soglie da 1, 5 a 3 secondi soddisfano il nostro requisito che almeno il 10% delle origini soddisfi la soglia "buona" e sono quindi ancora candidate valide.
Inoltre, per garantire che la soglia scelta sia raggiungibile in modo coerente per i siti ben ottimizzati, analizziamo il rendimento LCP per i siti con il rendimento migliore sul web per determinare quali soglie sono raggiungibili in modo coerente per questi siti. Nello specifico, il nostro obiettivo è identificare una soglia che sia costantemente conseguibile al 75° percentile per i siti con il rendimento migliore. Abbiamo riscontrato che le soglie di 1,5 e 2 secondi non sono raggiungibili in modo coerente, mentre 2,5 secondi è raggiungibile in modo coerente.
Per identificare una soglia "scadente" per LCP, utilizziamo i dati di CrUX per identificare una soglia soddisfatta dalla maggior parte delle origini:
3 secondi | 3,5 secondi | 4 secondi | 4,5 secondi | 5 secondi | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
desktop | 36% | 26% | 19% | 14% | 10% |
Per una soglia di 4 secondi, circa il 26% delle origini da telefono e il 21% delle origini da computer verrebbero classificate come scarse. Questo valore rientra nell'intervallo target del 10-30%, pertanto concludiamo che 4 secondi è una soglia "scadente" accettabile.
Pertanto, concludiamo che 2, 5 secondi è una soglia ragionevole per "buono" e 4 secondi è una soglia ragionevole per "scadente" per la metrica Largest Contentful Paint.
Interaction to Next Paint
Le soglie INP sono state impostate tenendo conto della qualità dell'esperienza e della raggiungibilità.
Qualità dell'esperienza
Le ricerche sono ragionevolmente coerenti nel concludere che i ritardi nel feedback visivo fino a circa 100 ms sono percepiti come causati da una fonte associata, come un input dell'utente. Ciò suggerisce che una soglia "buona" per Interaction to Next Paint ideale sarebbe vicina a questa.
L'articolo di Jakob Nielsen Tempi di risposta: i 3 limiti importanti, spesso citato, definisce 0,1 secondo come il limite per far sì che l'utente percepisca che il sistema reagisce istantaneamente. Nielsen cita Miller e Card, che citano La percezione della causalità di Michotte del 1962. Nella ricerca di Michotte, ai partecipanti all'esperimento vengono mostrati "due oggetti su uno schermo. L'oggetto A si avvia e si sposta verso B. Si ferma nel momento in cui entra in contatto con B, mentre quest'ultimo si avvia e si allontana da A." Michotte varia l'intervallo di tempo tra l'arresto dell'oggetto A e l'inizio del movimento dell'oggetto B. Michotte ha scoperto che, per ritardi fino a circa 100 ms, i partecipanti hanno l'impressione che l'oggetto A causi il movimento dell'oggetto B. Per ritardi da circa 100 ms a 200 ms, la percezione della causalità è mista e, per ritardi superiori a 200 ms, il movimento dell'oggetto B non è più considerato causato dall'oggetto A.
Analogamente, Miller definisce una soglia di risposta per "Risposta all'attivazione del controllo" come "l'indicazione dell'azione data, in genere, dal movimento di un tasto, un interruttore o un altro elemento di controllo che indica che è stato attivato fisicamente. Questa risposta dovrebbe essere percepita come parte dell'azione meccanizzata indotta dall'operatore. Ritardo: non più di 0,1 secondi" e successivamente "il ritardo tra l'attivazione di un tasto e il feedback visivo non deve essere superiore a 0,1-0,2 secondi".
Più di recente, in Towards the Temporally Perfect Virtual Button, Kaaresoja e altri hanno studiato la percezione della simultaneità tra il tocco di un pulsante virtuale su un touchscreen e il successivo feedback visivo che indica che il pulsante è stato toccato, per vari ritardi. Quando il ritardo tra la pressione del pulsante e il feedback visivo era inferiore o uguale a 85 ms, i partecipanti hanno riferito che il feedback visivo appariva contemporaneamente alla pressione del pulsante nel 75% dei casi. Inoltre, per ritardi di massimo 100 ms, i partecipanti hanno segnalato una qualità percepita costantemente elevata della pressione del pulsante, con una qualità percepita in calo per ritardi da 100 a 150 ms e livelli molto bassi per ritardi di 300 ms.
Da ciò deduciamo che la ricerca indica 100 ms come soglia "buona" per Interaction to Next Paint per Web Vitals. Inoltre, dato che gli utenti hanno segnalato livelli di qualità bassi per ritardi di 300 ms o più, idealmente questa sarebbe la soglia "scadente".
Raggiungibilità
Utilizzando i dati di CrUX, abbiamo stabilito che la maggior parte delle origini sul web soddisfa la soglia "buona" di 200 ms per l'INP al 75° percentile:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 12% | 56% | 76% | 88% | 92% |
desktop | 83% | 96% | 98% | 99% | 99% |
Abbiamo inoltre prestato particolare attenzione alla possibilità di trasmettere gli INP per i dispositivi mobili di fascia bassa, che rappresentano una percentuale elevata di visite ai siti. Ciò ha ulteriormente confermato l'idoneità di una soglia di 200 ms.
Tenendo conto della soglia di 100 ms supportata dalla ricerca sulla qualità dell'esperienza e dai criteri di raggiungibilità, concludiamo che 200 ms è una soglia ragionevole per esperienze positive.
Per identificare una soglia "scadente" per LCP, utilizziamo i dati di CrUX per identificare una soglia raggiunta dalla maggior parte delle origini:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 88% | 44% | 24% | 12% | 8% |
desktop | 17% | 4% | 2% | 1% | 1% |
Ciò suggerisce che possiamo avere una soglia "scarsa" di 300 ms.
Tuttavia, a differenza di LCP e CLS, l'INP ha una correlazione inversa con la popolarità: i siti più popolari sono spesso più complessi, con una maggiore probabilità di un INP più elevato. Se esaminiamo i 10.000 siti principali, che rappresentano la stragrande maggioranza della navigazione su internet, emerge un quadro più complesso:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 97% | 77% | 55% | 37% | 24% |
desktop | 48% | 17% | 8% | 4% | 2% |
Sui dispositivi mobili, una soglia di 300 ms per la valutazione "scadente" classificherebbe la maggior parte dei siti popolari come "scadenti", allungando i nostri criteri di raggiungibilità, mentre 500 ms si adatta meglio all'intervallo del 10-30% dei siti. Inoltre, tieni presente che la soglia "buona" di 200 ms è più difficile da raggiungere anche per questi siti, ma il 23% dei siti supera ancora questo limite sui dispositivi mobili, quindi soddisfa i nostri criteri di percentuale di superamento minima del 10%.
Per questo motivo, riteniamo che 200 ms sia una soglia ragionevole per una buona esperienza utente per la maggior parte dei siti e che un tempo superiore a 500 ms sia una soglia ragionevole per un'esperienza utente scadente.
variazione layout cumulativa
Le soglie CLS sono state impostate tenendo conto della qualità dell'esperienza e della raggiungibilità.
Qualità dell'esperienza
Cumulative Layout Shift (CLS) è una nuova metrica che misura la variazione dei contenuti visibili di una pagina. Poiché il CLS è una metrica nuova, non siamo a conoscenza di ricerche che possano fornire informazioni dirette sulle soglie per questa metrica. Pertanto, per identificare una soglia in linea con le aspettative degli utenti, abbiamo valutato pagine reali con diversi livelli di variazione del layout, per determinare la quantità massima di variazione che viene percepita come accettabile prima di causare interruzioni significative durante l'utilizzo dei contenuti della pagina. Nei nostri test interni, abbiamo riscontrato che i livelli di spostamento da 0,15 in su sono stati percepiti in modo coerente come disgreganti, mentre gli spostamenti di 0,1 e inferiori erano evidenti, ma non eccessivamente disgreganti. Pertanto, anche se lo spostamento del layout pari a zero è ideale, abbiamo concluso che i valori fino a 0,1 sono candidati come soglie CLS "buone".
Raggiungibilità
In base ai dati di CrUX, possiamo vedere che quasi il 50% delle origini ha un CLS pari o inferiore a 0,05.
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
desktop | 42% | 59% | 69% |
Sebbene i dati di CrUX suggeriscano che 0,05 potrebbe essere una soglia ragionevole per un CLS "buono", siamo consapevoli che in alcuni casi d'uso è difficile evitare cambiamenti di layout che possono causare interruzioni. Ad esempio, per i contenuti incorporati di terze parti, come gli elementi incorporati dei social media, l'altezza dei contenuti incorporati a volte non è nota fino al termine del caricamento, il che può comportare un cambiamento del layout superiore a 0,05. Pertanto, concludiamo che, sebbene molte origini raggiungano la soglia di 0,05, la soglia CLS leggermente meno rigorosa di 0,1 offre un miglior equilibrio tra qualità dell'esperienza e raggiungibilità. Ci auguriamo che, in futuro, l'ecosistema web identifichi soluzioni per risolvere i cambiamenti di layout causati dagli elementi incorporati di terze parti, il che consentirebbe di utilizzare una soglia "buona" CLS più rigorosa di 0,05 o 0 in una futura iterazione di Core Web Vitals.
Inoltre, per determinare una soglia "scadente" per il CLS, abbiamo utilizzato i dati di CrUX per identificare una soglia raggiunta dalla maggior parte delle origini:
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
desktop | 31% | 23% | 18% | 16% |
Per una soglia di 0,25, circa il 20% delle origini da telefono e l'18% delle origini da computer verrebbero classificate come "scarse". Questo valore rientra nell'intervallo target del 10-30%, pertanto abbiamo concludeto che 0,25 è una soglia "scadente" accettabile.