Grenzwerte für Core Web Vitals-Messwerte definieren

Forschung und Methodik hinter den Core Web Vitals-Grenzwerten

Bryan McQuade
Bryan McQuade

Core Web Vitals umfasst eine Reihe von Feldmesswerten, mit denen wichtige Aspekte der tatsächlichen Nutzererfahrung im Web gemessen werden. Core Web Vitals umfasst Messwerte sowie Zielgrenzwerte für jeden Messwert. So können Entwickler qualitativ verstehen, ob die Nutzerfreundlichkeit ihrer Website „gut“, „verbesserungsbedürftig“ oder „schlecht“ ist. In diesem Beitrag wird erläutert, wie die Grenzwerte für Core Web Vitals-Messwerte allgemein festgelegt werden und wie die Grenzwerte für die einzelnen Core Web Vitals-Messwerte festgelegt wurden.

Auffrischung: Core Web Vitals-Messwerte und -Grenzwerte

Im Jahr 2020 umfassen die Core Web Vitals drei Messwerte: Largest Contentful Paint (LCP), First Input Delay (FID) und Cumulative Layout Shift (CLS). Mit jedem Messwert wird ein anderer Aspekt der Nutzererfahrung gemessen: Mit dem LCP wird die wahrgenommene Ladegeschwindigkeit gemessen und der Punkt auf der Zeitleiste für den Seitenaufbau markiert, an dem der Hauptinhalt der Seite wahrscheinlich geladen wurde. FID misst die Reaktionsfähigkeit und quantifiziert die Erfahrung der Nutzer, wenn sie versuchen, zum ersten Mal mit der Seite zu interagieren. CLS misst die visuelle Stabilität und quantifiziert die Anzahl unerwarteter Layoutverschiebungen sichtbarer Seiteninhalte.

Jeder Core Web Vitals-Messwert ist mit Grenzwerten verknüpft, die die Leistung als „Gut“, „Optimierung erforderlich“ oder „Schlecht“ kategorisiert:

Empfehlungen zum Grenzwert für Largest Contentful Paint Empfehlungen zum Grenzwert für First Input Delay Empfehlungen zum Grenzwert für Cumulative Layout Shift
  Gut Schlecht Perzentil
Largest Contentful Paint ≤ 2.500 ms > 4.000 ms 75
First Input Delay ≤100ms > 300 ms 75
Cumulative Layout Shift ≤,0,1 > 0,25 75

Zur Klassifizierung der Gesamtleistung einer Seite oder Website verwenden wir außerdem den 75. Perzentilwert aller Seitenaufrufe für diese Seite oder Website. Wenn also mindestens 75 % der Seitenaufrufe einer Website den Grenzwert „Gut“ erreichen, wird die Website für diesen Messwert als „gute“ Leistung eingestuft. Umgekehrt gilt: Wenn mindestens 25 % der Seitenaufrufe den Grenzwert „schlecht“ erreichen, wird die Website als „schlecht“ eingestuft. So wird beispielsweise ein LCP-Wert von 2 Sekunden beim 75. Perzentil als „gut“, ein LCP im 75. Perzentil von 5 Sekunden als „schlecht“ eingestuft.

Kriterien für die Messwertgrenzwerte von Core Web Vitals

Beim Festlegen von Grenzwerten für Core Web Vitals-Messwerte haben wir zuerst Kriterien identifiziert, die jeder Grenzwert erfüllen muss. Im Folgenden erkläre ich die Kriterien, die Google bei der Auswertung von Core Web Vitals-Grenzwerten für 2020 zugrunde gelegt hat. In den folgenden Abschnitten wird ausführlicher erläutert, wie diese Kriterien im Jahr 2020 zur Auswahl der Grenzwerte für die einzelnen Messwerte angewendet wurden. In den kommenden Jahren werden wir die Kriterien und Grenzwerte weiter verbessern und ergänzen, um die Nutzerfreundlichkeit im Web weiter zu verbessern.

Hohe Nutzererfahrung

Unser Hauptziel ist die Optimierung für die Nutzer und deren Qualität. Daher möchten wir dafür sorgen, dass Seiten, die die Core Web Vitals-Grenzwerte für „Gut“ erfüllen, eine qualitativ hochwertige Nutzererfahrung bieten.

Um einen Grenzwert für eine hohe Nutzerfreundlichkeit zu ermitteln, schauen wir uns die menschliche Wahrnehmung und HCI-Forschung an. Auch wenn diese Untersuchung manchmal anhand eines einzelnen festen Schwellenwerts zusammengefasst wird, stellen wir fest, dass die zugrunde liegende Forschung in der Regel als Wertebereich ausgedrückt wird. Die Forschung zur Zeit, die Nutzer normalerweise warten, bevor sie den Fokus verlieren, wird manchmal als 1 Sekunde beschrieben, während die zugrunde liegende Studie als Bereich von Hunderten Millisekunden bis zu mehreren Sekunden ausgedrückt wird. Die Tatsache, dass die Wahrnehmungsschwellen je nach Nutzer und Kontext variieren, wird auch durch aggregierte und anonymisierte Chrome-Messwertdaten gestützt. Dies zeigt, dass Nutzer nicht einfach auf eine Webseite warten müssen, bis Inhalte angezeigt werden, bevor der Seitenaufbau abgebrochen wird. Vielmehr zeigen diese Daten eine gleichmäßige und kontinuierliche Verteilung. Ausführlichere Informationen zu den Grenzwerten der menschlichen Wahrnehmung und relevanter HCI-Forschung finden Sie unter The Science Behind Web Viitals.

Wenn für einen bestimmten Messwert relevante Studien zur Nutzererfahrung verfügbar sind und es einen angemessenen Konsens über den Wertebereich in der Literatur gibt, verwenden wir diesen Bereich als Orientierung bei der Auswahl des Schwellenwerts. Falls keine relevanten Studien zur Nutzererfahrung verfügbar sind, z. B. bei einem neuen Messwert wie Cumulative Layout Shift, werten wir echte Seiten aus, die unterschiedliche Schwellenwerte für einen Messwert erfüllen, um einen Schwellenwert zu ermitteln, der zu einer guten Nutzererfahrung führt.

Für vorhandene Webinhalte erreichbar

Damit Websiteinhaber ihre Websites erfolgreich so optimieren können, dass sie die Grenzwerte für „gut“ erreichen, müssen diese Grenzwerte auch für bestehende Inhalte im Web erreichbar sein. Beispielsweise ist ein Wert von null Millisekunden ein idealer, „guter“ Schwellenwert für den LCP, der sofortige Ladevorgänge ermöglicht. Ein Schwellenwert von null Millisekunden ist aufgrund von Latenzen bei der Netzwerk- und Geräteverarbeitung aber in den meisten Fällen praktisch nicht erreichbar. Ein Wert von 0 Millisekunden ist daher kein angemessener Grenzwert für „gute“ LCP-Werte für Core Web Vitals.

Bei der Bewertung von „guten“ Grenzwerten für die Core Web Vitals prüfen wir, ob diese Grenzwerte anhand von Daten aus dem Bericht zur Nutzererfahrung in Chrome (Chrome User Experience, CrUX) erreichbar sind. Zur Bestätigung, dass ein Grenzwert erreichbar ist, müssen derzeit mindestens 10 % der Ursprünge den Grenzwert für „gut“ erreichen. Damit gut optimierte Websites nicht aufgrund von Schwankungen bei den Felddaten falsch klassifiziert werden, überprüfen wir außerdem, ob gut optimierte Inhalte immer den Grenzwert für „Gut“ erreichen.

Umgekehrt setzen wir den Grenzwert für „schlecht“ ein, indem wir ein Leistungsniveau ermitteln, das nur von einer Minderheit von Ursprüngen derzeit nicht erreicht wird. Sofern keine Forschungsergebnisse zur Definition eines „schlechten“ Grenzwerts verfügbar sind, werden standardmäßig die 10–30% der Ursprünge mit der geringsten Leistung als „schlecht“ eingestuft.

Abschließende Gedanken zu den Kriterien

Bei der Auswertung von Kandidatengrenzwerten haben wir festgestellt, dass die Kriterien manchmal in Konflikt miteinander stehen. Beispielsweise kann es einen Konflikt zwischen einem Grenzwert, der dauerhaft erreichbar ist, und der Gewährleistung einer konstant guten Nutzererfahrung geben. Da die Forschung zur menschlichen Wahrnehmung in der Regel eine Reihe von Werten liefert und die Messwerte zum Nutzerverhalten schrittweise Änderungen des Verhaltens zeigen, haben wir außerdem festgestellt, dass es für einen Messwert oft keinen „richtigen“ Schwellenwert gibt. Daher haben wir für die Core Web Vitals von 2020 Schwellenwerte ausgewählt, die die oben genannten Kriterien am besten erfüllen. Gleichzeitig haben wir uns bewusst, dass es keinen perfekten Grenzwert gibt und dass wir unter Umständen aus mehreren angemessenen Grenzwerten auswählen müssen. Anstatt zu fragen, was der perfekte Grenzwert ist, haben wir uns die Frage gestellt, welcher Schwellenwert unsere Kriterien am besten erfüllt.

Perzentilauswahl

Wie bereits erwähnt, verwenden wir zur Klassifizierung der Gesamtleistung einer Seite oder Website den Wert des 75. Perzentils aller Besuche auf dieser Seite oder Website. Das 75. Perzentil wurde anhand von zwei Kriterien ausgewählt. Erstens sollte mit dem Perzentil sichergestellt werden, dass bei den meisten Besuchen einer Seite oder Website die angestrebte Leistung erzielt wurde. Zweitens: Der Wert beim ausgewählten Perzentil sollte nicht zu sehr durch Ausreißer beeinflusst werden.

Diese Ziele stehen im Widerspruch zueinander. Um das erste Ziel zu erreichen, ist ein höheres Perzentil in der Regel besser geeignet. Bei höheren Perzentilen steigt jedoch auch die Wahrscheinlichkeit, dass der resultierende Wert von Ausreißern beeinflusst wird. Wenn einige Besuche auf einer Website über instabile Netzwerkverbindungen zustande kommen, was zu übermäßig großen LCP-Stichproben führt, möchten wir nicht, dass die Standortklassifizierung anhand dieser Ausreißerstichproben getroffen wird. Wenn wir beispielsweise die Leistung einer Website mit 100 Besuchen anhand eines hohen Perzentiles wie dem 95. auswerten würden, würden nur 5 Ausreißer gebraucht, damit der Wert des 95. Perzentils von den Ausreißern beeinflusst wird.

Da diese Ziele etwas im Widerspruch zueinander stehen, kamen wir nach der Analyse zu dem Schluss, dass das 75. Perzentil ein angemessenes Gleichgewicht trifft. Durch die Verwendung des 75. Perzentils wissen wir, dass bei den meisten Besuchen der Website (3 von 4) die angestrebte oder bessere Leistung erzielt wurde. Außerdem ist der Wert des 75. Perzentils weniger wahrscheinlich von Ausreißern betroffen. Wenn wir noch einmal auf unser Beispiel zurückkommen: Bei einer Website mit 100 Besuchen müssten 25 dieser Besuche große Ausreißerproben melden, damit der Wert beim 75. Perzentil von Ausreißern betroffen ist. 25 von 100 Stichproben sind zwar Ausreißer, aber viel weniger wahrscheinlich als beim 95. Perzentil.

Largest Contentful Paint

Nutzerfreundlichkeit

1 Sekunde wird oft als die Zeit angegeben, die ein Nutzer warten muss, bis er den Fokus auf eine Aufgabe verliert. Bei genauerer Prüfung relevanter Forschungsergebnisse haben wir festgestellt, dass 1 Sekunde ein Näherungswert ist, um einen Wertebereich von etwa mehreren hundert Millisekunden bis zu mehreren Sekunden zu beschreiben.

Zwei häufig angeführte Quellen für den 1-Sekunden-Schwellenwert sind Card et al und Miller. Die Karte definiert einen 1-sekündigen Grenzwert für „Sofortantwort“ unter Berufung auf die Unified Theories of Cognition von Newell. Newell erklärt sofortige Reaktionen als „Antworten, die innerhalb von ungefähr einer Sekunde (etwa 0,3 bis 3 Sekunden) auf einen bestimmten Stimulus erfolgen müssen. Dies folgt der Diskussion von Newell zu „Einschränkungen in Echtzeit bei der Wahrnehmung“, in der angemerkt wird, dass „Interaktionen mit der Umgebung, die kognitive Überlegungen hervorrufen, in Sekundenschnelle erfolgen“, die zwischen 0,5 und 2 bis 3 Sekunden liegt. Miller, eine weitere häufig zitierte Quelle für den 1-Sekunden-Schwellenwert, stellt fest, dass Aufgaben, die Menschen mit Maschinenkommunikation ausführen können und werden, ihren Charakter stark verändern werden, wenn die Antwortverzögerungen mehr als zwei Sekunden betragen, mit einer möglichen Verlängerung um etwa eine weitere Sekunde.

Die Forschung von Miller and Card beschreibt die Zeit, die ein Nutzer wartet, bevor er den Fokus in einem Bereich von etwa 0,3 bis 3 Sekunden verliert, was darauf hindeutet, dass unser Schwellenwert für den LCP-Wert „gut“ in diesem Bereich liegen sollte. Da der bestehende First Contentful Paint-Schwellenwert von 1 Sekunde 1 Sekunde beträgt und der Largest Contentful Paint normalerweise nach dem First Contentful Paint erfolgt, beschränken wir außerdem unseren Bereich der möglichen LCP-Schwellenwerte von 1 Sekunde auf 3 Sekunden. Zur Auswahl des Schwellenwerts in diesem Bereich, der unsere Kriterien am besten erfüllt, sehen wir uns die Erreichbarkeit dieser Kandidatengrenzwerte unten an.

Erreichbarkeit

Anhand der Daten aus CrUX können wir den Prozentsatz der Quellen im Web ermitteln, die den LCP-Grenzwert für „gut“ erreichen.

% der CrUX-Ursprünge, die als „gut“ klassifiziert wurden (für mögliche LCP-Grenzwerte)

  1 Sekunde 1,5 Sekunden 2 Sekunden 2,5 Sekunden 3 Sekunden
phone 3,5% 13 % 27 % 42 % 55 %
Computer 6,9 % 19 % 36 % 51 % 64 %

Während weniger als 10% der Ursprünge den Grenzwert von 1 Sekunde erreichen, erfüllen alle anderen Schwellenwerte von 1,5 bis 3 Sekunden unsere Anforderung, dass mindestens 10% der Ursprünge den Grenzwert für „gut“ erfüllen und daher weiterhin gültige Kandidaten sind.

Darüber hinaus analysieren wir die LCP-Leistung für die leistungsstärksten Websites im Web, um sicherzustellen, dass der gewählte Schwellenwert auch für gut optimierte Websites dauerhaft erreichbar ist. So können wir ermitteln, welche Schwellenwerte für diese Websites kontinuierlich erreicht werden können. Unser Ziel ist es insbesondere, einen Grenzwert zu bestimmen, der dauerhaft beim 75. Perzentil für die leistungsstärksten Websites erreicht werden kann. Wir haben festgestellt, dass die Schwellenwerte von 1,5 und 2 Sekunden nicht konsistent erreicht werden können, während 2,5 Sekunden konsistent erreichbar sind.

Um einen „schlechten“ Grenzwert für den LCP zu ermitteln, ermitteln wir anhand der CrUX-Daten einen Grenzwert, der von den meisten Ursprüngen erreicht wird:

% der CrUX-Ursprünge, die als „schlecht“ klassifiziert wurden (für mögliche LCP-Grenzwerte)

  3 Sekunden 3,5 Sekunden 4 Sekunden 4,5 Sekunden 5 Sekunden
phone 45 % 35 % 26 % 20 % 15 %
Computer 36 % 26 % 19 % 14 % 10 %

Bei einem Schwellenwert von 4 Sekunden werden etwa 26% der Smartphone- und 21% der Computer als schlecht eingestuft. Dies liegt im Zielbereich von 10–30 %. 4 Sekunden sind also ein akzeptabler „schlechter“ Grenzwert.

Daher kommen wir zu dem Schluss, dass 2, 5 Sekunden ein angemessener Grenzwert für „gut“ und 4 Sekunden ein angemessener „schlechter“ Grenzwert für Largest Contentful Paint sind.

First Input Delay

Nutzerfreundlichkeit

Die Forschung ist recht einheitlich und schlussfolgert, dass Verzögerungen beim visuellen Feedback von bis zu etwa 100 ms so wahrgenommen werden, als stammten sie von einer zugehörigen Quelle, z. B. einer Nutzereingabe. Dies deutet darauf hin, dass ein „guter“ Grenzwert von 100 ms für die First Input Delay wahrscheinlich als Mindestwert angemessen ist: Wenn die Verzögerung für die Verarbeitung der Eingabe 100 ms überschreitet, können andere Verarbeitungs- und Renderingschritte nicht rechtzeitig abgeschlossen werden.

In den von Jakob Nielsen häufig zitierten Nachrichten Response Times: The 3 Important Limits wird 0,1 Sekunden als Limit definiert, bei dem der Nutzer das Gefühl haben kann, dass das System sofort reagiert. Nielsen zitiert Miller und Card, die sich auf Michottes The Perception of Causality aus dem Jahr 1962 beziehen. Michottes Forschung zeigte den Testteilnehmern „zwei Objekte auf einem Bildschirm. Objekt A geht weiter und bewegt sich in Richtung B. Er hört in dem Moment auf, wenn er mit B in Kontakt kommt, während Letzterer beginnt und sich von A wegbewegt.“ Michotte variiert das Zeitintervall zwischen dem Anhalten von Objekt A und dem Beginn der Bewegung von Objekt B. Michotte stellt fest, dass die Teilnehmer bei Verzögerungen von bis zu 100 ms den Eindruck haben, dass Objekt A die Bewegung von Objekt B verursacht. Bei Verzögerungen von etwa 100 ms bis 200 ms ist die Wahrnehmung der Kausalität gemischt. Bei Verzögerungen von über 200 ms wird die Bewegung von Objekt B nicht mehr so wahrgenommen, als wurde sie von Objekt A verursacht.

Ebenso definiert Miller einen Antwortgrenzwert für „Reaktion auf die Aktivierungskontrolle“ als „Anzeige einer Aktion, die normalerweise durch die Bewegung eines Schlüssels, Schalters oder eines anderen Kontrollmitglieds erfolgt, das signalisiert, dass es physisch aktiviert wurde. Diese Antwort sollte als Teil des mechanischen Handelns wahrgenommen werden, das vom Operator ausgelöst wird. Zeitverzögerung: Nicht mehr als 0,1 Sekunde und später „Die Verzögerung zwischen dem Drücken einer Taste und dem visuellen Feedback darf nicht mehr als 0,1 bis 0,2 Sekunden betragen.“

In Towards the Temporally Perfect Virtual Button untersuchten Kaaresoja et al. die Wahrnehmung der Gleichzeitigkeit zwischen dem Berühren einer virtuellen Schaltfläche auf einem Touchscreen und dem nachfolgenden visuellen Feedback, das anzeigt, dass die Schaltfläche berührt wurde, und zwar über verschiedene Verzögerungen. Wenn die Verzögerung zwischen dem Drücken der Taste und dem visuellen Feedback 85 ms oder weniger betrug, gaben die Teilnehmenden an, dass das visuelle Feedback in 75% der Fälle gleichzeitig mit dem Drücken der Taste erschien. Darüber hinaus berichteten die Teilnehmer bei Verzögerungen von 100 ms oder weniger von einer konstant hohen Qualität des Drückens der Taste, wobei die wahrgenommene Qualität bei Verzögerungen von 100 ms bis 150 ms schwächte und bei Verzögerungen von 300 ms sehr niedrige Werte erreichten.

Aus den obigen Antworten kommen wir zu dem Schluss, dass die Studien auf einen Bereich von Werten um 100 ms als geeigneter Grenzwert für die First Input Delay für Web Vitals verweisen. Da Nutzer bei Verzögerungen von 300 ms oder mehr von niedriger Qualität gemeldet wurden, sind 300 ms auch ein angemessener Grenzwert für „schlecht“.

Erreichbarkeit

Anhand der Daten aus CrUX stellen wir fest, dass die Mehrheit der Ursprünge im Web den FID-Grenzwert von 100 ms beim 75. Perzentil erreicht:

% der CrUX-Ursprünge, die für den FID-Grenzwert von 100 ms als „gut“ klassifiziert wurden

100 ms
phone 78 %
Computer > 99 %

Außerdem beobachten wir, dass Top-Websites im gesamten Web diesen Grenzwert konsistent beim 75. Perzentil erreichen können (und diesen Grenzwert häufig auch beim 95. Perzentil).

Aus diesem Grund gehen wir davon aus, dass 100 ms ein angemessener Grenzwert für „gut“ für FID ist.

Cumulative Layout Shift

Nutzerfreundlichkeit

Cumulative Layout Shift (CLS) ist ein neuer Messwert, der misst, wie stark der sichtbare Inhalt einer Seite verschoben wird. Da CLS neu ist, sind uns keine Untersuchungen bekannt, die direkt zu den Schwellenwerten für diesen Messwert führen können. Um einen Schwellenwert zu ermitteln, der den Erwartungen der Nutzer entspricht, haben wir echte Seiten mit unterschiedlich großen Layoutverschiebungen ausgewertet, um die maximale Verschiebung zu ermitteln, die als akzeptabel wahrgenommen wird, bevor es bei der Nutzung von Seiteninhalten zu erheblichen Störungen kommt. Bei unseren internen Tests haben wir festgestellt, dass Verschiebungen von 0,15 und darüber durchweg als störend empfunden wurden, während Verschiebungen von 0,1 und darunter zwar spürbar, aber nicht übermäßig störend waren. Daher ist zwar eine Layoutverschiebung ohne Verschiebung ideal, aber wir sind zu dem Schluss gekommen, dass Werte bis 0,1 mögliche „gute“ CLS-Schwellenwerte sind.

Erreichbarkeit

Anhand der CrUX-Daten haben wir festgestellt, dass fast 50% der Ursprünge einen CLS-Wert von 0,05 oder weniger haben.

% der CrUX-Ursprünge, die als „gut“ klassifiziert wurden (für mögliche CLS-Grenzwerte)

  0,05 0,2 0,15
phone 49 % 60 % 69 %
Computer 42 % 59 % 69 %

Die CrUX-Daten deuten darauf hin, dass 0,05 ein angemessener CLS-„guter“ Grenzwert sein könnte.Wir wissen jedoch, dass es in einigen Anwendungsfällen derzeit schwierig ist, störende Layoutverschiebungen zu vermeiden. Bei eingebetteten Inhalten von Drittanbietern, z. B. Einbettungen in sozialen Medien, ist die Höhe der eingebetteten Inhalte manchmal erst nach dem Laden bekannt, was zu einer Layoutverschiebung von mehr als 0, 05 führen kann. Daher kommen wir zu dem Schluss, dass zwar viele Ursprünge den Schwellenwert von 0,05 erreichen, der etwas weniger strikte CLS-Schwellenwert von 0,1 jedoch ein besseres Gleichgewicht zwischen Qualität der Nutzerfreundlichkeit und Erreichbarkeit bietet. Wir hoffen, dass das Websystem in Zukunft Lösungen finden wird, um Layoutverschiebungen zu umgehen, die durch Einbettungen von Drittanbietern verursacht werden.Diese ermöglichen die Verwendung eines strengeren „guten“ CLS-Schwellenwerts von 0,05 oder 0 in einer zukünftigen Iteration von Core Web Vitals.

Darüber hinaus haben wir mithilfe von CrUX-Daten einen Schwellenwert ermittelt, der von den meisten Ursprüngen erreicht wird, um einen „schlechten“ Grenzwert für CLS zu bestimmen:

% der CrUX-Ursprünge, die als „schlecht“ klassifiziert wurden (für mögliche CLS-Grenzwerte)

  0,15 0,2 0,25 0,3
phone 31 % 25 % 20 % 18 %
Computer 31 % 23 % 18 % 16 %

Bei einem Schwellenwert von 0,25 werden etwa 20% der Smartphone- und 18% der Desktop-Ursprünge als „schlecht“ eingestuft. Dies liegt im Zielbereich von 10–30 %. Daher kamen wir zu dem Schluss, dass 0,25 ein akzeptabler „schlechter“ Grenzwert ist.