Veröffentlicht: 30. Oktober 2024
Das Erstellen von Features mit Large Language Models (LLMs) unterscheidet sich erheblich von der konventionellen Softwareentwicklung. Entwickler müssen Prompt-Engineering lernen, um mit nicht deterministischen Ergebnissen, der Vorverarbeitung von Eingaben und der Nachbearbeitung von Ergebnissen umzugehen.
Eine der Herausforderungen ist, dass das Testen der Ausgabe von LLMs zur Ermittlung der Gültigkeit und Qualität zeitaufwendig ist. Entwickler greifen oft auf die Batch-Generierung der Ausgabe mit verschiedenen Eingaben zurück und validieren sie dann manuell.
Ein besser skalierbarer Ansatz zur Bewertung der Ergebnisse verschiedener Modelle und Aufforderungen ist die LLM als Jurymitglieder. Bei dieser Methode wird die Modellvalidierung an ein anderes LLM delegiert, anstatt sich auf menschliche Beurteilungen zu verlassen. Das zweite LLM muss ein größeres, cloudbasiertes LLM sein, das wahrscheinlich bessere Logikfunktionen hat.
In diesem Dokument zeigen wir anhand einer Zusammenfassung, wie Sie verschiedene Modelle vergleichen können. Außerdem sehen Sie die Qualitätsverbesserung von Gemma zu Gemma 2.
Modelle für Vergleichs- und Vorbereitungsdaten auswählen
Wir haben die Fähigkeiten von drei Modellen bei der Zusammenfassung bewertet. Wir haben die Ergebnisse von zwei offenen Modellen von Google verglichen, die clientseitig ausgeführt werden können: Gemma und Gemma 2, beide mit 2 Milliarden Parametern. Im Gegensatz dazu haben wir ein größeres, leistungsfähigeres cloudbasiertes Modell getestet: Gemini 1.5 Flash.
Wir haben ein Dataset mit 2.225 BBC-Artikeln verwendet, die Themen wie Wirtschaft, Unterhaltung, Politik, Sport und Technik abdecken, und eine Zusammenfassung jedes Artikels mit jedem der ausgewählten Modelle erstellt. Für alle Modelle wurde derselbe Prompt verwendet:
Fassen Sie den Artikel in einem Absatz zusammen.
Wir haben die ursprünglichen Artikel und die generierten Zusammenfassungen in einer Datenbank gespeichert, damit in jedem Schritt problemlos darauf zugegriffen werden konnte.
Juror für die Analyse und Bewertung von Zusammenfassungen auswählen
Um die Qualität der Zusammenfassungen zu analysieren, haben wir mit Gemini 1.5 Flash die von Gemma 2B und Gemma 2 2B erstellten Zusammenfassungen bewertet. Unser Ansatz basiert auf der Ausrichtung, die Teil des Summarisierungsmesswerts von DeepEval ist.
Der Messwert Übereinstimmung gibt an, wie oft die Aussagen in einer Zusammenfassung durch den ursprünglichen Inhalt gestützt werden, auf dem die Zusammenfassung basiert.
Wir haben den Bewertungsprozess in zwei Schritte unterteilt. Zuerst haben wir das Modell aufgefordert, jede Zusammenfassung in separate Aussagen aufzuteilen. Anschließend haben wir das Modell aufgefordert, zu ermitteln, ob jede Aussage durch den ursprünglichen Artikeltext gestützt wird.
Erklärung aus Zusammenfassungen extrahieren
Wir haben Gemini 1.5 Flash gebeten, längeren Text in separate Aussagen aufzuteilen. Beispiel:
Everton-Verteidiger David Weir hat Spekulationen über den europäischen Fußball heruntergespielt, obwohl sein Team nach dem Sieg gegen Liverpool den zweiten Platz in der Premier League belegt.
Gemini 1.5 Flash teilt diesen Satz in die folgenden Aussagen auf:
- „David Weir spielt als Verteidiger für Everton.“
- „Everton liegt derzeit auf dem zweiten Platz in der Premier League.“
- „Everton hat Liverpool in einem kürzlichen Spiel besiegt.“
- „David Weir hat die Diskussion über Everton, die im europäischen Football gespielt wird, minimiert.“
Anweisungen validieren
Wir haben dann Gemini 1.5 Flash gebeten, den ursprünglichen Satz im Vergleich zu den aufgeteilten Sätzen zu analysieren. Das Modell hat die Gültigkeit der einzelnen Aussagen folgendermaßen klassifiziert:
- Ja: Die Aussage wird durch den Originaltext gestützt.
- Nein. Die Aussage widerspricht dem Originaltext.
- Keine Ahnung. Es ist nicht möglich zu überprüfen, ob die Aussage unterstützt wird oder dem ursprünglichen Text widerspricht.
Analyse der Ergebnisse
Dieser Prozess führte zu zwei Messwerten, mit denen sich die Modelle vergleichen lassen:
- Übereinstimmung: Wie oft hat das Modell Zusammenfassungen erstellt, die Aussagen enthalten, die durch den Originaltext gestützt werden?
- Reichhaltigkeit: Die durchschnittliche Anzahl der Aussagen in einer vom Modell generierten Zusammenfassung.
Ausrichtung
Die Übereinstimmung wurde berechnet, indem die Anzahl der Zusammenfassungen gezählt wurde, in denen mindestens eine Aussage als „Nein“ gekennzeichnet ist, und diese Zahl durch die Gesamtzahl der Zusammenfassungen geteilt wurde.
Das Gemini 1.5 Flash-Modell hat die höchsten Übereinstimmungsbewertungen, die über 92 % liegen. Das heißt, es ist sehr gut darin, sich an Fakten zu halten, und vermeidet es, etwas zu erfinden.
Gemma 2 2B hat eine respektable Punktzahl von 78,64 %, was für eine gute Genauigkeit spricht. Die vorherige Version von Gemma 2B hat einen niedrigeren Ausrichtungsfaktor, was bedeutet, dass es tendenziell Informationen enthält, die vom Originaltext nicht unterstützt werden.
Reichhaltigkeit
Wir haben die Modellvielfalt berechnet, indem wir die Anzahl der vom Modell generierten Aussagen für jede Zusammenfassung gemittelt haben.
Gemma 2 2B hat mit 9,1 den höchsten Wert für den Reichtum, was darauf hindeutet, dass die Zusammenfassungen mehr Details und wichtige Punkte enthalten. Das Gemini 1.5-Flash-Modell hat auch hohe Werte für den Reichtum, die über 8,4 liegen. Gemma 2B hatte niedrigere Werte für den Detaillierungsgrad, was darauf hindeutet, dass es möglicherweise nicht so viele der wichtigen Informationen aus dem Originaltext erfasst.
Fazit
Wir haben festgestellt, dass kleinere Modelle, die clientseitig ausgeführt werden können, wie Gemma 2 2B, eine Ausgabe mit hoher Qualität generieren können. Cloudbasierte Modelle wie Gemini 1.5 Flash eignen sich besonders gut zum Erstellen von Zusammenfassungen, die auf den ursprünglichen Artikel abgestimmt sind und eine große Menge an Informationen enthalten. Der Unterschied sollte jedoch neben der Anwendungsleistung, den Datenschutz- und Sicherheitsanforderungen und anderen Fragen gewichtet werden, die Sie sich stellen sollten, wenn Sie entscheiden, ob Sie clientseitige KI entwickeln sollten.
Die Funktionen der Gemma-Modellfamilie haben sich deutlich weiterentwickelt, da Gemma 2 2B aussagekräftigere und besser abgestimmte Zusammenfassungen generieren kann als Gemma 2B.
Anwendungsfälle bewerten
In diesem Dokument wurde nur ein kleiner Teil dessen beschrieben, was mit dem LLM als Bewertungsmethode möglich ist. Selbst bei der Zusammenfassung können Sie sich weitere Messwerte ansehen und die Ergebnisse können davon abweichen. Sie können beispielsweise die Abdeckung bewerten, indem Sie mit einem Prompt die wichtigsten Punkte eines Artikels ermitteln und dann mit einem anderen Prompt prüfen, ob diese wichtigen Punkte in jeder Zusammenfassung behandelt werden.
Bei anderen Anwendungsfällen wie dem Schreiben, Umschreiben oder der Retrieval-Augmented Generation (RAG) können für dieselben Messwerte unterschiedliche Ergebnisse erzielt werden. Für die Bewertung sollten dann andere Messwerte verwendet werden.
Überlegen Sie bei der Implementierung dieses Ansatzes, wie ein Mensch die Ausgabe bewerten würde, um zu ermitteln, welche Messwerte für Ihre Anwendungsfälle am besten geeignet sind. Es lohnt sich auch, sich vorhandene Frameworks wie DeepEval anzusehen, die möglicherweise bereits eine Reihe von Messwerten enthalten, die für Ihren Anwendungsfall geeignet sind.
Haben Sie LLM als Jury-Mitglied zur Bewertung von Modellen implementiert? Tweeten Sie uns Ihre Ergebnisse unter @ChromiumDev oder teilen Sie sie mit Chrome für Entwickler auf LinkedIn.