LLM-Funktionen mit Zusammenfassung vergleichen

André Cipriani Bandarra

Alexandra Klepper

Veröffentlicht: 30. Oktober 2024

Das Erstellen von Funktionen mit Large Language Models (LLMs) unterscheidet sich deutlich vom herkömmlichen Softwareentwicklungsprozess. Entwickler müssen Prompt-Engineering lernen, um mit nicht deterministischen Ergebnissen, der Vorverarbeitung von Eingaben und der Nachbearbeitung von Ergebnissen umzugehen.

Eine der Herausforderungen, die Sie uns genannt haben, ist, dass das Testen der Ausgabe von LLMs und das Bestimmen der Gültigkeit und Qualität zeitaufwendig ist. Entwickler greifen oft auf die Batchgenerierung der Ausgabe mit verschiedenen Eingaben zurück und validieren sie dann manuell.

Ein skalierbarerer Ansatz zur Bewertung der Ergebnisse verschiedener Modelle und Prompts ist die LLM-Jury. Bei diesem Verfahren wird die Modellvalidierung nicht dem menschlichen Urteilsvermögen überlassen, sondern an eine andere LLM delegiert. Das zweite LLM muss ein größeres, cloudbasiertes LLM sein, das wahrscheinlich bessere Inferenzfähigkeiten hat.

In diesem Dokument zeigen wir anhand einer Zusammenfassung, wie Sie verschiedene Modelle vergleichen können. Außerdem sehen Sie, wie sich die Qualität von Gemma zu Gemma 2 verbessert hat.

Modelle für den Vergleich auswählen und Daten vorbereiten

Wir haben die Fähigkeiten von drei Modellen bei der Zusammenfassung bewertet. Wir haben die Ergebnisse von zwei offenen Modellen von Google verglichen, die clientseitig ausgeführt werden können: Gemma und Gemma 2, beide mit 2 Milliarden Parametern. Zum Vergleich haben wir auch ein größeres, leistungsfähigeres cloudbasiertes Modell bewertet: Gemini 1.5 Flash.

Wir haben einen Dataset mit 2.225 BBC-Artikeln verwendet, die Themen wie Wirtschaft, Unterhaltung, Politik, Sport und Technologie abdecken. Mit jedem der ausgewählten Modelle haben wir eine Zusammenfassung der einzelnen Artikel erstellt. Für alle Modelle wurde derselbe Prompt verwendet:

Fassen Sie den Artikel in einem Absatz zusammen.

Wir haben die ursprünglichen Artikel und die generierten Zusammenfassungen in einer Datenbank gespeichert, damit in jedem Schritt problemlos darauf zugegriffen werden konnte.

Juror für die Analyse und Bewertung von Zusammenfassungen auswählen

Um die Qualität der Zusammenfassungen zu analysieren, haben wir mit Gemini 1.5 Flash die von Gemma 2B und Gemma 2 2B erstellten Zusammenfassungen bewertet. Unser Ansatz basiert auf der Ausrichtung, die Teil des Summarisierungsmesswerts von DeepEval ist.

Der Messwert Übereinstimmung gibt an, wie oft die Aussagen in einer Zusammenfassung durch den ursprünglichen Inhalt gestützt werden, auf dem die Zusammenfassung basiert.

Wir haben den Bewertungsprozess in zwei Schritte unterteilt. Zuerst haben wir das Modell aufgefordert, jede Zusammenfassung in separate Aussagen aufzuteilen. Anschließend haben wir das Modell aufgefordert, zu ermitteln, ob die einzelnen Aussagen durch den ursprünglichen Artikeltext gestützt werden.

Erklärung aus Zusammenfassungen extrahieren

Wir haben Gemini 1.5 Flash gebeten, längeren Text in separate Aussagen aufzuteilen. Beispiel:

Everton-Verteidiger David Weir hat Spekulationen über den europäischen Fußball heruntergespielt, obwohl sein Team nach dem Sieg gegen Liverpool den zweiten Platz in der Premier League belegt.

Gemini 1.5 Flash teilt diesen Satz in die folgenden Aussagen auf:

„David Weir spielt als Verteidiger für Everton.“
„Everton liegt derzeit auf dem 2. Platz in der Premier League.“
„Everton hat Liverpool in einem kürzlichen Spiel besiegt.“
„David Weir hat die Diskussion über die Teilnahme von Everton am europäischen Fußball minimiert.“

Anweisungen validieren

Wir haben dann Gemini 1.5 Flash gebeten, den ursprünglichen Satz im Vergleich zu den aufgeteilten Sätzen zu analysieren. Das Modell hat die Gültigkeit der einzelnen Aussagen folgendermaßen klassifiziert:

Ja: Die Aussage wird durch den Originaltext gestützt.
Nein. Die Aussage widerspricht dem Originaltext.
Weiß nicht. Es ist nicht möglich zu überprüfen, ob die Aussage unterstützt wird oder dem ursprünglichen Text widerspricht.

Analyse der Ergebnisse

Dieser Prozess führte zu zwei Messwerten, mit denen sich die Modelle vergleichen lassen:

Übereinstimmung: Wie oft hat das Modell Zusammenfassungen erstellt, die Aussagen enthalten, die durch den Originaltext gestützt werden?
Reichhaltigkeit: Die durchschnittliche Anzahl der Aussagen in einer vom Modell generierten Zusammenfassung.

Ausrichtung

Die Übereinstimmung wurde berechnet, indem die Anzahl der Zusammenfassungen gezählt wurde, in denen mindestens eine Aussage als „Nein“ gekennzeichnet ist, und diese Zahl durch die Gesamtzahl der Zusammenfassungen geteilt wurde.

Das Gemini 1.5 Flash-Modell hat die höchsten Übereinstimmungsbewertungen, die über 92 % liegen. Das bedeutet, dass es sehr gut ist, sich an die Fakten zu halten und nichts zu erfinden.

Gemma 2 2B hat eine respektable Punktzahl von 78,64%, was für eine gute Genauigkeit spricht. Die vorherige Version von Gemma 2B hat einen niedrigeren Übereinstimmungsscore. Das bedeutet, dass sie eher Informationen enthält, die nicht durch den Originaltext unterstützt werden.

Reichhaltigkeit

Wir haben die Modellvielfalt berechnet, indem wir die Anzahl der vom Modell generierten Aussagen für jede Zusammenfassung gemittelt haben.

Gemma 2 2B hat mit 9,1 den höchsten Wert für den Reichtum, was darauf hindeutet, dass die Zusammenfassungen mehr Details und wichtige Punkte enthalten. Das Gemini 1.5-Flash-Modell hat auch hohe Werte für den Reichtum, die über 8,4 liegen. Gemma 2B hatte niedrigere Werte für den Reichtum, was darauf hindeutet, dass möglicherweise nicht so viele wichtige Informationen aus dem Originaltext erfasst werden.

Fazit

Wir haben festgestellt, dass kleinere Modelle, die clientseitig ausgeführt werden können, wie Gemma 2 2B, eine Ausgabe mit hoher Qualität generieren können. Cloudbasierte Modelle wie Gemini 1.5 Flash eignen sich hervorragend für die Erstellung von Zusammenfassungen, die dem Originalartikel entsprechen und eine beträchtliche Menge an Informationen enthalten. Der Unterschied sollte jedoch neben der Anwendungsleistung, den Datenschutz- und Sicherheitsanforderungen und anderen Fragen abgewogen werden, die Sie sich stellen können, wenn Sie entscheiden, ob Sie clientseitige KI entwickeln sollten.

Die Funktionen der Gemma-Modellfamilie haben sich deutlich weiterentwickelt, da Gemma 2 2B aussagekräftigere und besser abgestimmte Zusammenfassungen generieren kann als Gemma 2B.

Anwendungsfälle bewerten

In diesem Dokument wurde nur ein kleiner Teil dessen beschrieben, was mit dem LLM als Bewertungsmethode möglich ist. Auch bei einer Zusammenfassung können Sie sich weitere Messwerte ansehen. Die Ergebnisse können sich unterscheiden. Sie können beispielsweise die Abdeckung bewerten, indem Sie mit einem Prompt die wichtigsten Punkte eines Artikels ermitteln und dann mit einem anderen Prompt prüfen, ob diese wichtigen Punkte in jeder Zusammenfassung behandelt werden.

Bei anderen Anwendungsfällen wie dem Schreiben, Umschreiben oder der Retrieval-Augmented Generation (RAG) können für dieselben Messwerte unterschiedliche Ergebnisse erzielt werden. Für die Bewertung sollten dann andere Messwerte verwendet werden.

Überlegen Sie bei der Implementierung dieses Ansatzes, wie ein Mensch die Ausgabe bewerten würde, um zu ermitteln, welche Messwerte für Ihre Anwendungsfälle am besten geeignet sind. Es lohnt sich auch, sich vorhandene Frameworks wie DeepEval anzusehen, die möglicherweise bereits eine Reihe von Messwerten enthalten, die für Ihren Anwendungsfall geeignet sind.

Haben Sie LLM als Juror zur Bewertung von Modellen implementiert? Tweeten Sie uns Ihre Ergebnisse unter @ChromiumDev oder teilen Sie sie mit Chrome für Entwickler auf LinkedIn.