Während prädiktive KI Erkenntnisse aus vorhandenen Daten extrahiert, geht generative KI einen Schritt weiter und erstellt etwas Neues. Sie kann Text schreiben, Bilder generieren, Code erstellen oder sogar vollständige Benutzeroberflächen entwerfen. Hier einige gängige Beispiele für Anwendungsfälle von generativer KI:
- Inhalte erstellen: KI-Schreibassistenten können Entwürfe erstellen und vorhandenen Text optimieren.
- Zusammenfassungen: Tools wie Google AI Overviews fassen lange Dokumente, Besprechungen oder Webseiten in prägnanten, umsetzbaren Zusammenfassungen zusammen.
- Codegenerierung: Entwicklertools nutzen generative KI, um Code zu schreiben und zu refaktorieren, was die Produktivität von Entwicklern steigert.
- Bilder und Assets erstellen: Mit Vision-Modellen können Nutzer visuelle Assets wie Banner und Thumbnails erstellen.
Der Kreislauf generativer KI
Die meisten generativen KI-Modelle werden mit neuronalen Netzwerken und Transformer-Architekturen trainiert. Modelle lernen, das nächste Element in einer Sequenz vorzuschlagen, z. B. das nächste Wort, den nächsten Pixel oder die nächste Note, basierend auf den vorherigen Elementen.
Mathematisch gesehen ist das nicht weit von prädiktiver KI entfernt. Beide lernen Muster aus Daten. Der Unterschied liegt im Umfang.
Bei der prädiktiven KI sind die Ausgabeoptionen auf einige Labels beschränkt, z. B. „Kündigung“ oder „keine Kündigung“. Bei generativer KI kann der Ausgabebereich Hunderttausende von Optionen umfassen. Der auf Milliarden von Beispielen trainierte Vorhersagemechanismus entwickelt sich zu einer leistungsstarken Engine, die neue, bisher unbekannte Ausgaben generieren kann.
Die Entwicklung eines generativen KI-Systems folgt einem iterativen Ansatz.
Wir sehen uns an, wie das mit unserer Beispielanwendung BlogBuddy funktioniert. Das ist ein Assistent für Content-Management-Systeme, der Nutzern hilft, eingängige Beschreibungen und SEO-freundliche Artikelüberschriften zu erstellen.
Anwendungsfall definieren
Ihre Problembeschreibung sollte Folgendes enthalten:
- Eingabe- und Ausgabemodalität: Das kann Text (Prosa oder Code), Bilder oder Audio sein.
- Eingabemethode Stammen die Inhalte aus einem Uploadfeld, Freitext oder anderen strukturierten Eingaben?
- Zielgruppe Wer führt diese Aufgabe aus? Haben sie allgemeines Wissen oder benötigen sie spezielles Wissen?
Die Funktionen von BlogBuddy drehen sich um die Textgenerierung. Die Eingabe ist semistrukturiert: Nutzer geben ein Thema oder einen kurzen Entwurf an und das Modell gibt Varianten zurück. Die Zielgruppe ist Marketing, mit Spezialwissen im redaktionellen Bereich.
Es ist wichtig, einen Qualitätsstandard für Ihre Ausgaben festzulegen. In unserem Fall möchten wir kurzen, übersichtlichen und keywordreichen Text generieren, der zum Stil der Publikation passt.
Anhand klarer Erfolgskriterien können Sie den Rest des Prozesses steuern. Weitere Informationen zum Erheben von Messwerten für Erfolg finden Sie unter Evaluierungsgesteuerte Entwicklung.
Basismodell auswählen
Es gibt eine Vielzahl von Modellen, die mit großen, universellen Datasets vortrainiert wurden. Ihr Verhalten kann an spezifische Anforderungen angepasst werden. Generative KI-Modelle sind in der Regel viel größer und komplexer als Vorhersagemodelle. Daher ist es am besten, auf einem vorhandenen Modell aufzubauen, anstatt ein eigenes zu entwickeln und zu trainieren.
Ihre Auswahl bestimmt die Funktionen, Kosten, Anpassbarkeit und Datenschutzgrenzen Ihres Produkts. Die Modellauswahl hängt stark davon ab, auf welcher Plattform Sie Ihr KI-System bereitstellen.
Später in diesem Kurs erfahren Sie, wie Sie Ihre Plattform auswählen.
Prompt- und Context Engineering
Nachdem Sie Ihr Modell ausgewählt haben, müssen Sie es mit einem Prompt mit den richtigen Anweisungen füttern. Für BlogBuddy können wir das Modell so auffordern:
Generate three short, engaging title suggestions for this article
Sie können einem Prompt verschiedene Arten von Informationen hinzufügen. Beispiel:
- Ein Systemprompt, der das allgemeine Verhalten festlegt.
- Eingabespezifischer Kontext für die aktuelle Aufgabe.
- Nutzeranweisungen in dialogorientierten Anwendungen wie Chatbots oder Agents.
Inferenz und Nachbearbeitung
Sobald Ihr Prompt zusammengestellt ist, wird er zur Inferenz an das Modell gesendet. Sie können Modellparameter ändern, z. B. die Temperatur (für Kreativität) und die maximale Anzahl von Tokens (für Länge und Ausführlichkeit), um die Reaktion des Modells anzupassen. Nach der Generierung wird die Ausgabe häufig mit zusätzlichen Regeln und Richtlinien verarbeitet.
Sie können beispielsweise geschlechtergerechten Text umformulieren, den Tonfall anpassen oder verbotene Begriffe herausfiltern.
Um die Transparenz und das Vertrauen zu stärken, können Sie ein kleineres, sekundäres Modell hinzufügen, um das Ergebnis zu klassifizieren oder zusammenzufassen. Beispiel: Einleitung aus 12 verwandten Artikeln generiert. Konfidenz: hoch.“
Bewertung und Feedback-Schleife
Da der Ausgabebereich für generative KI praktisch unendlich ist, gibt es für die meisten Prompts nicht nur eine einzige richtige Antwort. Standardisierte Benchmarks wie MMLU oder SQuAD können die allgemeine Leistungsfähigkeit von Modellen messen, aber sie erfassen selten die spezifischen Bedürfnisse menschlicher Nutzer. Im Produktkontext müssen Sie Ihre eigene Mischung aus qualitativen und quantitativen Messwerten definieren:
- Richtigkeit: Ist die Ausgabe sachlich richtig?
- Nützlichkeit: Entspricht die Ausgabe den Erwartungen, die durch den Prompt oder die Intention des Nutzers geweckt wurden?
- Lesbarkeit und Ton: Ist die Ausgabe klar und entspricht sie den Markenstandards?
- Menschlicher Aufwand: Wie viel manuelle Bearbeitung oder Kuration ist erforderlich?
- Domänenwissen: Spiegelt die Ausgabe domänenspezifisches Wissen wider?
Um diese Messwerte zu bewerten, können Sie manuelle Überprüfungen und automatisierte Bewertungen kombinieren. Sie können Nutzer beispielsweise bitten, Ausgaben aus der Praxis zu bewerten, ein zweites Modell für die automatische Bewertung verwenden (auch LLM-as-a-judge genannt) und regelmäßig interne Überprüfungen auf Bias oder Halluzinationen durchführen.
Echte Nutzungsdaten sind eines Ihrer größten Assets, wenn Sie generative KI einsetzen. Wenn möglich, protokollieren Sie diese Interaktionen, um Prompts und Kontexte anzupassen, verschiedene Modelle zu testen oder Parameter im Laufe der Zeit anzupassen. Jede Nutzerinteraktion, Korrektur oder Bewertung liefert Feedback, das Ihnen bei der Entscheidung über die nächsten Optimierungsschritte helfen kann:
- Unerwartete Nutzereingaben können Ihnen helfen, festzustellen, ob Sie das richtige Problem lösen.
- Wiederkehrende domainspezifische Anfragen können die Modellauswahl beeinflussen. Sie können von einem großen, allgemeinen LLM zu einem kleinen, feinabgestimmten Modell wechseln.
- Häufige Halluzinationen können auf einen Mangel an spezifischem Kontext in Ihren Prompts hinweisen.
- Umfangreiche Änderungen können darauf hindeuten, dass nicht genügend gemeinsamer Kontext vorhanden ist. Das Modell kennt keine Informationen, die der Nutzer als selbstverständlich ansieht.
Im Laufe der Zeit verwandeln diese Feedbackschleifen Ihre generative KI-Funktion von einem statischen Modellaufruf in ein dynamisches System, das sich kontinuierlich an die Anforderungen und Vorlieben Ihrer Nutzer anpasst.
Häufige Probleme und Risikominderungen
Da generative KI in einem offenen Raum von Ein- und Ausgaben arbeitet, ist die Risikofläche viel größer als bei prädiktiven Systemen. KI kann nicht nur falsche Ausgaben generieren, sondern auch schädliche, voreingenommene oder irreführende Inhalte erstellen oder Nutzer unbeabsichtigt manipulieren. Diese Fehler können das Vertrauen untergraben und Ihr Unternehmen finanziellen oder rechtlichen Folgen aussetzen.
Deshalb ist für generative KI ein proaktiver, fortlaufender Ansatz für das Risikomanagement erforderlich. Hier sind einige der häufigsten Risiken:
- Halluzination: Das Modell erfindet Fakten oder gibt Details falsch an. Um das Problem zu beheben, verwenden Sie RAG für die Faktenfundierung.
- Übermäßiges Vertrauen: Nutzer gehen davon aus, dass die Ausgaben immer korrekt sind. Um das Risiko zu minimieren, sollten Sie einen Ablauf für die Überprüfung und Bearbeitung statt der automatischen Veröffentlichung empfehlen. Im Kurs KI-Governance: Verantwortungsvoll entwickeln erfahren Sie, wie Sie Nutzern helfen können, ihr Vertrauen zu kalibrieren.
- Inkonsistenz: Die Ausgaben variieren stark zwischen den Durchläufen. Um das Problem zu beheben, können Sie Prompt-Vorlagen, Temperatursteuerung oder Few-Shot-Beispiele verwenden, um Ton und Struktur zu stabilisieren.
- Schädliche Inhalte: Das Modell gibt voreingenommene, anstößige oder manipulative Texte aus. Um das Risiko zu minimieren, sollten Sie vor der Auslieferung Moderationsfilter und Toxizitätsklassifizierungen anwenden. Testen Sie die Ausgaben kontinuierlich mit echten Prompts und richten Sie einen Feedback-Loop ein, um Grenzfälle zu kennzeichnen und das Modell entsprechend zu trainieren.
- Latenz und Kosten: Große Modelle können langsam und teuer sein. Gerade wenn Sie eine groß angelegte Einführung anstreben, kann es schwierig sein, die Kosten und die Ressourcennutzung von Modellen im Voraus zu schätzen. Verwenden Sie Caching, Batching und kleinere Modelle für kurze Aufgaben, um das Problem zu beheben.
Wichtige Erkenntnisse
Kurz gesagt: Generative KI verwandelt rohe Ideen in konkrete Inhalte wie Texte, Bilder, Code oder Konversationen. Sie ist besonders nützlich, wenn Kreativität und Anpassungsfähigkeit wichtiger sind als Präzision.
Als Webentwickler hängt Ihr Erfolg davon ab, dass Sie die richtigen Prompts entwerfen, Ihr Modell auf den richtigen Daten basieren und das System kontinuierlich an die Nutzerpräferenzen anpassen.
Ressourcen
Kleinere und nachhaltige Modelle auswählen Für fortgeschrittene Lernende:
- Crashkurs zum maschinellen Lernen für generative KI
- Toolkit für verantwortungsbewusste generative KI
- Weitere Informationen zu den verschiedenen Arten von Basismodellen in generativer KI finden Sie in Kapitel 5 von The Art of AI Product Development.
Wissen testen
Was ist der Hauptunterschied zwischen der Ausgabe von generativer KI und prädiktiver KI?
Welche Rolle spielt die Modelltemperatur?
Warum reichen standardisierte Benchmarks oft nicht aus, um generative KI zu bewerten?
Welche der folgenden Maßnahmen wird häufig zur Eindämmung von Halluzinationen eingesetzt?
Was sollten Sie gemäß dem generativen KI-Zyklus mit Nutzerfeedback tun?