預測式 AI 會從現有資料中擷取洞察資訊,而生成式 AI 更進一步,可創造新內容。例如撰寫文字、生成圖片、產生程式碼,甚至設計完整的使用者介面。以下列舉幾個常見的生成式 AI 用途:
- 內容創作:AI 寫作助手可以草擬內容,並潤飾現有文字。
- 摘要:Google AI 資訊摘要等工具可將長篇文件、會議或網頁濃縮成簡潔實用的摘要。
- 程式碼生成:開發人員工具使用生成式 AI 編寫及重構程式碼,提高開發人員的工作效率。
- 圖片和素材資源製作:使用者可運用視覺模型製作橫幅和縮圖等視覺素材資源。
生成式 AI 迴圈
大多數生成式 AI 模型都是使用類神經網路和Transformer 架構訓練而成。模型會根據序列中的前一個元素,學習建議下一個元素,例如下一個字詞、像素或音符。
從數學角度來看,這與預測式 AI 差異不大。兩者都會從資料中學習模式。兩者差異在於規模。
在預測型 AI 中,輸出選項僅限於幾個標籤,例如「流失」或「未流失」。在生成式 AI 中,輸出空間可能包含數十萬個選項。經過數十億個範例訓練後,預測機制會演變成強大的引擎,能夠生成前所未見的新輸出內容。
生成式 AI 系統的開發方式是反覆改良。
我們將以範例應用程式 BlogBuddy 說明這項功能如何運作。BlogBuddy 是內容管理系統助理,可協助使用者產生吸引人的說明和有助於 SEO 的文章標題。
定義用途
問題陳述應包含:
- 輸入和輸出模態。可以是文字 (散文或程式碼)、圖片或音訊。
- 輸入方式。內容是否來自上傳欄位、自由文字或其他結構輸入內容?
- 目標對象。誰會執行這項工作?他們是否具備一般知識,還是需要專業知識?
BlogBuddy 的功能主要與文字生成有關。輸入內容為半結構化:使用者提供主題或簡短草稿,模型會傳回各種變化版本。目標對象是行銷人員,具備編輯專業知識。
請務必為輸出內容設定品質標準。在本例中,我們希望生成簡短、易於瀏覽且含有大量關鍵字的文字,並符合發布內容的語氣。
明確的成功指標有助於引導後續流程。您將在評估導向開發中,進一步瞭解如何收集成效指標。
選取基礎模型
我們提供多種預先訓練模型,這些模型是以大型通用資料集訓練而成。您可以根據特定需求調整其行為。 生成式 AI 模型通常比預測模型大得多,也複雜得多,因此最好是根據現有模型建構,而不是自行建構及訓練。
這項選擇會決定產品的功能、費用、可自訂程度和隱私權界線。模型選擇與您部署 AI 系統的平台高度相關。
本課程稍後會說明如何選擇平台。
提示和脈絡工程
選好模型後,您需要透過提示提供正確的指令。以 BlogBuddy 為例,我們可能會這樣提示模型:
Generate three short, engaging title suggestions for this article
提示可加入多種資訊,例如:
- 設定一般行為的系統提示。
- 目前工作的輸入特定情境。
- 對話式應用程式 (例如聊天機器人或代理程式) 中的使用者指令。
推論和後續處理
組裝完成後,系統會將提示傳送至模型進行推論。您可以變更模型參數,包括溫度 (創意程度) 和詞元上限 (長度和詳細程度),調整模型的回覆方式。生成內容後,通常會以額外規則和防護措施處理輸出內容。
舉例來說,您可以重新編寫帶有性別偏見的文字、調整語氣,或濾除禁用字詞。
為提升透明度和校正信任度,您可以新增較小的次要模型,用於分類或摘要結果。例如:"Intro generated from 12 related articles. 信賴水準:高。」
評估和意見回饋循環
生成式 AI 的輸出空間幾乎無限,因此大多數提示沒有單一正確答案。MMLU 或 SQuAD 等標準化基準可以評估模型的一般能力,但很少能反映人類使用者的特定需求。在產品情境中,您需要自行定義定性和定量指標的組合:
- 準確度:輸出內容是否符合事實?
- 實用性:輸出內容是否符合提示詞或使用者意圖設定的期望?
- 可讀性和語氣:輸出內容是否清楚明瞭,且符合品牌標準?
- 人力:需要多少手動編輯或策展工作?
- 瞭解網域:輸出內容是否反映特定網域知識?
如要評估這些指標,可以結合人工審查和自動評分。 舉例來說,您可以請使用者評估實際輸出內容、使用第二個模型進行自動評估 (也稱為 LLM-as-a-judge),以及定期進行內部審查,找出偏誤或錯覺。
使用生成式 AI 建構應用程式時,實際用量資料是您最寶貴的資產之一。如有可能,請記錄這些互動,以便調整提示和情境、測試不同模型,或隨時間調整參數。每項使用者互動、修正或評分都會成為意見回饋,協助您判斷下一個最佳化步驟:
- 非預期的使用者輸入內容可協助您判斷是否解決了正確的問題。
- 重複的特定領域要求可做為選擇模型的依據。您可以從大型通用 LLM 切換至小型微調模型。
- 如果模型經常產生幻覺,可能表示提示中缺少特定情境。
- 如果編輯幅度過大,可能表示共用內容不足。模型不瞭解使用者認為理所當然的資訊。
隨著時間推移,這些意見回饋迴路會將生成式 AI 功能從靜態模型呼叫,轉變為持續適應使用者需求和偏好的動態系統。
常見陷阱和防範措施
由於生成式 AI 的輸入和輸出空間不受限制,因此風險範圍遠比預測系統廣泛。除了生成不正確的輸出內容,還可能產生有害、有偏見或誤導性的內容,甚至無意間操弄使用者。這些失敗可能導致信任感降低,並使貴公司面臨財務或法律後果。
因此,生成式 AI 需要主動且持續的風險管理方法。以下是一些常見的風險:
- 幻覺:模型捏造事實或誤述細節。如要減輕這類問題,請使用 RAG 建立事實基準。
- 過度信任:使用者認為輸出內容一律正確。為減輕影響,建議採用審查和編輯流程,而非自動發布。在「AI 治理:以負責任的方式建構」課程中,您將瞭解如何協助使用者校正信任度。
- 不一致:每次執行的輸出內容差異極大。如要減輕此問題,請使用提示範本、溫度控制或少量樣本,穩定語氣和結構。
- 有害或令人反感的內容:模型生成帶有偏見、令人反感或操縱性的文字。為減輕影響,請在顯示前套用內容審查篩選器和毒性分類器。使用實際提示持續測試輸出內容,並保留意見回饋迴路,以便標記及重新訓練極端案例。
- 延遲時間和成本:大型模型可能速度緩慢且費用高昂。特別是如果目標是大規模採用,預先估算模型的費用和資源用量可能很困難。如要減輕影響,請使用快取、批次處理和較小的模型來處理短期工作。
重點摘要
簡單來說,生成式 AI 可將原始想法轉化為具體內容,例如文字、圖片、程式碼或對話。在創意和適應性比精確度更重要的領域,這項技術的表現十分出色。
身為網頁開發人員,您能否成功取決於設計正確的提示、根據正確的資料建立模型基準,以及持續根據使用者偏好調整系統。
資源
瞭解如何選擇較小且永續的機型。 如要進一步瞭解相關知識:
- 參加生成式 AI 機器學習密集課程。
- 請參閱負責任的生成式 AI 工具包。
- 如要進一步瞭解生成式 AI 的不同類型基礎模型,請參閱《The Art of AI Product Development》第 5 章。
隨堂測驗
生成式 AI 和預測式 AI 的輸出內容有何主要差異?
模型溫度有何作用?
為什麼標準化基準通常不足以評估生成式 AI?
下列何者是常見的幻覺現象緩解措施?
根據生成式 AI 迴圈,您應該如何處理使用者意見回饋?