生成式 AI:建立新內容

預測式 AI 會從現有資料中擷取洞察資訊,而生成式 AI 更進一步,可創造新內容。例如撰寫文字、生成圖片、產生程式碼,甚至設計完整的使用者介面。以下列舉幾個常見的生成式 AI 用途:

  • 內容創作:AI 寫作助手可以草擬內容,並潤飾現有文字。
  • 摘要Google AI 資訊摘要等工具可將長篇文件、會議或網頁濃縮成簡潔實用的摘要。
  • 程式碼生成:開發人員工具使用生成式 AI 編寫及重構程式碼,提高開發人員的工作效率。
  • 圖片和素材資源製作:使用者可運用視覺模型製作橫幅和縮圖等視覺素材資源。

生成式 AI 迴圈

大多數生成式 AI 模型都是使用類神經網路Transformer 架構訓練而成。模型會根據序列中的前一個元素,學習建議下一個元素,例如下一個字詞、像素或音符。

從數學角度來看,這與預測式 AI 差異不大。兩者都會從資料中學習模式。兩者差異在於規模。

在預測型 AI 中,輸出選項僅限於幾個標籤,例如「流失」或「未流失」。在生成式 AI 中,輸出空間可能包含數十萬個選項。經過數十億個範例訓練後,預測機制會演變成強大的引擎,能夠生成前所未見的新輸出內容。

生成式 AI 系統的開發方式是反覆改良。

每個步驟都會指向下一個步驟,形成連續的圓圈。
圖 1. 與預測式 AI 迴圈一樣,您首先要定義應用實例。迴圈會逐一執行每個步驟,然後重新開始。

我們將以範例應用程式 BlogBuddy 說明這項功能如何運作。BlogBuddy 是內容管理系統助理,可協助使用者產生吸引人的說明和有助於 SEO 的文章標題。

定義用途

BlogBuddy AI 系統藍圖。
圖 2. 應用程式的系統藍圖:Blogbuddy 開啟全尺寸圖表

問題陳述應包含:

  • 輸入和輸出模態。可以是文字 (散文或程式碼)、圖片或音訊。
  • 輸入方式。內容是否來自上傳欄位、自由文字或其他結構輸入內容?
  • 目標對象。誰會執行這項工作?他們是否具備一般知識,還是需要專業知識?

BlogBuddy 的功能主要與文字生成有關。輸入內容為半結構化:使用者提供主題或簡短草稿,模型會傳回各種變化版本。目標對象是行銷人員,具備編輯專業知識。

請務必為輸出內容設定品質標準。在本例中,我們希望生成簡短、易於瀏覽且含有大量關鍵字的文字,並符合發布內容的語氣。

明確的成功指標有助於引導後續流程。您將在評估導向開發中,進一步瞭解如何收集成效指標。

選取基礎模型

我們提供多種預先訓練模型,這些模型是以大型通用資料集訓練而成。您可以根據特定需求調整其行為。 生成式 AI 模型通常比預測模型大得多,也複雜得多,因此最好是根據現有模型建構,而不是自行建構及訓練。

這項選擇會決定產品的功能、費用、可自訂程度和隱私權界線。模型選擇與您部署 AI 系統的平台高度相關。

本課程稍後會說明如何選擇平台

提示和脈絡工程

選好模型後,您需要透過提示提供正確的指令。以 BlogBuddy 為例,我們可能會這樣提示模型:

Generate three short, engaging title suggestions for this article

提示可加入多種資訊,例如:

  • 設定一般行為的系統提示。
  • 目前工作的輸入特定情境。
  • 對話式應用程式 (例如聊天機器人或代理程式) 中的使用者指令。

推論和後續處理

組裝完成後,系統會將提示傳送至模型進行推論。您可以變更模型參數,包括溫度 (創意程度) 和詞元上限 (長度和詳細程度),調整模型的回覆方式。生成內容後,通常會以額外規則和防護措施處理輸出內容。

舉例來說,您可以重新編寫帶有性別偏見的文字、調整語氣,或濾除禁用字詞。

為提升透明度和校正信任度,您可以新增較小的次要模型,用於分類或摘要結果。例如:"Intro generated from 12 related articles. 信賴水準:高。

評估和意見回饋循環

生成式 AI 的輸出空間幾乎無限,因此大多數提示沒有單一正確答案。MMLUSQuAD 等標準化基準可以評估模型的一般能力,但很少能反映人類使用者的特定需求。在產品情境中,您需要自行定義定性和定量指標的組合:

  • 準確度:輸出內容是否符合事實?
  • 實用性:輸出內容是否符合提示詞或使用者意圖設定的期望?
  • 可讀性和語氣:輸出內容是否清楚明瞭,且符合品牌標準?
  • 人力:需要多少手動編輯或策展工作?
  • 瞭解網域:輸出內容是否反映特定網域知識?

如要評估這些指標,可以結合人工審查和自動評分。 舉例來說,您可以請使用者評估實際輸出內容、使用第二個模型進行自動評估 (也稱為 LLM-as-a-judge),以及定期進行內部審查,找出偏誤或錯覺。

使用生成式 AI 建構應用程式時,實際用量資料是您最寶貴的資產之一。如有可能,請記錄這些互動,以便調整提示和情境、測試不同模型,或隨時間調整參數。每項使用者互動、修正或評分都會成為意見回饋,協助您判斷下一個最佳化步驟:

  • 非預期的使用者輸入內容可協助您判斷是否解決了正確的問題。
  • 重複的特定領域要求可做為選擇模型的依據。您可以從大型通用 LLM 切換至小型微調模型。
  • 如果模型經常產生幻覺,可能表示提示中缺少特定情境。
  • 如果編輯幅度過大,可能表示共用內容不足。模型不瞭解使用者認為理所當然的資訊。

隨著時間推移,這些意見回饋迴路會將生成式 AI 功能從靜態模型呼叫,轉變為持續適應使用者需求和偏好的動態系統。

常見陷阱和防範措施

由於生成式 AI 的輸入和輸出空間不受限制,因此風險範圍遠比預測系統廣泛。除了生成不正確的輸出內容,還可能產生有害、有偏見或誤導性的內容,甚至無意間操弄使用者。這些失敗可能導致信任感降低,並使貴公司面臨財務或法律後果。

因此,生成式 AI 需要主動且持續的風險管理方法。以下是一些常見的風險:

  • 幻覺:模型捏造事實或誤述細節。如要減輕這類問題,請使用 RAG 建立事實基準。
  • 過度信任:使用者認為輸出內容一律正確。為減輕影響,建議採用審查和編輯流程,而非自動發布。在「AI 治理:以負責任的方式建構」課程中,您將瞭解如何協助使用者校正信任度。
  • 不一致:每次執行的輸出內容差異極大。如要減輕此問題,請使用提示範本、溫度控制或少量樣本,穩定語氣和結構。
  • 有害或令人反感的內容:模型生成帶有偏見、令人反感或操縱性的文字。為減輕影響,請在顯示前套用內容審查篩選器和毒性分類器。使用實際提示持續測試輸出內容,並保留意見回饋迴路,以便標記及重新訓練極端案例。
  • 延遲時間和成本:大型模型可能速度緩慢且費用高昂。特別是如果目標是大規模採用,預先估算模型的費用和資源用量可能很困難。如要減輕影響,請使用快取、批次處理和較小的模型來處理短期工作。

重點摘要

簡單來說,生成式 AI 可將原始想法轉化為具體內容,例如文字、圖片、程式碼或對話。在創意和適應性比精確度更重要的領域,這項技術的表現十分出色。

身為網頁開發人員,您能否成功取決於設計正確的提示、根據正確的資料建立模型基準,以及持續根據使用者偏好調整系統。

資源

瞭解如何選擇較小且永續的機型。 如要進一步瞭解相關知識:

隨堂測驗

生成式 AI 和預測式 AI 的輸出內容有何主要差異?

生成式 AI 輸出內容僅限於「流失」或「未流失」等少數標籤。
答錯了。
生成式 AI 會從選項的輸出空間 (文字、像素、程式碼) 建立新內容。
答對了,做得很好!
生成式 AI 只會用於數值預測。
答錯了。
生成式 AI 不會使用資料學習模式。
答錯了。

模型溫度有何作用?

這項參數會控制模型回覆的隨機性。
答錯了。
這項設定會調整模型回覆的創意程度。
答對了,做得很好!
系統會濾除禁用字詞。
答錯了。
加快模型速度。
答錯了。

為什麼標準化基準通常不足以評估生成式 AI?

執行費用太高。
答錯了。
這類查詢很少能反映人類使用者的具體需求和產品意圖。
答對了,做得很好!
這些模型只能用於生成圖像,無法生成文字。
答錯了。
現代模型太容易通過這些測試。
答錯了。

下列何者是常見的幻覺現象緩解措施?

使用 RAG (檢索增強生成) 等技術建立事實基準。
答對了,做得很好!
調高模型溫度,讓模型生成更有創意的內容。
答錯了。
停止使用 AI,改為手動建立內容。
這可能會發生,但無法協助模型產生更準確的輸出內容。
如果輸出內容可疑,請對使用者隱藏。
雖然你可以嘗試提供錯誤資訊給使用者,但這無法解決持續出現的錯覺。

根據生成式 AI 迴圈,您應該如何處理使用者意見回饋?

為保護隱私,請立即刪除。
答錯了。
您可以使用這項功能修正問題定義、模型選擇或提示。
答對了,做得很好!
將其儲存在獨立的資料庫中,且絕不查看。
答錯了。
請僅用來懲罰模型的不當行為。
答錯了。