生成式 AI:创建新内容

虽然预测性 AI 可以从现有数据中提取分析洞见,但生成式 AI 更进一步,可以创建新内容。它可以撰写文本、生成图片、制作代码,甚至设计完整的用户界面。以下是一些常见的生成式 AI 应用场景示例:

  • 内容创作:AI 写作助理可以起草内容并润色现有文本。
  • 总结Google AI 概览等工具可将长篇文档、会议或网页浓缩为简洁明了且可据以采取行动的总结。
  • 代码生成:开发者工具使用生成式 AI 来编写和重构代码,从而提高开发者的工作效率。
  • 图片和素材资源制作:用户可以使用视觉模型制作横幅和缩略图等视觉素材资源。

生成式 AI 循环

大多数生成式 AI 模型都使用神经网络Transformer 架构进行训练。模型会学习根据序列中的前一个元素建议下一个元素,例如下一个字词、像素或音符。

从数学角度来看,这与预测性 AI 相差不大。两者都会从数据中学习模式。不同之处在于规模。

在预测性 AI 中,输出选项仅限于几个标签,例如“客户流失”或“客户不流失”。在生成式 AI 中,输出空间可以包含数十万个选项。经过数十亿个示例的训练,预测机制演变为一个强大的引擎,能够生成新的、未见过的输出。

生成式 AI 系统的开发遵循迭代方法。

每个步骤都指向下一个步骤,形成一个连续的循环。
图 1. 与预测性 AI 循环类似,您首先需要定义自己的应用场景。循环会遍历每个步骤,然后重新开始。

我们将通过示例应用 BlogBuddy 演示此功能的工作原理。BlogBuddy 是一款内容管理系统助理,可帮助用户生成引人注目的说明和有利于 SEO 的文章标题。

定义您的使用场景

BlogBuddy AI 系统蓝图。
图 2. Blogbuddy 应用的系统蓝图。 打开全尺寸图表

问题陈述应包含以下内容:

  • 输入和输出模态。可以是文本(散文或代码)、图片或音频。
  • 输入法。内容是来自上传字段、自由文本还是其他结构化输入?
  • 受众。谁在执行此任务?他们是否具备一般知识,还是需要专业知识?

BlogBuddy 的功能围绕文本生成展开。输入是半结构化的:用户提供主题或简短草稿,模型返回各种变体。受众群体是营销人员,具有编辑方面的专业知识。

为输出内容设定质量标准非常重要。在本例中,我们希望生成简短、易于浏览且富含关键字的文字,以符合发布方的风格。

明确的成功指标有助于您指导后续流程。您可以在评估驱动型开发中详细了解如何收集成效指标。

选择基本模型

有各种各样的模型可供选择,这些模型都经过了大规模通用数据集的预训练。您可以根据具体需求调整其行为。 生成式 AI 模型通常比预测模型大得多,也复杂得多,因此最好基于现有模型进行构建,而不是自行构建和训练。

您的选择决定了产品的性能、费用、可自定义程度和隐私边界。模型选择与部署 AI 系统的平台高度相关。

在本课程的后续部分中,您将学习如何选择平台

提示和上下文工程

选择模型后,您需要通过提示向其提供正确的指令。对于 BlogBuddy,我们可以按如下方式提示模型:

Generate three short, engaging title suggestions for this article

您可以向提示添加多种类型的信息。例如:

  • 用于设置一般行为的系统提示。
  • 当前任务的输入特定上下文。
  • 对话式应用(例如聊天机器人或代理)中的用户指令。

推理和后处理

组装好提示后,系统会将其发送给模型以进行推理。您可以更改模型参数,包括温度(用于控制创意程度)和 token 数量上限(用于控制长度和详细程度),以调整模型生成回答的方式。生成后,输出通常会通过其他规则和安全措施进行处理。

例如,您可以重新措辞包含性别信息的文本、调整语气或过滤掉违禁字词。

为了支持透明度和信任度校准,您可以添加一个较小的辅助模型来对结果进行分类或总结。例如:根据 12 篇相关文章生成的简介。置信度:高。

评估和反馈环

由于生成式 AI 的输出空间实际上是无限的,因此大多数提示都没有唯一的正确答案。MMLUSQuAD 等标准化基准可以衡量模型的一般能力,但很少能反映人类用户的具体需求。在产品背景下,您需要自行定义定性和定量指标的组合:

  • 准确性:输出是否在事实上正确?
  • 实用性:输出是否符合提示或用户意图所设定的预期?
  • 可读性和基调:输出内容是否清晰且符合品牌标准?
  • 人工工作量:需要多少人工编辑或整理工作?
  • 领域理解:输出是否反映了特定领域的知识?

如需评估这些指标,您可以结合使用人工审核和自动评分。 例如,您可以要求用户对实际输出进行评分,使用第二个模型进行自动评估(也称为 LLM-as-a-judge),并定期进行内部审核,以检查是否存在偏见或幻觉。

在利用生成式 AI 构建应用时,真实使用情况数据是您最宝贵的资产之一。如果可以,请记录这些互动,以便调整提示和上下文、测试不同的模型或随时间调整参数。每次用户互动、更正或评分都会成为反馈,帮助您确定下一步的优化措施:

  • 意外的用户输入有助于您确定是否在解决正确的问题。
  • 经常出现的特定领域请求可以为模型选择提供参考。您可能会从大型通用 LLM 改为小型微调模型。
  • 频繁出现幻觉可能表明您的提示中缺乏具体背景信息。
  • 大幅修改可能表明共享的上下文不足。模型无法感知用户理所当然知道的信息。

随着时间的推移,这些反馈环会将生成式 AI 功能从静态模型调用转变为一个动态系统,该系统会不断适应用户的需求和偏好。

常见误区和缓解措施

由于生成式 AI 在开放式的输入和输出空间中运行,因此其风险面远比预测性系统更广。除了生成不正确的输出之外,它还可能会生成有害、有偏见或误导性的内容,甚至无意中操纵用户。这些失败可能会损害信任,并使您的公司面临财务或法律后果。

因此,生成式 AI 需要采取主动的持续风险管理方法。以下是一些最常见的风险:

  • 幻觉:模型捏造事实或错误陈述细节。为了缓解此问题,请使用 RAG 进行事实接地。
  • 过度信任:用户认为输出始终正确。为缓解此问题,建议采用审核和修改流程,而不是自动发布。在 AI 治理:负责任地构建中,您将了解如何帮助用户校准信任度。
  • 不一致:输出在不同运行之间差异很大。为缓解此问题,请使用提示模板、温度控制或少样本示例来稳定语气和结构。
  • 有害或恶意内容:模型生成带有偏见、冒犯性或操纵性的文本。为缓解此问题,请在展示之前应用内容审核过滤条件和毒性分类器。使用真实提示持续测试输出,并保持反馈环路,以便标记和重新训练边缘情况。
  • 延迟时间和费用:大型模型可能速度较慢且费用较高。尤其是当您希望大规模采用模型时,很难预先估算模型的费用和资源用量。为了缓解此问题,请针对短任务使用缓存、批处理和较小的模型。

要点总结

简而言之,生成式 AI 可将原始想法转化为具体的文本、图片、代码或对话等内容。在创意和适应性比精确性更重要的情况下,它能发挥出色的效果。

作为 Web 开发者,您的成功取决于设计合适的提示、让模型基于正确的数据进行推理,以及不断使系统与用户偏好保持一致。

资源

了解如何选择更小巧且可持续的型号。 如需了解更高级的学习内容,请参阅:

检验您的掌握情况

生成式 AI 和预测性 AI 输出的主要区别是什么?

生成式 AI 输出仅限于“流失”或“未流失”等少数标签。
回答不正确。
生成式 AI 可从输出空间中选择选项(文本、像素、代码)来创建新内容。
太棒了,回答正确!
生成式 AI 仅用于数值预测。
回答不正确。
生成式 AI 不会使用数据来学习模式。
回答不正确。

模型温度的作用是什么?

用于控制模型回答的随机性。
回答不正确。
用于调整模型回答的创意程度。
太棒了,回答正确!
它会过滤掉违禁字词。
回答不正确。
它会提高模型速度。
回答不正确。

为什么标准化基准通常不足以评估生成式 AI?

运行费用太高。
回答不正确。
它们很少能捕捉到人类用户的具体需求和产品意图。
太棒了,回答正确!
它们仅适用于图片生成,不适用于文本生成。
回答不正确。
对于现代模型来说,这些测试太容易通过了。
回答不正确。

以下哪项是针对幻觉的常见缓解措施?

使用 RAG(检索增强生成)等技术进行事实接地。
太棒了,回答正确!
调高模型的温度,使其更具创造性。
回答不正确。
停止使用 AI,改用手动内容创作。
这种情况可能会发生,但无法帮助模型生成更准确的输出。
如果输出看起来可疑,则向用户隐藏输出。
虽然您可以尝试阻止向用户显示虚假信息,但这并不能解决持续出现的幻觉问题。

根据生成式 AI 循环,您应该如何处理用户反馈?

请立即删除,以保护隐私。
回答不正确。
您可以使用它来优化问题定义、模型选择或提示。
太棒了,回答正确!
将其存储在单独的数据库中,并且永远不要查看。
回答不正确。
仅用于惩罚模型的不良行为。
回答不正确。