虽然预测性 AI 可以从现有数据中提取分析洞见,但生成式 AI 更进一步,可以创建新内容。它可以撰写文本、生成图片、制作代码,甚至设计完整的用户界面。以下是一些常见的生成式 AI 应用场景示例:
- 内容创作:AI 写作助理可以起草内容并润色现有文本。
- 总结:Google AI 概览等工具可将长篇文档、会议或网页浓缩为简洁明了且可据以采取行动的总结。
- 代码生成:开发者工具使用生成式 AI 来编写和重构代码,从而提高开发者的工作效率。
- 图片和素材资源制作:用户可以使用视觉模型制作横幅和缩略图等视觉素材资源。
生成式 AI 循环
大多数生成式 AI 模型都使用神经网络和 Transformer 架构进行训练。模型会学习根据序列中的前一个元素建议下一个元素,例如下一个字词、像素或音符。
从数学角度来看,这与预测性 AI 相差不大。两者都会从数据中学习模式。不同之处在于规模。
在预测性 AI 中,输出选项仅限于几个标签,例如“客户流失”或“客户不流失”。在生成式 AI 中,输出空间可以包含数十万个选项。经过数十亿个示例的训练,预测机制演变为一个强大的引擎,能够生成新的、未见过的输出。
生成式 AI 系统的开发遵循迭代方法。
我们将通过示例应用 BlogBuddy 演示此功能的工作原理。BlogBuddy 是一款内容管理系统助理,可帮助用户生成引人注目的说明和有利于 SEO 的文章标题。
定义您的使用场景
问题陈述应包含以下内容:
- 输入和输出模态。可以是文本(散文或代码)、图片或音频。
- 输入法。内容是来自上传字段、自由文本还是其他结构化输入?
- 受众。谁在执行此任务?他们是否具备一般知识,还是需要专业知识?
BlogBuddy 的功能围绕文本生成展开。输入是半结构化的:用户提供主题或简短草稿,模型返回各种变体。受众群体是营销人员,具有编辑方面的专业知识。
为输出内容设定质量标准非常重要。在本例中,我们希望生成简短、易于浏览且富含关键字的文字,以符合发布方的风格。
明确的成功指标有助于您指导后续流程。您可以在评估驱动型开发中详细了解如何收集成效指标。
选择基本模型
有各种各样的模型可供选择,这些模型都经过了大规模通用数据集的预训练。您可以根据具体需求调整其行为。 生成式 AI 模型通常比预测模型大得多,也复杂得多,因此最好基于现有模型进行构建,而不是自行构建和训练。
您的选择决定了产品的性能、费用、可自定义程度和隐私边界。模型选择与部署 AI 系统的平台高度相关。
在本课程的后续部分中,您将学习如何选择平台。
提示和上下文工程
选择模型后,您需要通过提示向其提供正确的指令。对于 BlogBuddy,我们可以按如下方式提示模型:
Generate three short, engaging title suggestions for this article
您可以向提示添加多种类型的信息。例如:
- 用于设置一般行为的系统提示。
- 当前任务的输入特定上下文。
- 对话式应用(例如聊天机器人或代理)中的用户指令。
推理和后处理
组装好提示后,系统会将其发送给模型以进行推理。您可以更改模型参数,包括温度(用于控制创意程度)和 token 数量上限(用于控制长度和详细程度),以调整模型生成回答的方式。生成后,输出通常会通过其他规则和安全措施进行处理。
例如,您可以重新措辞包含性别信息的文本、调整语气或过滤掉违禁字词。
为了支持透明度和信任度校准,您可以添加一个较小的辅助模型来对结果进行分类或总结。例如:根据 12 篇相关文章生成的简介。置信度:高。”
评估和反馈环
由于生成式 AI 的输出空间实际上是无限的,因此大多数提示都没有唯一的正确答案。MMLU 或 SQuAD 等标准化基准可以衡量模型的一般能力,但很少能反映人类用户的具体需求。在产品背景下,您需要自行定义定性和定量指标的组合:
- 准确性:输出是否在事实上正确?
- 实用性:输出是否符合提示或用户意图所设定的预期?
- 可读性和基调:输出内容是否清晰且符合品牌标准?
- 人工工作量:需要多少人工编辑或整理工作?
- 领域理解:输出是否反映了特定领域的知识?
如需评估这些指标,您可以结合使用人工审核和自动评分。 例如,您可以要求用户对实际输出进行评分,使用第二个模型进行自动评估(也称为 LLM-as-a-judge),并定期进行内部审核,以检查是否存在偏见或幻觉。
在利用生成式 AI 构建应用时,真实使用情况数据是您最宝贵的资产之一。如果可以,请记录这些互动,以便调整提示和上下文、测试不同的模型或随时间调整参数。每次用户互动、更正或评分都会成为反馈,帮助您确定下一步的优化措施:
- 意外的用户输入有助于您确定是否在解决正确的问题。
- 经常出现的特定领域请求可以为模型选择提供参考。您可能会从大型通用 LLM 改为小型微调模型。
- 频繁出现幻觉可能表明您的提示中缺乏具体背景信息。
- 大幅修改可能表明共享的上下文不足。模型无法感知用户理所当然知道的信息。
随着时间的推移,这些反馈环会将生成式 AI 功能从静态模型调用转变为一个动态系统,该系统会不断适应用户的需求和偏好。
常见误区和缓解措施
由于生成式 AI 在开放式的输入和输出空间中运行,因此其风险面远比预测性系统更广。除了生成不正确的输出之外,它还可能会生成有害、有偏见或误导性的内容,甚至无意中操纵用户。这些失败可能会损害信任,并使您的公司面临财务或法律后果。
因此,生成式 AI 需要采取主动的持续风险管理方法。以下是一些最常见的风险:
- 幻觉:模型捏造事实或错误陈述细节。为了缓解此问题,请使用 RAG 进行事实接地。
- 过度信任:用户认为输出始终正确。为缓解此问题,建议采用审核和修改流程,而不是自动发布。在 AI 治理:负责任地构建中,您将了解如何帮助用户校准信任度。
- 不一致:输出在不同运行之间差异很大。为缓解此问题,请使用提示模板、温度控制或少样本示例来稳定语气和结构。
- 有害或恶意内容:模型生成带有偏见、冒犯性或操纵性的文本。为缓解此问题,请在展示之前应用内容审核过滤条件和毒性分类器。使用真实提示持续测试输出,并保持反馈环路,以便标记和重新训练边缘情况。
- 延迟时间和费用:大型模型可能速度较慢且费用较高。尤其是当您希望大规模采用模型时,很难预先估算模型的费用和资源用量。为了缓解此问题,请针对短任务使用缓存、批处理和较小的模型。
要点总结
简而言之,生成式 AI 可将原始想法转化为具体的文本、图片、代码或对话等内容。在创意和适应性比精确性更重要的情况下,它能发挥出色的效果。
作为 Web 开发者,您的成功取决于设计合适的提示、让模型基于正确的数据进行推理,以及不断使系统与用户偏好保持一致。
资源
了解如何选择更小巧且可持续的型号。 如需了解更高级的学习内容,请参阅:
- 学习生成式 AI 机器学习速成课程。
- 查看 Responsible Generative AI 工具包。
- 如需详细了解生成式 AI 中的不同类型的基础模型,请阅读《The Art of AI Product Development》(AI 产品开发艺术)一书的第 5 章。
检验您的掌握情况
生成式 AI 和预测性 AI 输出的主要区别是什么?
模型温度的作用是什么?
为什么标准化基准通常不足以评估生成式 AI?
以下哪项是针对幻觉的常见缓解措施?
根据生成式 AI 循环,您应该如何处理用户反馈?