深入了解 Privacy Sandbox

Privacy Sandbox 是一系列提案,可在不使用第三方 Cookie 或其他跟踪机制的情况下满足第三方使用情形。

摘要

  • 本文概述了 Privacy Sandbox 提案中的 API 和概念。
  • 提案作者邀请社区(特别是发布商、广告主和广告技术公司)提供反馈,建议缺少的用例,并分享有关如何为您的业务用例提供支持的信息。
  • 您可以在下面链接到的代码库中提交问题,从而对相关提案发表评论。
  • 本文末尾提供了相关提案的术语表

网络隐私保护的现状

网站会使用其他公司的服务来提供分析、提供视频以及提供其他许多实用功能。可组合性是 Web 的超能力之一。最值得注意的是,广告是通过第三方 JavaScript 和 iframe 添加到网页中。广告浏览次数、点击次数和转化次数通过第三方 Cookie 和脚本进行跟踪。

然而,当您访问某个网站时,您可能不知道其中涉及的第三方以及他们如何处理您的数据。即使是发布商和网络开发者也无法了解整个第三方供应链。

目前,广告选择、转化衡量和其他应用场景都需要建立稳定的跨网站用户身份。过去一直采用第三方 Cookie 来实现这一点,但浏览器已经开始限制对这些 Cookie 的访问。此外,针对跨网站用户跟踪的其他机制的使用量也有所增加,例如隐秘浏览器存储、设备数字“指纹”收集以及请求获取电子邮件地址等个人信息。

这会给网络带来困境。如果不支持进行跨网站跟踪,如何支持合法的第三方用例?

具体而言,网站如何通过使第三方展示广告和衡量广告效果来为内容提供资金支持,但不允许分析具体用户?广告客户和网站所有者如何在不依靠深色模式(如设备数字“指纹”收集)的情况下评估用户的真实性?

当前的运作方式可能会给整个网络生态系统(而不仅仅是用户)带来问题。对于发布商和广告客户,跟踪身份和使用各种非标准第三方解决方案可能会增加技术债务、代码复杂性和数据风险。用户、开发者、发布商和广告客户应确信网络会保护用户的隐私选择。

广告是互联网的核心网站业务模式,但广告必须适合所有人。这也引出了 Privacy Sandbox 的使命:打造一个欣欣向荣、尊重用户且默认私密的网络生态系统。

全新推出 Privacy Sandbox

Privacy Sandbox 引入了一组可保护隐私的 API,可在没有第三方 Cookie 等跟踪机制的情况下为开放网络提供资金支持的业务模式。

Privacy Sandbox API 要求网络浏览器具有新角色。这些 API 让用户的浏览器无需使用受限的工具和保护措施,而是能够在用户设备上(在本地)代表用户执行操作,以便在用户浏览网络时保护其身份信息。这些 API 支持广告选择和转化衡量等用例,而不会泄露个人隐私和个人信息。用工程学的术语来说,sandbox是一种受保护的环境;Privacy Sandbox 的一项主要原则是保护用户的个人信息,不得以任何方式在网站间分享用户信息。

对于浏览器来说,这是一次转变。Privacy Sandbox 的未来愿景是让浏览器提供特定工具以满足特定用例的需求,同时保护用户隐私。网络的潜在隐私保护模型阐述了这些 API 背后的核心原则:

  • 确定网络活动的范围,用户的浏览器在此范围内允许网站将某个用户视为同一身份。
  • 确定信息如何跨身份边界移动,而又不影响这种分离。

Privacy Sandbox 提案

为了成功弃用第三方 Cookie,Privacy Sandbox 计划需要您的支持。该提案的说明者需要从开发者以及发布商、广告客户和广告技术公司的反馈中提出缺少的用例,并分享有关如何以注重隐私保护的方式实现目标的信息。

您可以就提案说明进行评论,只需针对各个存储库提交问题即可:

  • 网络隐私保护模式
    确定网络活动的范围,用户的浏览器在此范围内允许网站将某个用户视为同一身份。确定信息可以如何跨身份边界移动,而不会影响这种分离。
  • 隐私预算
    限制网站可以访问的总潜在身份数据。更新了 API,以减少泄露的潜在身份数据量。确保对可能可识别身份的数据的访问进行衡量。
  • Gnatcatcher
    通过访问个人用户的 IP 地址来限制识别用户身份的能力。
  • Trust Token API
    启用可信来源,以便信任用户向其颁发由用户的浏览器存储的加密令牌,以便在其他上下文中使用这些令牌来评估用户的真实性。
  • First-Party Set
    允许同一实体拥有的相关域名声明自身属于同一第一方。
  • 汇总报告
    提供可保护隐私的机制,为各种用例(例如浏览型转化、品牌、提升效果和覆盖面衡量)提供支持。
  • 归因报告
    通过事件级报告和汇总报告,对点击和观看进行可保护隐私的衡量。
  • Topics API
    实现针对用户兴趣投放广告,而无需跟踪用户访问的网站。我们在设计此 API 时参考了来自早期 FLoC 试用的社区反馈,并取代了 FLoC 提案
  • FLEDGE
    提供再营销用例的解决方案,第三方无法使用它来跟踪用户跨网站浏览行为。

您可以立即深入了解 API 提案解说词,在接下来的几个月里,我们将针对每个提案单独发布帖子。

我们还会向播放列表添加时长为 5 分钟的视频,其中简要介绍了每个 API。

应用场景和目标

衡量转化情况

目标:让广告客户能够衡量广告效果。

Attribution Reporting API 可用于衡量两个相互关联的事件: 1. 发布商网站上的事件,例如用户查看或点击广告后。 1. 广告客户网站上的后续转化。

此 API 支持点击型衡量和浏览型衡量。

此 API 中的其他功能包括跨设备归因报告和应用到网站归因报告。

该 API 还提供两种类型的归因报告

  • 事件级报告将特定的广告点击或观看(广告端)与转化端数据相关联。为保护用户隐私,系统会阻止跨网站联接用户身份,因此,转化端数据会非常有限,并且数据会进行“噪声处理”(这意味着在少数情况下,系统会发送随机数据)。作为一项额外的隐私保护措施,报告不会立即发送。

  • 汇总报告不会与广告端的特定事件相关联,与事件级报告相比,这些报告可提供更丰富、保真度更高的转化数据。结合使用加密、信任分布和差分隐私方面的隐私技术有助于降低跨网站身份加入的风险。

这两种报告可以同时使用:它们互为补充。

归因报告简介详细介绍了这些功能的状态以及如何试用此 API。

选择广告

目标:使广告客户能够展示与用户相关的广告。

具有相关性的广告对用户更有益,也能为发布商带来更多收益(即运营由广告维持运营的网站的用户)。第三方广告选择工具可使广告客户(在网站上购买广告空间的用户)更有价值,进而提高由广告支撑的网站带来的收入,并使内容能够被创作和发布内容。

您可以通过多种方式来使广告与用户相关,其中包括:

  • 第一方数据:展示与用户告诉某个网站其感兴趣的主题或用户之前在当前网站上查看过的内容相关的广告。
  • 内容相关:根据网站内容选择展示广告的位置。例如,“将此广告展示在与针织相关的文章旁边”。
  • 再营销:向已经访问过您网站的用户(不在您网站中)投放广告。例如,“当访问过您的商店并将针织商品放入购物车中时,当他们访问工艺品网站时,向其展示此打折羊毛广告。”
  • 针对用户兴趣:根据用户的浏览记录选择广告。例如,“向浏览行为表明可能对针织感兴趣的用户显示此广告”。

第一方数据和内容相关广告选择无需了解用户任何信息(除了用户在网站中的活动之外)即可实现。这些技术不需要跨网站跟踪。

再营销通常通过使用 Cookie 或一些其他的方式跨网站识别用户来实现:将用户添加到名单,然后选择向其展示特定广告。

针对用户兴趣的广告选择目前使用 Cookie 跟踪尽可能多的网站上的用户行为。许多人担心广告选择对隐私有何影响。Privacy Sandbox 针对再营销和基于兴趣的选择机制提出了两种替代方案:

  • FLEDGE:适用于再营销用例
    第三方无法使用此 API 来跟踪用户的浏览行为:存储与用户浏览器相关联的由广告客户定义的兴趣群体(而非广告客户或广告技术平台)。用户的浏览器通过结合兴趣群体数据、广告买方/卖方数据和业务逻辑,在用户设备本地进行“竞价”以选择广告,而不是与第三方共享数据。

  • Topics API:适用于基于兴趣的受众群体
    启用针对用户兴趣投放广告的功能,而无需跟踪用户访问的网站。该 API 提议使用机器学习技术来根据主机名推断主题,并提出一个 JavaScript API,该 API 会根据最近访问过的网站的主机名,返回用户当前可能感兴趣的粗略主题。

防止数字“指纹”收集

目标:减少 API 泄露的潜在身份数据数量,让用户可控制对潜在身份数据的访问且可衡量。

浏览器已采取措施弃用第三方 Cookie,但用于确定和跟踪个人用户行为的技术(称为数字“指纹”收集)仍在不断发展。数字“指纹”收集使用用户不认识且无法控制的机制。

  • 隐私预算提案旨在确定 JavaScript API 或其他“途径”(例如 HTTP 请求标头)会公开多少指纹数据,并设置可访问的数据量限制,从而限制数字“指纹”收集的可能性。

  • 数字“指纹”收集(例如 User-Agent 标头)的范围将缩小,并且通过 Client Hints 等替代机制提供的数据将受到隐私预算限制。其他 surface(例如设备屏幕方向电池电量 API)将会更新,以便尽可能减少公开信息。

IP 地址安全

目标:控制对 IP 地址的访问权限,减少隐秘的“指纹”收集,并允许网站选择不查看 IP 地址,以避免消耗隐私预算

用户的 IP 地址是其计算机在互联网上的公共“地址”,大多数情况下由用户连接到互联网时使用的网络动态分配。但是,即使是动态 IP 地址,也可能在很长一段时间内保持稳定。毫无疑问,这意味着 IP 地址是指纹数据的重要来源。

Gnatcatcher 提案旨在提供一种可避免消耗隐私预算的隐私保护方法,同时确保出于合法目的(例如防止滥用)而需要访问 IP 地址的网站在接受认证和审核的情况下,能够满足这一要求。

该方案包含两个部分: * 自主 IP 盲人为网站提供了一种方式,让浏览器知道其不会将用户连接到 IP 地址。 * 近路径 NAT 可让用户群组通过同一部私有化服务器发送其流量,从而有效地对网站主机隐藏其 IP 地址。

打击垃圾内容、欺诈和拒绝服务攻击

目标:验证用户的真实性,而不使用数字“指纹”收集。

防欺诈保护对于保障用户安全,并确保广告客户和网站所有者可以准确衡量广告效果至关重要。广告客户和网站所有者必须能够区分恶意漫游器和真实用户。如果广告客户无法准确判断哪些广告点击是来自真人的,就会减少支出,从而导致网站发布商获得的收入减少。许多第三方服务目前使用设备数字“指纹”收集等技术来打击欺诈行为。

遗憾的是,用于识别合法用户和屏蔽垃圾内容发布者、欺诈者和机器人的技术与指纹技术类似,会损害隐私。

  • Trust Tokens API 提出了另一种方法,该方法允许在一种情境下(例如社交媒体网站)将用户建立的真实性传达到另一种情境中(例如新闻网站上投放的广告),而无需识别用户身份或关联两个身份。

使多个网域属于同一第一方

目标:让实体能够声明相关域名归同一第一方所有。

许多组织在多个网域上都拥有网站。如果对跨被视为“第三方”但实际属于同一组织的网站的用户身份跟踪施加限制,则可能会出现问题。

  • First Party Set 旨在让多个网域能够声明自身属于同一第一方,从而使第一方和第三方的概念与现实世界的概念更加一致。

了解详情

Privacy Sandbox 提案解释器

Privacy Sandbox 计划需要您的支持。API 提案说明者需要提供反馈,特别是建议缺失的用例和更私密的方法来实现其目标。

网络的潜在隐私保护模型阐述了这些 API 的基本原则。

Privacy Sandbox

讨论和参与

用例、政策和要求


附录:提案解释器中使用的术语表

点击率 (CTR)

点击了广告并看到广告的用户所占的比率。(另请参阅“展示”。)

点击型转化 (CTC)

归因于“被点击”的广告的转化。

转化

以前曾与该广告客户的广告互动过的用户在广告客户的网站上完成某项操作。例如,用户在点击链接至广告客户网站的广告后购买了产品或注册简报。

差分隐私

分享数据集的相关信息以揭示行为模式,而不透露关于个体的私密信息或个体是否属于该数据集。

网域

请参阅顶级域名eTLD

eTLD、eTLD+1

“有效的”顶级域名由公共后缀列表定义。例如:

co.uk
appspot.com
glitch.me

有效的 TLD 使得 foo.appspot.com 与 bar.appspot.com 成为不同的网站。在这种情况下,有效的顶级域名 (eTLD) 是 appspot.com,而整个网站名称(foo.appspot.com、bar.appspot.com)称为 eTLD+1

另请参阅顶级域名

用于衡量一项数据在多大程度上揭示了个体身份。

数据熵以位为单位进行测量。数据揭示身份识别得越多,其熵值就越高。

数据可以组合来识别个人,但可能很难确定新数据是否增加了熵。例如,如果知道某人来自澳大利亚,那么即便已经知道此人来自袋鼠岛,也无法减少熵。

数字“指纹”收集

用于识别和跟踪具体用户行为的技术。数字“指纹”收集使用用户不认识且无法控制的机制。Panopticlickamiunique.org 等网站展示了如何结合指纹数据来识别您的个人身份。

数字“指纹”收集

可用于识别特定用户或设备的工具(可能会与其他途径结合使用)。例如,navigator.userAgent() JavaScript 方法和 User-Agent HTTP 请求标头提供对指纹表面(用户代理字符串)的访问权限。

第一方

您正在访问的网站中的资源。例如,您正在阅读的网页位于 web.dev 网站上,并且包含来自该网站的资源。另请参阅第三方

展示

观看广告。(另请参阅“点击率”。)

k-匿名性

对数据集内的匿名性进行度量。如果您有 k-1 个匿名性,则无法与数据集中的 k-1 个其他个体区分开来。也就是说,k 个人拥有相同的信息(包括您在内)。

Nonce

任意数字,仅在加密通信中使用一次。

原点

请求的来源,包括服务器名称,但不包含路径信息。例如:https://web.dev

被动式表面

有些数字“指纹”收集途径(例如用户代理字符串、IP 地址和接受语言标头)可供每个网站使用(无论网站是否要求)。这意味着,被动途径很容易占用网站的隐私预算。

Privacy Sandbox 计划提议将被动界面替换为主动获取特定信息的方式,例如使用客户端提示一次获取用户的语言,而不是针对每个服务器的每个响应都使用接受语言标头。

发布商

Privacy Sandbox 提案解说主要与广告相关,因此其中提到的发布商类型就是在自己的网站上投放广告的发布商。

覆盖面

看到广告的用户总数。

再营销

向已经访问过您网站的用户投放广告。例如,网店可以向以前在其网站上查看过玩具的用户展示玩具促销广告。

网站

请参阅顶级域名eTLD

Surface

请参阅数字“指纹”收集被动途径

第三方

通过不同于您正在访问的网站的网域提供的资源。例如,网站 foo.com 可能使用来自 google-analytics.com 的分析代码(通过 JavaScript)、来自 use.typekit.net 的字体(通过链接元素)以及来自 vimeo.com 的视频(在 iframe 中)。另请参阅第一方

顶级域名 (TLD)

根区数据库中会列出顶级网域(例如 .com 和 .org)。

请注意,某些“网站”实际上只是子网域。例如,translate.google.com 和 maps.google.com 只是 google.com 的子网域(eTLD + 1)。

.well-known

在发出请求之前,访问主机的政策或其他信息会很有用。例如,robots.txt 会告知网页抓取工具要访问哪些网页以及要忽略哪些网页。IETF RFC8615 概述了一种标准化方法,以便在 /.well-known/ 子目录中的标准位置访问网站级元数据。如需查看相关列表,请访问 iana.org/assignments/well-known-uris/well-known-uris.xhtml


感谢所有帮助撰写和审核此博文的人。

照片由 Pierre Bamin 拍摄,来源:Unsplash 用户。