深入了解 Privacy Sandbox

Privacy Sandbox 是一系列提案,可在不使用第三方 Cookie 或其他跟踪机制的情况下满足第三方用例的要求。

摘要

  • 本博文概述了 Privacy Sandbox 提案中的 API 和概念。
  • 提案作者正在邀请社区提供反馈意见,尤其是来自广告领域(发布商、广告主和广告技术公司)的反馈,建议缺失的用例,并分享有关如何支持您的业务用例的信息。
  • 您可以在下面链接到的代码库中提交问题,对提案发表评论。
  • 这篇博文的末尾提供了对这些提案的词汇表

网络上的隐私保护现状

网站使用其他公司的服务来提供分析、投放视频以及执行许多其他实用操作。可组合性是 Web 的一项超级能力。最值得注意的是,广告会通过第三方 JavaScript 和 iframe 包含在网页中。广告浏览量、点击次数和转化次数通过第三方 Cookie 和脚本进行跟踪。

不过,当您访问某个网站时,您可能不知道其中涉及的第三方以及他们对您的数据执行的操作。即使是发布商和网站开发者,也可能并不了解整个第三方供应链。

广告选择、转化衡量和其他用例目前依赖于建立稳定的跨网站用户身份。一直以来,我们都是通过第三方 Cookie 来做到这一点,但现在各浏览器已开始限制对这些 Cookie 的访问。另外,越来越多的机制使用了跨网站用户跟踪,例如隐蔽的浏览器存储、设备数字“指纹”收集以及电子邮件地址等个人信息的请求。

网络也陷入了困境。在不实现跨网站跟踪用户的情况下,如何支持合法的第三方用例?

具体而言,网站如何通过让第三方展示广告和衡量广告效果(但不允许分析具体用户)为内容提供资金支持?广告客户和网站所有者如何在不借助设备数字“指纹”收集等深色模式的情况下评估用户的真实性?

当前的工作方式会对整个网络生态系统(而不仅仅是用户)造成问题。对于发布商和广告客户,跟踪身份和使用各种非标准第三方解决方案会增加技术债务、代码复杂性和数据风险。用户、开发者、发布商和广告客户都应坚信网络保护着用户在隐私方面的选择。

广告是互联网的核心网络业务模式,但广告必须对所有人有效。这引出了 Privacy Sandbox 的使命:打造一个默认尊重用户且保护隐私的蓬勃发展的网络生态系统。

Privacy Sandbox 简介

Privacy Sandbox 引入了一组可保护隐私的 API,以支持在没有第三方 Cookie 等跟踪机制的情况下为开放网络提供资金支持的业务模式。

Privacy Sandbox API 要求网络浏览器承担新角色。您无需使用有限的工具和保护措施,这些 API 使用户的浏览器能够在用户设备上本地代表用户进行操作,从而在用户浏览网页时保护其身份信息。这些 API 可在不透露个人隐私和个人信息的情况下实现广告选择和转化衡量等用例。从工程的角度来说,沙盒是一种受保护的环境;Privacy Sandbox 的一项关键原则是,应保护用户的个人信息,且不得以能让用户身份跨网站识别的方式进行分享。

这是浏览器的发展方向上的一项改变。Privacy Sandbox 的未来愿景是,让浏览器提供特定的工具以满足特定用例的需求,同时保护用户隐私。Web 潜在隐私模型阐述了 API 背后的核心原则:

  • 建立网络活动的范围,以使用户的浏览器允许网站将用户视为拥有单一身份。
  • 有助于确定信息以何种方式跨身份边界移动,而不破坏身份边界的分离。

Privacy Sandbox 提案

为了成功弃用第三方 Cookie,Privacy Sandbox 计划需要您的支持。提案的解说工具需要开发者、发布商、广告客户和广告技术公司提供反馈,提出缺失的用例,并分享有关如何以注重隐私保护的方式实现目标的信息。

您可以针对每个仓库提交问题,为提案的铺垫消息添加评论:

  • Web 隐私模型
    建立网络活动的范围,用户浏览器可允许网站将用户视为拥有单一身份。确定信息在不同身份边界之间移动的方式,而不破坏身份边界的分离。
  • 隐私预算
    限制网站可以访问的可能可识别身份的数据总量。更新 API 以减少泄露的潜在可识别数据量。确保对潜在可识别数据的访问权限可衡量。
  • Gnatcatcher
    限制通过访问 IP 地址来识别具体用户的功能。
  • Trust Token API
    启用信任用户的来源,以使用用户浏览器存储的加密令牌来颁发这些令牌,这样就可以在其他上下文中使用这些令牌评估用户的真实性。
  • First-Party Set
    允许同一实体拥有的相关域名声明自己属于同一第一方。
  • 汇总报告
    提供可保护隐私的机制,为各种用例(例如浏览型转化、品牌、提升效果和覆盖面衡量)提供支持。
  • Attribution Reporting
    利用事件级汇总报告,以可保护隐私的方式衡量点击次数和观看次数。
  • Topics API
    启用针对用户兴趣投放广告,而不必跟踪用户访问的网站。该 API 的设计充分借鉴了社区在早期 FLoC 试用中获得的反馈,并取代了 FLoC 提案
  • FLEDGE
    针对再营销用例提供解决方案,旨在确保第三方无法使用该解决方案来跟踪跨网站的用户浏览行为。

您可以立即深入探究 API 提案的解释器,在接下来的几个月里,我们将分别发布有关每个提案的帖子。

我们还会将这 5 分钟的视频添加到播放列表中,简单说明每个 API。

使用场景和目标

衡量转化情况

目标:使广告客户能够衡量广告效果。

借助 Attribution Reporting API,您可以衡量相互关联的两个事件: 1.发布商网站上的事件,例如用户查看或点击广告。 1. 广告客户网站上的后续转化。

此 API 支持点击型浏览型转化衡量。

此 API 中的其他功能包括跨设备归因报告和应用到网站归因报告。

该 API 还提供两种类型的归因报告

  • 事件级报告会将特定的广告点击或观看(位于广告端)与转化端数据相关联。为了保护用户隐私,通过阻止跨网站合并用户身份,转化端数据非常有限,且数据已经过“噪声”处理(即在少数情况下,发送随机数据)。作为一种额外的隐私保护措施,系统不会立即发送报告。

  • 汇总报告与广告方面的特定事件无关。与事件级报告相比,这些报告可提供更丰富、保真度更高的转化数据。结合使用加密、信任分布和差分隐私等隐私保护技术有助于降低跨网站加入身份的风险。

这两种报告可以同时使用:相辅相成。

归因报告简介详细介绍了这些功能的状态以及如何试用此 API。

选择广告

目标:使广告客户能够展示与用户相关的广告。

具有相关性的广告对用户更有利,对发布商(即运营含广告的网站的用户)带来的收益也更高。第三方广告选择工具可提高广告空间对广告客户(在网站上购买广告空间的用户)的价值,这反过来又能增加广告支持网站的收入,并有助于制作和发布内容。

您可以通过多种方式制作与用户相关的广告,其中包括:

  • 第一方数据:展示与用户已经告知的网站感兴趣的主题或用户之前在当前网站上查看过的内容相关的广告。
  • 内容相关:根据网站内容选择广告展示位置。例如,“将此广告放在有关针织的文章旁边”。
  • 再营销:向访问过您网站的用户投放广告,前提是他们尚未访问您的网站。例如,“向那些光顾过您的商店,并在访问手工艺品网站时将针织商品放入购物车的用户展示折扣羊毛广告。”
  • 针对用户兴趣:根据用户的浏览记录选择广告。例如,“向浏览行为表明可能对编织感兴趣的用户显示此广告”。

除了用户在网站上的活动之外,无需了解用户的其他任何信息,即可进行第一方数据和内容相关广告选择。这些方法不需要跨网站跟踪。

再营销通常使用 Cookie 或其他方式跨网站识别用户:将用户添加到名单,然后选择特定的广告进行展示。

针对用户兴趣的广告选择目前使用 Cookie 跟踪尽可能多的网站上的用户行为。很多人担心广告选择会对隐私造成影响。Privacy Sandbox 针对再营销和基于用户兴趣选择提出了两种替代方案:

  • FLEDGE:适用于再营销用例
    第三方不得使用该 API 来跟踪用户的浏览行为:用户的浏览器(而非广告客户或广告技术平台)会存储与用户的浏览器相关联的广告客户定义的兴趣群体。用户的浏览器将兴趣群体数据与广告买方/卖方数据以及业务逻辑相结合,以开展“竞价”在用户设备本地选择广告,而不是与第三方分享数据。

  • Topics API:适用于基于兴趣的受众群体
    启用针对用户兴趣投放广告,而不必跟踪用户访问的网站。该 API 提议使用机器学习技术根据主机名推断主题,还提议使用 JavaScript API 根据近期访问过的网站的主机名返回用户当前可能感兴趣的粗略主题。

打击数字“指纹”收集

目标:减少 API 所暴露的潜在可识别数据的数量,使对潜在可识别的数据的访问可由用户控制并可衡量。

虽然浏览器已采取措施弃用第三方 Cookie,但识别和跟踪个人用户行为的技术(即数字“指纹”收集)一直在不断发展。数字“指纹”收集使用用户不了解且无法控制的机制。

  • 隐私预算提案旨在通过确定 JavaScript API 或其他“表面”暴露的指纹数据量,限制数字“指纹”收集的可能性(例如 HTTP 请求标头),并限制可访问的这些数据量。

  • 数字“指纹”收集途径(例如用户代理标头)的适用范围将缩小,并且通过客户端提示等替代机制提供的数据将受到隐私预算限制的约束。其他界面(例如设备屏幕方向电池级 API)将会更新,以尽量减少信息泄露。

IP 地址安全

目标:控制对 IP 地址的访问权限,以减少隐秘的数字“指纹”收集,并允许网站选择停用 IP 地址,以避免消耗隐私预算

用户的 IP 地址是公开的“地址”访问自己的计算机。但是,即使是动态 IP 地址也可能会在很长一段时间内保持稳定。这不足为奇,这意味着 IP 地址是指纹数据的重要来源。

Gnatcatcher 提案旨在提供 注重隐私保护的方法,既可避免耗用隐私预算,又能确保 出于合法目的(如防止滥用)而需要访问 IP 地址, 认证和审计。

该提案包含两个部分: * 故意 IP 盲化 可让网站让浏览器知道它们没有与用户连接 IP 地址。 * 近路径 NAT 支持 用户群组通过同一个私有化服务器发送流量, 来自网站主机的 IP 地址。

抵御垃圾邮件、欺诈和拒绝服务攻击

目标:在不使用数字“指纹”收集的情况下验证用户的真实性。

防欺诈防护对于保障用户安全以及确保广告客户和网站所有者能够准确衡量广告效果至关重要。广告客户和网站所有者必须能够区分恶意机器人和真实用户。如果广告客户无法可靠地分辨哪些广告点击是来自真人,那么他们的支出就会减少,网站发布商获得的收入也会随之减少。目前,许多第三方服务都使用设备数字“指纹”收集等技术来打击欺诈行为。

遗憾的是,用于识别合法用户以及屏蔽垃圾内容发布者、欺诈者和漫游器的技术与会损害隐私的数字“指纹”收集技术的运作方式类似。

  • Trust Tokens API 提出了一种替代方法,它允许在一种情境(例如社交媒体网站)中将用户确立的真实性传递给另一种情境,例如在新闻网站上投放的广告,而无需识别用户身份或将两种身份关联起来。

使多个网域属于同一个第一方

目标:允许实体声明相关域名归同一第一方所有。

许多组织在多个网域内都拥有网站。如果在跨“第三方”网站跟踪用户身份时受到了限制,则可能会出现问题但实际上属于同一个组织

  • First Party Set 旨在让多个网域声明自己属于同一个第一方,从而让网站的第一方和第三方概念与现实世界更加契合。

了解详情

Privacy Sandbox 提案说明

Privacy Sandbox 计划需要您的支持。API 提案的解释器需要反馈,特别是建议缺失的用例以及实现目标的更注重隐私保护的方式。

Web 潜在隐私模型阐述了这些 API 背后的核心原则。

Privacy Sandbox

讨论和参与

使用场景、政策和要求


附录:提案说明中所用术语的词汇表

点击率 (CTR)

看到广告且点击广告的用户所占的比率。(另请参阅“展示”)。

点击型转化 (CTC)

归因于“被点击”的广告的转化。

转化

之前与此广告客户的广告互动过的用户在该广告客户的网站上完成了某项操作。例如,在点击链接到广告客户网站的广告后购买产品或者注册简报。

差分隐私

共享数据集的相关信息以揭示行为模式,而不透露有关个体的私密信息或个体是否属于该数据集。

网域

请参阅顶级域名eTLD

eTLD、eTLD+1

“有效”顶级网域由公共后缀列表定义。例如:

co.uk
appspot.com
glitch.me

有效的 TLD 可让 foo.appspot.com 与 bar.appspot.com 成为一个不同的网站。在这种情况下,有效顶级域名 (eTLD) 为 appspot.com,而整个网站名称(foo.appspot.com、bar.appspot.com)称为 eTLD+1

另请参阅顶级域名

一种衡量数据项在多大程度上暴露了个人身份的指标。

数据熵以比特为单位进行衡量。数据揭示身份信息越多,其熵值就越高。

可以通过组合数据来识别个人,但很难确定新数据是否会增加熵。例如,如果您已经知道一个人来自袋鼠岛,那么知道一个人来自澳大利亚并不会减少熵。

数字“指纹”收集

识别和跟踪具体用户行为的技巧。数字“指纹”收集使用用户不了解且无法控制的机制。

数字“指纹”收集界面

可用于(可能与其他 surface 结合使用)来识别特定用户或设备的内容。例如,navigator.userAgent() JavaScript 方法和 User-Agent HTTP 请求标头提供对数字“指纹”收集 surface(用户代理字符串)的访问权限。

第一方

您正在访问的网站上的资源。例如,您正在阅读的页面位于 web.dev 网站,并且包含该网站的资源。另请参阅第三方

展示

广告的浏览。(另请参阅“点击率”。)

k-匿名性

用于衡量数据集中的匿名性的一个指标。如果您有 k 个匿名性,则无法与数据集中 k-1 个其他个体区分开来。换句话说,k 个人拥有相同的信息(包括您)。

Nonce

仅在加密通信中使用一次的任意数字。

来源

请求的来源,包括服务器名称,但不包含路径信息。例如:https://web.dev

被动表面

某些数字“指纹”收集界面(例如用户代理字符串、IP 地址和接受语言标头)适用于所有网站,无论网站是否要求提供这些信息。这意味着被动平台很容易消耗网站的隐私预算。

Privacy Sandbox 计划提议用主动方式获取特定信息,取而代之的是被动界面。例如,只需使用 Client Hints 一次来获取用户的语言,而不是为对每个服务器的每个响应都设置接受语言标头。

发布商

Privacy Sandbox 提案的解说主要与广告有关,因此所提及的发布商类型就是在其网站上投放广告的发布商。

覆盖面

看到广告的总人数。

再营销

向访问过您网站的用户展示广告。例如,网店可以向之前浏览过其网站上的玩具的用户展示玩具特卖广告。

网站

请参阅顶级域名eTLD

Surface

请参阅数字“指纹”收集 Surface被动 Surface

第三方

从与您正在访问的网站不同的网域提供的资源。例如,foo.com 网站可能会使用来自 google-analytics.com 的分析代码(通过 JavaScript)、来自 use.typekit.net 的字体(通过链接元素)以及来自 vimeo.com 的视频(在 iframe 中)。另请参阅第一方

顶级域名 (TLD)

顶级域名(例如 .com 和 .org)会列在根区数据库中。

请注意,有些“网站”实际上就是子网域例如,translate.google.com 和 maps.google.com 只是 google.com 的子网域(即 eTLD + 1)。

.well-known

在发出请求之前,访问主机的相关政策或其他信息可能很有用。例如,robots.txt 会告知网页抓取工具要访问哪些网页以及要忽略哪些网页。IETF RFC8615 概述了可在 /.well-known/ 子目录中的标准位置访问网站级元数据的标准化方法。您可以在 iana.org/assignments/well-known-uris/well-known-uris.xhtml 查看这些国家/地区的名单。


感谢所有帮助撰写和评价此博文的人。

照片由 Pierre Bamin 拍摄,由 Unsplash 网站提供。