安全工具可确保监控录像中的隐私

导读由于实用性和隐私之间的内在紧张关系,监控摄像头存在身份问题。随着这些功能强大的小型设备似乎无处不在,机器学习工具的使用已经实现了大

由于实用性和隐私之间的内在紧张关系,监控摄像头存在身份问题。随着这些功能强大的小型设备似乎无处不在,机器学习工具的使用已经实现了大规模的自动化视频内容分析——但随着大规模监控的增加,目前没有法律上可执行的规则来限制隐私侵犯。

安全摄像头可以做很多事情——它们变得比过去的颗粒状照片的幽灵更聪明、更有能力,犯罪媒体中经常是“英雄工具”。(“看到那个人口稠密的角落右上角那个模糊的蓝色小斑点——我们抓住了他!”)现在,视频监控可以帮助卫生官员测量戴口罩的人的比例,使交通部门能够监控密度和流量车辆、自行车和行人,并让商家更好地了解购物行为。但为什么隐私仍然是一个微弱的事后想法?

现状是对面部模糊或黑框的视频进行改造。这不仅会阻止分析师提出一些真正的问题(例如,人们是否戴着口罩?),而且并不总是有效。系统可能会遗漏一些面孔,并让它们保持清晰,让全世界都能看到。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员对这种现状感到不满,与其他机构合作,提出了一个系统,以更好地保证来自监控摄像头的视频片段的隐私。该系统名为“Privid”,可让分析师提交视频数据查询,并添加一点噪音(额外数据)到最终结果,以确保无法识别个人。该系统建立在隐私的正式定义——“差异隐私”——的基础上,允许在不泄露个人身份信息的情况下访问有关私人数据的汇总统计数据。

通常,分析师可以访问整个视频来做任何他们想做的事情,但 Privid 确保视频不是免费的自助餐。诚实的分析师可以访问他们需要的信息,但这种访问受到了足够的限制,以至于恶意分析师无法做太多事情。为了实现这一点,Privid 不是一次性在整个视频上运行代码,而是将视频分成小块并在每个块上运行处理代码。不是从每个片段中获取结果,而是聚合这些片段,并添加额外的噪音。(还有关于您将在结果中获得的误差范围的信息——可能是 2% 的误差范围,因为添加了额外的噪声数据)。

例如,代码可能会输出在每个视频块中观察到的人数,聚合可能是“总和”来计算戴面罩的总人数,或者是“平均值”来估计人群的密度。

Privid 允许分析师使用他们自己的深度神经网络,这些网络在当今视频分析中很常见。这使分析师可以灵活地提出 Privid 的设计者没有预料到的问题。在各种视频和查询中,Privid 的准确率在非私有系统的 79% 到 99% 之间。

“我们现在正处于一个摄像头几乎无处不在的阶段。如果每个街角、你去的每个地方都有摄像头,并且如果有人可以真正汇总所有这些视频,你可以想象这个实体正在构建一个非常一个人离开的时间和地点的精确时间表,”麻省理工学院 CSAIL 博士说。学生 Frank Cangialosi,一篇关于 Privid 的论文的主要作者。“人们已经开始担心 GPS 的位置隐私——聚合的视频数据不仅可以捕获您的位置历史,还可以捕获每个位置的情绪、行为等。”

Privid 引入了“基于持续时间的隐私”的新概念,它将隐私的定义与其执行分离——通过混淆,如果您的隐私目标是保护所有人,则执行机制需要做一些工作来找到要保护的人,它可能会或可能不会完美地完成。使用这种机制,您不需要完全指定所有内容,也不会隐藏超出您需要的信息。

假设我们有一个俯瞰街道的视频。两位分析师 Alice 和 Bob 都声称他们想要统计每小时经过的人数,因此他们提交了一个视频处理模块并要求进行总和聚合。

第一个分析师是城市规划部门,他们希望利用这些信息来了解人流模式并为城市规划人行道。他们的模型计算人数并为每个视频块输出此计数。

另一位分析师是恶意的。他们希望每次“查理”经过摄像机时都能识别出来。他们的模型只寻找查理的脸,如果查理存在则输出一个大数字(即他们试图提取的“信号”),否则输出为零。他们希望如果查理在场,总和将不为零。

从 Privid 的角度来看,这两个查询看起来相同。很难可靠地确定他们的模型可能在内部做什么,或者分析师希望将数据用于什么。这就是噪音的来源。Privid 执行两个查询,并为每个查询添加相同数量的噪音。在第一种情况下,因为 Alice 统计了所有人,所以这种噪音只会对结果产生很小的影响,但可能不会影响有用性。

在第二种情况下,由于 Bob 正在寻找一个特定的信号(Charlie 只在几个块中可见),因此噪音足以阻止他们知道 Charlie 是否在那里。如果他们看到非零结果,可能是因为查理实际上在那里,或者因为模型输出“零”,但噪音使其非零。Privid 不需要知道查理出现的时间和地点,系统只需要知道查理可能出现多长时间的粗略上限,这比之前的方法所依赖的确定确切位置更容易指定.

挑战在于确定要添加多少噪音——Privid 想要添加的噪音刚好足以隐藏所有人,但又不会太多以至于对分析师来说毫无用处。在数据中添加噪音并坚持在时间窗口内进行查询意味着您的结果不会尽可能准确,但结果仍然有用,同时提供更好的隐私。

Cangialosi 与普林斯顿大学博士一起撰写了这篇论文。学生 Neil Agarwal,麻省理工学院 CSAIL 博士 学生Venkat Arun,芝加哥大学助理教授Junchen Jiang,罗格斯大学助理教授,前麻省理工学院CSAIL博士后Srinivas Narayana,罗格斯大学副教授Anand Sarwate,普林斯顿大学助理教授,麻省理工学院Ravi Netravali。Cangialosi 将于 4 月在华盛顿州伦顿举行的 USENIX 网络系统设计和实施会议上发表该论文。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢