新闻中心

  • 首页
  • 新闻中心
  • 大数据 = 大失败 II

大数据 = 大失败 II

2024-11-14 16:25:33

大数据 = 大失败 II

2021年5月12日 隐私

单个数据点可以实现匿名,但一旦收集了一系列数据,保持匿名就变得不可能了。让我们一步步来看这个问题。

上周我们讨论了如今收集的大量数据如何使得预测政治观点、信仰、宗教和兴趣成为可能。这周我们将通过一个例子展示,如何将一个单独的数据点组合成一系列数据,使得保持匿名变得不可能。

一个数据点

举个例子,下面是一个包含时间、地点和温度的单个数据点:

时间 地点 温度20210531 1200 哥德堡 15摄氏度

一种常见的“匿名化”方式是删除其中一个元素,这里我们删除地点信息:

时间 温度20210531 1200 15摄氏度

这样就很难确定这个数据点的地点了。即使我们拥有全球所有的温度数据,搜索时也很可能会找到许多符合这个特定数据点的地点。如果我们进一步删除时间信息,试图确定具体位置就变得毫无意义了。

一系列数据点

当我们有一系列数据点时,情况就发生了显著变化。

时间 地点 温度20210531 1200 哥德堡 15摄氏度20210601 1200 哥德堡 14摄氏度20210602 1200 哥德堡 12摄氏度20210603 1300 哥德堡 15摄氏度

如果我们删除地点信息,我们仍然有4个时间和温度的数据值,它们是可以与全球的观测数据相匹配的。

时间 温度20210531 1200 15摄氏度20210601 1200 14摄氏度20210602 1200 12摄氏度20210603 1300 15摄氏度

银河录像局优惠码

这将数据系列可能的来源地点缩小到大约1或2个地点。根据位置数据,4个数据点通常是识别一个人的所需最低数据样本数量。

如果我们删除时间数据点,我们就需要更长的数据序列来确认地点为“哥德堡”。只要我们有按时间顺序排列的数据点序列,这种可能性就存在。

例如,如果我们有365个数据点,很容易看出这些温度记录符合典型的斯堪的纳维亚天气周期;我们可以确定数据来自哪个年份,并进一步缩小到哥德堡。考虑到如今可用的参考数据量及人工智能的可能性,这项工作相对容易。

大数据 = 大失败 II

随着收集的数据集数量的增长以及用于比较的可识别数据系列数量的稳步增加,保持匿名变得越来越不可能。

关于数据系列去匿名化的更多信息

“两所欧洲大学的研究人员公布了一种方法,他们声称可以准确重新识别9998的匿名数据集中的个人,仅需15个人口统计属性。” 研究人员揭示了“匿名”数据的谎言 TechCrunch“我们研究了110万人3个月的信用卡记录,显示四个时空点足以唯一地重新识别90的个体。” 发表于《科学》期刊的一项研究Netflix用户在德克萨斯大学奥斯汀分校的一项研究中,从无名客户记录的数据库中被识别出在哈佛的研究中,一份匿名住院数据集中的患者被重新识别出姓名研究人员能够评估在不完整数据集中重新识别个体的可能性,该研究发表于《自然通讯》针对地理定位数据的去匿名化攻击对社交网络的去匿名化

您是否错过了第一部分?或者您想立即阅读第三部分?

为了普世的隐私权,

Mullvad VPN