微信号:hzdashuju

介绍:大数据蕴藏着丰富的信息和价值,如何处理好大数据并发掘其潜藏的商业价值,这是大数据时代的新挑战.我们将为大家提供与大数据相关的最新技术和资讯.

你天天看手机,手机也在看你

2018-10-01 21:00 布莱恩·柯尼汉


这里有一份节目预告:

十一长假开始了

不管你是宅在家里

奔波于旅游景点之间

还是很苦逼地摊在加班的地铁上

你或许都需要读点什么


大数据(ID:hzdashuju)在长假期间

将推送6篇入门级科普,包括:

量子计算机 | 自动驾驶 | 数据与隐私

黄金比例 | AI与就业 | 数据科学职业


另外还为既聪明又努力的孩子们

准备了一份充电书单

等你来围观!

今天是我们一起充电的第1天



导读:“当你看着因特网够久时,因特网也会回看向你。”——改编自弗里德里克·尼采的名言,原文出自于尼采发表于1888年的著作《超越善恶》。


你在用计算机、手机或信用卡做的每一件事所产生的与你有关的数据几乎都被仔细地收集、分析,并且永远地保存了起来,这些信息往往被卖给了你对其一无所知的机构。


在网上,我们进行搜索,购物,并且通过电影和电视节目进行娱乐。我们用邮件和短信,以及偶尔的语音电话与朋友及家人联系。利用Facebook与朋友及熟人保持联系,通过领英获得可能的工作连接,也许还会用约会网站寻求爱恋。我们阅读博客与推特的推送以及在线新闻来了解周边的世界。我们在网上管理自己的钱财以及进行支付。


我们长期带着手机活动,而手机一直知道我们的确切位置。


作者:布莱恩·柯尼汉

本文摘编自《普林斯顿计算机公开课》,如需转载请联系我们




01 社交网络


事实上,社交网络的使用者自愿的提供了大量的个人隐私以换取娱乐以及与其他人保持联系。


几年前,我看到过有着类似内容的网帖,“在求职面试时,他们问我了一些个人简历以外的内容。他们在浏览我的Facebook主页,这简直骇人听闻!Facebook上展示的是我的私生活,这和他们一点关系都没有。


发表这样的言论表现出一种令人痛心的幼稚和无辜,但是很多Facebook使用者都会有相同的震惊感,即使众所周知雇主和大学招生办公室会定期通过搜索引擎、社交网站和类似资源来更好的了解他们的申请者。


在美国,询问求职者的年龄、人种、宗教、性取向、婚姻状态和很多其他的个人信息都是违法的,但是在社交网络上搜索这些,一切都在不声不响中变的触手可得。


几乎从定义上来说,社交网络站点都是触及隐私问题的,因为他们搜集来很多有关使用者的信息,并且通过向广告商出售这些信息获利。在短时间内这些网站诞生了,并戏剧化地壮大。


Facebook创于2004年,目前号称月活跃用户超过17亿,这超过了20%的世界人口。社交网络用户的增长趋势如此之快,相关政策没有时间余地来仔细斟酌字句,旺盛的计算机系统也没有余裕进行悠闲地发展。


这导致的结果就是,每个社交网络站点都遇到了泄露隐私信息的问题,这往往是由于网站的一些欠考虑的特征,以及由于频繁更改的隐私设置和整个程序固有的软件错误与数据泄漏,引起用户混淆所致。


作为规模最大也最成功的一个社交网络,Facebook出现的问题是最明显的。一些问题的产生是由于Facebook为第三方提供了API,这些API用于编写Facebook用户在Facebook体系内使用的一些应用,这些软件会以违反官方隐私政策的方式泄露隐私信息。当然,这些问题也不是Facebook所独有的。



地理位置服务在手机显示上显示用户的位置,这样就比较容易和朋友私下见面,在玩基于地理定位的游戏也更加方便。如果知道潜在顾客的实际位置,定向投放广告的效果更加显著;当你正站在一家餐馆门口时,相比你在报纸上看到该餐馆的广告,你对这家餐馆的广告作出回应的可能性更大。


在另一方面,当你意识到你的手机被用于跟踪你,即使你在商店里也不例外时,你也会觉得这个世界是如此恐怖吧。不仅如此,商店正开始使用店内信标。如果你选择加入系统,通常下载一个特定的应用,就代表你默认许可店家的跟踪。


信标通过蓝牙和你手机上的应用通信,监控你在店内的位置,并在你看起来对某些特定商品有兴趣时向你推送优惠信息。引用一个制作信标系统的公司的话,“信标正引领一场室内营销革命。”


位置隐私指个人将所在位置信息作为个人隐私的权利。事实上,位置隐私受到诸如信用卡、高速公路上的收费系统和公共交通系统,当然还有手机的危害。想要避免留下你曾经到过哪些地方的踪迹越来越难了。


在这方面,手机应用是最严重的“侵权者”,经常申请获得手机上你的几乎所有信息,包括通话数据,物理位置,等等。然而,一个手电筒app真的需要我的位置,联系人和通话记录吗?


在很长一段时间里,情报机构都以擅长通过分析通信对象获取大量信息而为人所知。在这个过程中,他们甚至不需要知道双方交谈了什么。这也是为什么美国国家安全局一直在收集美国境内拨出所有电话的元数据,这些数据包括电话号码,何时拨出及通话时长。


最初的信息收集是作为2001年9月11日世贸中心恐怖袭击的应对措施获得授权的,然而直到2013年通过斯诺登的文件揭露之前,没有人意识到信息收集的范围是如此之广。


即使说接受了这个事实,并且声称“这只是元数据,不是对话内容”,元数据暴露的内容可能异常的多。在2013年10月的参议院司法委员会听证会的证词,Ed Felten给出了几个假设的情景,在这些情景中,元数据可以使私人故事完全公开:


亲密关系中的两个人常常在深夜打电话。如果这些电话不再频繁,甚至不再互相联系,那么这两个人的关系可能已经结束了。当一段新的关系开始时,元数据同样可以告诉我们。换句话说,一年联系一次的朋友肯定不如每周都联系的朋友来得那么亲密。


想想下面这个假设的例子:一个年轻的女人和她的妇科医生打了电话,然后立刻给她的母亲打了电话。之后她给一个男性打了电话,在过去的几个月,她经常在晚上11点之后和这个男性通过电话联系,接着她给一个提供流产手术的计划生育中心打了电话。如果仅仅通过检验单一的电话通话记录,类似的故事线不会这么显而易见。


同样的,虽然元数据显示给赌注服务处打一个电话可能意味着监视目标准备下注,对于长期通话记录元数据进行分析则可能提示目标有着赌博问题,尤其是当通话记录显示了一些与发行日贷款服务的通话。


如果一个政府雇员突然和与新闻机构联系在一起的一些电话号码联系,接着就联系ACLU(美国公民自由联盟),然后是刑事辩护律师,那么这个人的身份可以推断为新闻机构潜在的线人或告密者。



社交网络中的显性和隐性连接也是如此。当人们明确地提供链接时,在人们之间建立联系要容易得多。例如,Facebook的“喜欢”,可以用来准确预测性别、种族背景、性取向和政治倾向等特征,对于这些特征的推断可以通过社交网络用户免费提供的信息进行。


Facebook,Twitter、领英和其他网络的点赞按钮,使得跟踪和关联更加容易。看上去仅仅是页面上出现的社交标志,它实际上是一个可见而非隐藏的广告形象,用于确认你在看这个页面,它给了供应商一个发送cookie的机会。如果单击它,这将会发回有关你的偏好的信息。


即使不是这些网站用户的个人信息也会通过社交网络和其他站点泄露。例如我收到了来自非常要好朋友的一份电子派对邀请“e-vite”,即使说我没有回应这份邀请,也没有许可他们使用我的地址,经营邀请业务的公司通过这个方法即可得到确认属于我的电子邮箱地址。


如果我的朋友在Facebook照片中标记了我,我的隐私也在未经许可的情况下受到了侵犯。Facebook提供的人脸识别功能,这让朋友们可以更方便地互相标记,同时其初始设置允许在未经被标记者许可的情况下进行。


这意味着,有着较大使用人群的系统都可以轻易地绘制出该用户的社交图像,通过图像展示直接用户之间的互动,同时可以包括那些在未经允许,甚至不知情的情况下间接地被介绍进来的人。在以上这些情形中,个人无法提前避免情况的发生了,也很难将已有的信息移除。


我不使用Facebook,因此当我发现我“有”一个Facebook主页时非常惊讶。显然,这个主页是根据维基百科页面自动生成的。


请仔细想想你如何向这个世界介绍你自己。在发邮件,网贴或是发推之前,请暂停一下,问自己,如果你的语句或是图像出现在《纽约时报》头版或是成为电视新闻中的主题故事时,你是否会感到任何不适。你的邮件,发出的短信和推特都很可能被永久存储在网路上,甚至可能在数年之后重新出现在一些令人尴尬的内容里。




02 数据挖掘与聚合


因特网和万维网已经彻底改变了人们收集、存储和展现信息的方式。搜索引擎和数据库对每个人都具有不可估量的价值。很难想象之前没有因特网的时代我们是怎么过来的。海量的数据(“大数据”)为语音识别、语言翻译、信用卡防伪检测、推荐系统、实时交通信息,以及很多其他的无价服务提供了大量原材料。 


对于网上数据的增生也有利弊两面,尤其是那些可能会过多暴露我们的信息如果传出去,会令人相当不自在。 


有些信息明显就是公开的,还有些信息收集起来就是为了供人搜索和索引的。如果我写了一个网页,希望大家都能看到,假设就是这本书的页面吧,那么我肯定愿意人们通过搜索引擎可以轻易发现它。 


那怎么看待公共档案呢?法律上,某些信息属于任何人通过申请都可以查阅的。在美国,公共档案包括可以公开的庭审记录、抵押文件、房价、地方房产税、出生和死亡记录、结婚证、政治捐助,等等。(查阅出生记录通常是为了知道“妈妈婚前的姓氏”,以便辅助确认一个人的身份。)


很早以前,要知道这些信息必须不辞劳苦,亲自前往当地政府驻地查阅。因此,虽然这些档案名义上是“公开”的,但不付出点代价也不可能看到。谁要想获得这些数据,就得亲自跑一趟,或许需要出示身份证件,要想复制一份可能还得花点钱。



今天,如果这些数据上了网,我坐在自己家里就可以轻轻松松查阅这些公共档案。我甚至可以开个公司,收集汇总这些信息,然后与其他信息整合起来。


比如很多人都知道的zillow.com,就整合了地图、房地产广告、有关财产和交易的公开数据,通过地图来直观地显示房价。如果你想买卖房屋,这是有价值的服务,否则可能会被视为侵扰。通过查询联邦选举委员会(Federal Election Commission,简称 FEC)的选举捐款数据库(fec.gov),可以知道哪位候选人得到哪些朋友和要人的捐赠,或许可以查到他们的家庭住址等信息。


在FEC提供信息的基础上,fundrace.huffingtonpost.com在一张地图上给我们标出了这些人的名字、地址、职业。这种做法击中了公众知情权和个人隐私权之间来之不易的平衡。 


什么样的信息才应该让人如此轻而易举地得到?这个问题很难回答。政治捐款应该公开,但门牌号码可能就应该稍加隐藏。包含美国社会保险号等个人身份识别信息的公共档案似乎不该放在网上,因为这就给盗用别人身份打开了方便之门。


逮捕记录和照片有时会公布,有些网站会发表这些信息,他们的商业模式就是个人为其付款才能从网站上撤下照片!可当前的法律无法完全阻止这种信息的公布,而这种信息一旦上网,就覆水难收了。欧盟的“遗忘权利”法律可以使这些信息难以寻找,但该法律仍然是不完美的工具。


随着在多个各不相关的来源都能查到同一类信息,这个问题就变得愈发严重了。比如,很多提供Web服务的公司都有大量的客户信息。搜索引擎会记录所有查询,也包括查询人的许多信息。最低限度也会记录查询人的IP地址,还有用户之前访问过网站时保存在计算机上的cookie 。 


2006年8月, AOL出于好意而公开了一大批查询日志样本,供人研究。这些日志涉及三个多月以来65万用户的2000万查询,已经做了匿名处理,因此从理论上讲,不存在任何可以用于辨识个人身份的信息。


尽管是善意之举,但人们也很快就发现这些日志在实践中不会像AOL想象的那样做到完全匿名。每个用户在查询时都会被赋予一个随机但唯一的标识符,有了这个标识符,就很容易知道同一个人都查询过什么内容。进而,确定一些人的身份也就成为可能。



因为不少人都搜索过自己名字、地址、社会保险号以及其他个人信息,通过搜索相关性分析暴露出来的信息比AOL认为的多,也肯定比原始用户自己想到的多得多。AOL很快从自己网站上删除了这些日志,当然为时已晚。这些数据早已传遍世界各地了。 


查询日志对经营企业和改进服务有价值,但很明显其中可能包含敏感的个人信息。搜索引擎应该把查询日志保留多长时间?这里有个矛盾:考虑个人隐私则保留的时间应该短,而考虑执法目的则保留的时间应该长。


为了达到一定的匿名程度,这些公司内部该对数据进行怎样的处理?虽然他们全都声称会删除每条查询对应的部分IP地址信息(一般是最右边的字节),但仅仅如此似乎还不够,还达不到反识别用户的目的。


政府机关查询这些信息的权限有多大?打一次官司会查询多少信息?所有这些问题都没有明确的答案。AOL公布的查询日志中有些是很吓人的,比如有人查询怎么杀死自己的配偶。因此,有限度地向司法机关开放这些数据是合理的,但问题是这个限度应该放多大,很难说清楚。 


AOL事件揭示了一个广泛存在的问题,即真正做到数据匿名化是非常困难的。删除身份识别信息可以降低识别度,单就特定的数据而言,确实无法定位到用户,因此可以说它是无害的。但现实当中信息的来源是多方面的,把多个来源的信息组合起来则很可能挖掘出更多身份特征。而且某些来源的信息甚至连提供者自己都不知道,这些信息将来也未必还能找得到。 


有关这种再识别问题,下面可以给大家讲一个真实的案例。1997年,当时在MIT读博士的拉坦娅·斯威尼分析了马萨诸塞州135000名雇员的体检记录,这些记录都做了反识别处理。数据来源是该州的保险委员会,可用于研究目的,甚至被卖给了私人公司。每条体检记录中除了大量其他信息外,都包括生日、性别和邮政编码。


斯威尼发现有6个人的生日都是1945年7月31日,其中3个男性,而只有1人住在坎布里奇。把这些信息和公开的选民登记名单一对照,她便知道了这个人就是时任州长威廉·韦尔德。


他们了解的不够多,所以没有人可以发现这些秘密,这种想法很诱人。然而,很可能敌人掌握的信息之多已经超出了你想象,即使他们现在还不知道那么多信息,将来也有可能知道。


关于作者:布莱恩 W.柯尼汉,世界顶尖计算机科学家,普林斯顿大学教授,曾任职于贝尔实验室计算机科学研究中心。他与C语言之父Dennis Ritchie共同撰写的《C程序设计语言》是编程语言书籍中的典范,对世界各地的程序员产生了深远的影响。


本文摘编自《普林斯顿计算机公开课》,经出版方授权发布。


延伸阅读《普林斯顿计算机公开课

点击上图了解及购买

转载请联系微信:togo-maruko


推荐语:智能新时代不可不知的计算常识!人人都能读懂的数字生活必修课!



更多精彩


在公众号后台对话框输入以下关键词

查看更多优质内容!


PPT | 报告 | 读书 | 书单

Python | 机器学习 | 深度学习 | 神经网络

区块链 | 揭秘 | 干货 | 数学


猜你想看




Q: 还敢在社交网络中表达真实的自己吗

欢迎留言与大家分享

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩,请在后台点击“历史文章”查看

点击阅读原文,了解更多

 
大数据 更多文章 程序员爬虫竟构成犯罪?注意,别摊上事! 长假还没安排?这7本书和7部影视作品,让你宅家或者堵在路上都一样精彩 数据告诉你:90后真“结不了婚”,传统婚姻观要玩完? 天生贵胄:走进廊坊华为云数据中心 一言不合暴打产品经理、枪杀同事?5本书,带你告别低情商
猜您喜欢 阿里云狂揽国际朋友圈,集体融入数字中国新时代 通过Swagger生成的Json创建Service&自定义开发者界面 | API 2017年iWeb峰会召开在即,多元利好引爆HTML5行业繁荣! K8S Meetup 线上分享|《使用 Docker 和 Kubernetes 部署 Spark 集群》 编程菜鸟高飞迷茫中邂逅于千锋Android培训终获高薪