牛津大学专家:Facebook不算数据泄露,你们都错了

原文来源:Medium 作者:Chris Kavanagh
编译:文强,克雷格

【导读】吃瓜群众要的反转来了——关于闹得沸沸扬扬的Facebook“数据门”,实际上,公众可能存在很大误解。首先,媒体报道的FB数据“泄露”,用词是错误的,剑桥分析获取用户数据的方法,是一种常见的数据共享协议。此外,被获取的数据并非Facebook的内部数据,而是使用第三方程序从Facebook获取的用户配置文件。Facebook之所以遭遇了“自创建以来最大危机”,很大原因是这些数据可能被拿去帮助特朗普赢得大选,以及英国脱欧。但事情的真相,果真如此吗?

Facebook首席科学家Yann LeCun,在与法国总统会晤以及发表各种演讲的繁忙日程中,今天默默转发了一条Twitter:

你所知道的(几乎)有关剑桥分析的一切都是错误的。

Facebook数据门爆出以后,几乎没有听到这位大佬发声。这次的转发,显然代表了一些观点。

这篇文章说了什么?Facebook要来个惊天大逆转?

你听说的Facebook数据门

如果你有在关注新闻,Facebook以及一家名为“剑桥分析”(Cambridge Analytica)的公司登上了很多头条。

报道的基本情况是这样的:

英国一家有猫腻的数据分析公司,在一位24岁的科技天才的帮助下,开发出一种新的技术,“黑入”(hack)Facebook并窃取了5000万用户档案。然后,他们使用这些数据,帮助特朗普竞选,也和英国脱欧有关联,方法是通过有针对性的广告,从心理上操纵选民。结果是Vote Leave“赢得”英国脱欧公投,特朗普当选美国总统。

不幸的是,上面的总结,几乎所有内容都是错的,或者存在误导。

用户自己授权,你可能也做过

首先,没有“黑客袭击”(hack)发生。

收集的数据是从Facebook用户配置文件中截取的(scraped),这件事发生在用户授予第三方应用程序访问其数据的权限的以后。你还记得在访问一个陌生网站,或者玩Candy Crush这类小游戏登录时,弹出的那些小窗口吗?

你没有为这些网站重新设置密码,而是授权使用Facebook账号登录,就是这些。

没有用过Facebook,但是允许XX使用微信/微博/XX账户登录,这你总该有印象吧。

一位名叫Aleksandr Kogan的剑桥学者——不是剑桥分析公司,也不是剑桥分析公司的内部举报人Christopher Wylie ——制作了一个“测试你的个性”应用程序,将其安装在亚马逊的Mechanical Turk众包网站上,然后通过向使用这个应用程序的人支付2-4美元,来帮助推广这个应用程序,同时,使用获得的授权来收采集数据。

27万用户安装了这个应用程序,你可能以为有27万用户信息被采集了,但实际上这个应用程序从5000万个配置文件中收集数据。

5000万?!?

没错。再看2014年的时候,Facebook有一项名为“好友权限”(friendspermission)的功能,允许开发者不仅访问安装他们应用的人的用户配置,还能访问这个人所有朋友的配置文件(user profiles)。防止这种情况发生的唯一方法是切换隐私设置,绝大多数Facebook用户都不知道这项功能。

而好友权限正是Kogan将27万权限变为5000万配置文件数据的方法。

删除好友数据访问权限,招致开发人员不满

Facebook用户在不知情或者没有授权的情况下,数据被拿去与朋友共享,这件事是当时许多隐私权倡导者都注意到了的严重问题。因此,在2015年,面对越来越多的批评和压力,Facebook删除了该功能,并表示自己愿意给予用户更多的控制权。这个决定引起了开发人员的惊恐,因为访问好友配置文件的功能非常受欢迎(参阅2014年Facebook发布这些更改后的评论)。

前Facebook经理Sandy Parakilas向彭博社报告称,在停用前,当时有“数十甚至数百万的开发者”都在使用这项功能。

关闭“好友权限”功能以后,有开发人员站出来说,“一家号称致力于让世界变得更开放和连接的公司,怎么能移除访问社交信息权限从而限制其开发者社区的能力,让我们的应用程序变得更加封闭,与我们的用户隔离开?我说的主要就是移除好友权限功能……”

回顾一下,现在有两点需要记住:

1、我刚刚描述的任何内容都不涉及“黑客攻击”Facebook或利用漏洞。相反,这一切都是围绕Facebook提供给所有开发人员的一个功能(feature),(至少)数以万计的开发者已经使用了这一功能。

2、收集的数据不是Facebook内部数据。这是开发者从下载应用程序(和他们的朋友)的人的配置文件中获取的数据。Facebook拥有更多的用户数据,但这些数据不是对外公开的,这一点适用于所有使用其平台的用户。除了Facebook,没有人可以访问Facebook拥有的数据。这一点,几乎所有报道这起事件的记者都没有抓住,他们多次将“Facebook内部数据”与使用第三方应用程序从Facebook用户配置文件获取的数据等同起来。但这两件事是非常不同的。

Facebook说谎了吗?

因此,在你看新闻时,第二点的重要性就变得显而易见:

Facebook英国政策主管SimonMilner在被问到Cambridge Analytica是否有Facebook数据时,告诉国会议员说:“没有。他们可能拥有很多数据,但不会是Facebook用户数据。这可能是他们自己在Facebook上收集的用户数据,但这不是我们提供的数据。”

这段话在报道中,被作为Facebook向政治家谎报其与Cambridge Analytica关系的证据。但是,当你了解到Facebook的内部数据与外部开发者在Facebook上收集的数据之间的差异后,很明显,Facebook政策总监说的话,很可能是真实的。

那剑桥分析公司又是怎么回事呢?

他们付钱让Kogan收集这5000万份配置文件。但现状是,Kogan说是Cambridge Analytica先来找的他,但Cambridge Analytica却说是Kogan来找的他们。

真正的违法行为是……

无论情况如何,真正的违法行为出在这里:不是Facebook内部数据泄露,而是Facebook的数据共享政策。Facebook允许开发者从他们的应用中收集他们想要的所有用户数据,但开发人员不能倒卖这些数据给第三方——这条规定从2014年就已经存在。

然而,不管Facebook的官方政策如何,他们似乎没有花费太多的精力来监督开发者,也没有跟踪这些开发者收集的数据是如何使用的。这可能就是为什么当Facebook首次发现Kogan已在2015年向Cambridge Analytica出售一些数据时,他们得到数据已被删除的书面确认就没有再追究了。

数据黑市

事实上,(至少)成千上万的开发者可以访问这些信息,这意味着在Facebook上收集的数据不可避免地被出售或以其他方式提供给广泛的第三方。同样,一位心怀不满的前Facebook经理也证实了这一点:

当被问到Facebook对外部开发者的数据有何种控制时,他回答道:“没有。完全没有。一旦数据离开Facebook服务器,就没有任何控制权,也无法知道发生了什么。Parakilas表示,他一直推测对于那些传给外部开发人员的Facebook数据,有一个“黑市”存在。

因此,Facebook数据收集普遍存在,而且,有许多开发者都拥有超过27万用户的应用程序,可以从中收集大量用户数据——那为什么剑桥分析公司会受到媒体如此多的关注?

这个问题的答案似乎主要是记者,特别是Observer的Carole Cadwalladr如何构思了这个故事。大部分报道都从两个角度切入。首先,来自Cambridge Analytica内部的举报人揭示了Facebook数据的“重大违规”,这是我们前面刚刚说的,其次,这一“违规”与特朗普总统竞选的成功有关。

第二个角度……来看看这位吹哨人

这第二个角度与第一个角度一样令人怀疑,而且严重依赖Chris Wylie这位粉丝头发的前剑桥分析员工所作的夸夸其谈。

Carole Cadwalladr花了好几年的时间在各种采访中解释说,她不是作为调查记者,而是作为特写作家。这意味着她专注于研究“故事的人性”,或者换一种说法——她研究Chris Wylie。

这种做法有利有弊,但最大的缺点在于太投入和依赖故事,使她和后续的报道接受了Wylie的叙述,这恰好让Carole Cadwalladr把他描绘成一个处于全球政治阴谋中心的年轻策划者。

Cadwalladr完全赞同Wylie的陈述,在报道中Cadwalladr将他形为“聪明、有趣、刻薄(bitchy)、深刻、智力贪婪,引人注目”……“不可思议的年轻人……”“他的职业生涯轨迹像他生命中迄今为止的大多数方面一样非凡、荒谬、难以置信的”、”Wylie为创意而活,他一次说话十几个小时“、“Wylie把他的注意力全部转移到了一些东西上——他的战略大脑,他对细节的关注,他计划前进12步的能力——有时看起来有点恐怖”、”他非凡的才能包括那种使得House of Cards看起来像英国大烘烤的高级政治技巧。“

哇…真是个好人。

Cadwalladr的以人为本的方法可能会提供更易读的文章,但它也有助于掩盖相关的技术细节,而只利于提供Wylie及其朋友和同事的耸人听闻和个人轶事。如果对这些细节进行足够的批判性审查,那么这些细节可能会很有见地。相反,Cadwalladr似乎已经完全接受了Wylie的叙述:“当我亲自见到他时,我已经每天与他谈话几个小时。”

缺乏证据

所以,让我们来解释一下这个问题,并且更多地关注一下Wylie的叙述主张:

  • 史蒂夫·班农想把大数据武装起来……不难相信。
  • 剑桥分析公司声称能够提供有效的心理靶向和操纵工具……当然是对的。
  • Chris Wylie本人参与了一些阴暗的业务,并认为自己是部分责任人……当然。
  • 剑桥分析的自我宣传声明实际上等同于他们提供的服务的有效性……嗯。

最后一点是最重要的,也是最缺乏证据。

这种导向可能是指的特朗普的惊人胜利,但这里有很多混杂因素。特朗普是赢了,但是他赢得了现代历史上最不受欢迎的民主党候选人的竞选,民主党当时试图第三次总统当选(自20世纪40年代以来一直没有实现)。此外,特朗普以微弱的优势获胜,实际上失去了大部分民众选票。

剑桥分析的广告,真的那么有效?

这些都可以证明剑桥分析公司的心理定位有多精确吗?最好的方法是查看剑桥分析公司成功与失败的相关记录。

不幸的是,我们无法访问他们的完整客户名单,但我们确实知道,当他们第一次崭露头角时,是为Ted Cruz总统竞选工作服务,Ted Cruz是共和党参议员,被特朗普在共和党的初选中干掉

我不是第一个注意到这种明显矛盾的人,《VICE》的专栏作家Martin Robbins曾在《Little Atoms》上撰文提出了同样的观点。

因此,共和党初选的故事实际上是剑桥分析公司的华丽数据科学团队被一个拥有一千美元网站的老兄殴打。要把这一惊人的故事变成一个无与伦比的故事,让特朗普不可阻挡地走向胜利,这是一个相当大的挑战。他们还为谁工作过?如果没有客户名单,挑选优胜者是很容易的。

剑桥分析声称使用的技术涉及使用社交网络数据来构建算法,以准确预测给定个人的个性和心理状态下的消息类型。当他们谈论使用心理学来微观选民时,这就是故事的意思。但是,关于这种技术的有效性很多要求被夸大了。

作为争论核心的剑桥学者Kogan提出了类似的论点。他声称自己正被当成替罪羊,并认为他收集的人格概况证明对于进行微目标所需的预测并不特别有用:

事实上,从我们对该主题的后续研究中,“他写道,”我们发现,我们给予SCL的预测使得所有5个人的人格特质错误的可能性高出6倍,因为这是为了让他们全部正确。简言之,即使数据被运动用于微型定位,也可能实际上只会伤害他们的努力。

Kogan所说的话未必公正,但他的主张符合各种研究,这些研究显示,恶意的社交媒体操纵并未取得令人瞩目的成果。举例来说,有争议的Facebook“精神控制”研究,最近几天我听到了几位记者的推荐。但在报道这项研究时,似乎总是缺少它的不足之处。

Facebook的“精神控制”研究和阴谋论

Facebook对近689000名用户进行了一项实验,在该实验中,它调整了运行新闻feed的算法,以显示更多来自好友的状态更新,这些信息包含了积极或消极的词汇。

正如任何研究人员所知道的那样,在如此大的样本中,你肯定会发现群体之间有显著的统计学差异。一个更重要的标准是这样的大群体的影响是多大。

在Facebook的研究中,这相当于一个真正可怕的差异:那些看到负面更新较少的人,在状态更新中每100个单词中多使用约0.05个积极词,而那些看不到积极更新的人,每100个使用约少1个正面词

这是正确的,Facebook可能已经能够操纵人们在更新中每100个单词使用大约1个较少的正面单词。如果将其描述为Facebook无能为力,更大的干预将产生更大的影响,这将是错误的,但重要的是要正确看待事情。

真正的故事

真正的故事并不是Kogan,Wylie和剑桥分析开发了一些令人难以置信的高科技去黑Facebook。这就是说,除了Kogan的数据销售之外,他们使用的数据在在2015年之前都是被Facebook所许可的。

自从这个故事被曝光后,剑桥分析就被认为是一个相当令人讨厌的、不道德的公司——至少在它如何推销自己给潜在客户的过程中是这样。

但是,媒体报道的关于其操控性权力的大多数报道,只是对剑桥分析公司(以及Chris Wylie)自我宣传的一种不重要的反讽。问题是,几乎没有证据表明该公司能做它号称能做到的事情,也没有足够的证据表明它不像它喜欢假装的那样有效——看到Ted Cruz现在不是总统的就是公司能力无效的事实。

没有人完全不受市场营销或政治信息的影响,但几乎没有证据表明剑桥分析公司比其他类似的公关或政治拉票公司更能够针对选民。政治目标和虚假宣传运动,包括俄罗斯推动的运动,肯定会对最近的选举产生影响,但它们是否是关键因素?他们是否比科米宣布他在美国大选前一周“重启”希拉里电子邮件调查的影响力更大?还是Brexiteers声称每周都有欧盟从NHS偷走2.5亿英镑?让我感到怀疑。

澄清一下,我并不是在说剑桥分析和Kogan是无辜的。至少,很明显,他们正在做的事情与Facebook的数据共享政策背道而驰。同样的,Facebook在允许开发者访问其用户的私有数据方面显得太过漫不经心。

我想说的是,剑桥的分析人士并不是他们被广泛描绘的傀儡大师。它们对自己的能力提出了很多夸张的说法,并因此得到了很多关注。

***

数据安全和个人隐私问题已经越来越深入人心,Facebook在这起事件中的过错不在“数据泄露”,而是数据共享策略,而这一点,影响更加深刻、在这个社交网络的大数据时代,关系到千千万万开发者,以及我们每个人作为用户。

这件事跟中国人关系可能更大,正如李彦宏所说:“中国人更加开放,或者说对于这个隐私问题没有那么敏感。如果说他们愿意用隐私换,或者交换便捷性或者效率的话,很多情况下他们是愿意这样做的。”

原文链接:https://medium.com/@CKava/why-almost-everything-reported-about-the-cambridge-analytica-facebook-hacking-controversy-is-db7f8af2d042

分享: