大数据:迷思与解毒

2013-11-28 15:48:34 大云网  点击量: 评论 (0)
1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件,这些事
      1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。

  印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。

  信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程。

  印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》被古腾堡的印刷机复印了30多万次。路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。单单一个三十年战争,德国人口就减少了1/3。这堪称人类历史上最血腥的时代。

  但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步。

  大数据的承诺和陷阱

  到了时下,最流行的要数“大数据”了。根据IBM的估计数据,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。

  信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”

  我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。

  在4年时间里,我对十多个行业和领域中的数据驱动预测机制进行了调查,我也曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现“大数据”时代的预测活动发展得并不顺利。

  新千年给美国人带来的是噩梦般的开始。我们没有预测到“9·11”恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的“珍珠港事件”一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。

  近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能“盲目飞行”了。

  与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。

  错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文—《为什么大多数发表的研究成果都是骗人的》。

  这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。

  人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。

  在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的“信息超负荷”的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。

  正是出于这个原因,我将预测视为人们共同的事业。虽然预测很难,但解决方法还是有的。

  在任何一个数据丰富的领域,寻找模式很容易,一般的预测者也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。虽然还没有找到关键点,但是有一种思维过程可以帮助我们作决定,这就是贝叶斯定理。

  预测和贝叶斯定理

  托马斯·贝叶斯,大概于1701年出生。尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员。在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。

  贝叶斯的作品《机会的学说概论》,又称《论有关机遇问题的求解》,直到他1763年去世之后,由他的朋友理查德·普莱斯引介到英国皇家学会,引起了学会的注意,随后才得以出版。这部作品主要研究的是,当我们遇到新数据时,该如何使用概率的方法进行推理。

  今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式,是由法国数学家、天文学家拉普拉斯推导出来的。

  然而,就是这样一个简单的运算,却可以推导出重大的预测。

  贝叶斯定理涉及条件概率,也就是说,一旦发生了某个事件,这一定理就可以告诉我们一种理论或假设是否正确。

  假设你和伴侣同住,某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪:自己的伴侣是不是出轨了?不论你相信与否,对于这样的问题,贝叶斯定理总能给出答案—假如你知道(或愿意预估)下列3个量。

  第一,你需要预测出自己的伴侣在出轨的情况下,这件内衣出现的概率。为了解决这个问题,我们暂且假设你是一位女性,而你的伴侣是一位男性,那么,此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了,那么很容易想象这件内衣是如何进入你的衣橱的。那么,即使他确实要做对不起你的事,你也希望他能够小心行事。在他确实背叛了你的情况下,我们认为,这件内衣出现的概率是50%。

  第二,你需要预测出自己的伴侣在没有出轨的情况下,这件内衣出现的概率。如果他没有出轨,有什么理由证明那件内衣的清白呢?当然有些理由会令人不快(比如这件内衣也有可能是他自己的)。或许,他把衣服搞混了;或者你的伴侣有一位红颜知己,两人之间只存在纯友谊,而你对此也深信不疑,她寄宿一晚忘了带走内衣;或者这就是你的伴侣给你准备的一件礼物,只不过忘了把它包起来。尽管这些理由有些荒谬,但也能说得通。你将这种情况出现的概率定为5%。

  第三,这点最为重要,你需要预测贝叶斯定理中所说的先验概率(或者简称先验)。在发现内衣之前,你认为自己的伴侣出轨的概率有多大?当然,现在很难完全客观地考虑这个问题,因为你已经发现了内衣。(在理想状态下,在开始查验证据之前,你就已经算出了先验概率。)但有时我们可以依据经验推断某事件发生的概率。比如,研究发现,已婚夫妇任何一年的出轨概率都在4%左右,所以,我们可以将这个概率视为先验概率。

  如果我们算出了以上3个概率值,就可以依据贝叶斯定理得出后验概率:只有29%,这个结果也许看似仍有悖常理—那件内衣果真是清白的吗?但这一概率之所以较低,是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样,能为一件陌生内衣的出现找出很多看似合理的解释,但你一开始就把他当作清白的人,这一点对方程式影响很大。

  这里,我还要提到一个比较沉重的例子:“9·11”恐怖袭击事件。2001年9月11日清晨,当我们从梦中醒来时,大部分人都想不到恐怖分子的飞机会撞向曼哈顿世贸中心大楼。但是,世贸中心第一次遭遇袭击之后,我们才意识到这也许是一次恐怖袭击。直到第二座高楼被袭击之后,我们才相信确实遭遇了恐怖袭击。

  贝叶斯定理可以复制这个结果。比如,在第一架飞机撞击大楼之前,我们预测曼哈顿的高楼遭遇恐怖袭击的概率只有1∶20000或0.005%。当然,我们还是会认为世贸中心意外遭遇飞机撞击的概率是非常低的。人们靠经验也能准确地预测出0.005%这个数字。9月11日之前的25000天,一直有飞机盘旋在曼哈顿的上空,而期间只发生了两次这样的意外事故:一次是1945年的美国帝国大厦事件,另一次是1946年的川普大厦事件。这样看来,此类意外事故的日发生概率只有1∶12500。在第一架飞机撞上世贸中心大楼的那一刻,如果用贝叶斯定理计算这些数据,发生恐怖袭击的概率便会从0.005%剧增至38%。

  然而,贝叶斯定理暗含的意思并不是说,我们对概率的预测只可以作一次更新,相反的,鉴于新证据的不断涌现,我们需要不断地更新自己的预测结果。于是,第一次恐怖袭击的后验概率38%,在第二次袭击之前就会变成先验概率。这时再来进行世贸中心遭遇第二次恐怖袭击的概率运算,遭遇袭击的概率就变成了99.999%,这就表示恐怖袭击必会出现。在阳光灿烂的纽约出现意外事故的概率很低,而就像我们推断出来的可怕结果一样,第二次恐怖袭击很有可能会发生。

  不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则。或者说,一旦获得新信息,我们就应该更新自己的预测。

大云网官方微信售电那点事儿

责任编辑:花脸

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞