无法预测之殇

实现准确预测需要一些真实的因素。我们必须掌握足够多的历史数据来识别模式——与这些模式相关的事件必须始终发生。而且我们必须有区分疑似事件和真实事件的能力,即众所周知的排除误报。但是,仅仅是准确预测还远远不够。要让预测派上用场,我们还必须具备根据预测及早并快速采取行动的能力。

当地震真正发生的时候,相关数据会非常清晰地表现出来,例如地动山摇。而且一旦其威力够大的话,停电、爆炸、有毒气体溢出、火灾爆发都可能出现。地震发生之后,除了受灾地区发生物理、化学巨变,整个社会的互联网沟通行为、手机通话行为和移动模式都会发生明显的可观察的变化。有兴趣的读者可以阅读以下三篇论文“Earthquake shakes Twitter users: real-time event detection by social sensors”(发表在2010年WWW大会上)、“Collective Response of Human Populations to LargeScale Emergencies”(发表在2011年的PLoS ONE上)、“Predictability of population displacement after the 2010 Haiti earthquake”(发表在2012年的PNAS上)。这些例子本身就包含了大数据的精髓和理念。——译者注当然,到那个时候,也就不再需要大量的计算机和天才科学家们来预测灾祸了。

所以要起到效用,当下的数据必须预先与过去的数据进行匹配,而且要给我们留下足够多的行动时间。如果在地震发生的前几秒才完成匹配的话,也就没什么作用了。我们需要足够多的时间得出结论、调动各方资助力量并疏散群众。而且,我们必须具备快速分析数据的能力,只有这样,数据分析才能发挥效用。试想一下,假如我们拥有足够多的数据,它们能让我们提前一天预测到地震的发生,而我们却花费了两天时间进行数据分析,那这些数据和我们的预测结果就起不到什么作用了。

因此,从本质上来说,准确预测地震既是大数据的机遇又是挑战。单纯拥有数据还远远不够。我们既要掌握足够多的相关数据,又要具备快速分析并处理这些数据的能力,只有这样,我们才能争取到足够多的行动时间。越是即将逼近的事情,越需要我们快速地实现准确预测。不过,在某种程度上,这种预测适用于收益递减规律。就算我们能在瞬间完成对预测地震所需的海量数据的分析处理,如果没有留下足够的时间将群众调离危险区域,这种分析就没什么意义。

准确预测需要更多、更好的数据

2012年10月22日,6名工程师因为在预测地震时误导村民,均被判处有期徒刑6年。这次地震发生在2009年的意大利拉奎拉镇(L’Aquila),300名村民因此丧生。

大数据能帮助地质学家实现更好的预测吗?

每年,世界各地约有7000次里氏4.0或更高级别的地震发生。地震测量有两种,一是著名的里氏震级,二是更现代的矩震级。前者是依据地震所含的能量定级,而后者是通过地震所释放的能量认定地震等级。

预测地震的时候,有三个关键问题必须找到答案:何时、何地、何种震级?在《庸医游戏》(The Charlatan Game)中,杨百翰大学的马修·玛贝(Matthew A. Mabey)认为,虽然地震有预兆,“但是我们仍然无法通过它们可靠、有效地预测地震”。相反,我们能做的就是尽可能地为地震做好准备——它的发生频率远比我们想象的要大得多。这些准备包括在设计、修建桥梁和其他建筑的时候就把地震考虑在内,并且准备好齐全的地震应急包,一旦发生大地震,这些基础设施和群众都能有更充足的准备。

就像我们小学时都学过的一样,地震是由构造板块相互挤压造成的——构造板块则是偶尔会漂移的陆地板块。这种板块挤压发生在地球深处,而且各个板块的相互运动复杂难懂。因此,有用的地震数据来之不易,而要弄明白是什么地质运动导致了地震,基本上不现实。

归根结底,准确地预测地震,即回答何时、何地、何种震级这三个问题,需要掌握促使地震发生的不同自然因素,以及揭示它们之间复杂的相互运动的更多、更好的数据。

大数据的关键之处正在于此:预测不同于预报。科学家能预报地震,但是他们无法预测地震。1906年旧金山发生地震,导致3000余人伤亡,而其何时会再次遭遇这样的地震?科学家们不能断言。科学家们只能预报某个地方、某个具体的时间段内发生某级地震的可能性。例如,他们只能说未来30年,旧金山湾有80%的可能性会发生里氏8.4级地震,但他们无法完全确定地说出何时何地会发生地震,或者发生几级地震。这就是预测和预报之间的差异。

不过,虽然准确预测地震还有很长的路要走,但是黑暗中尚有一线光明,那就是,科学家已经越来越多地为地震受害者争取到那么几秒钟的时间了。

传统的地震探测仪需要花费3000美金甚至更多,而如今基本的地震探测只需通过连接至标配计算机的廉价的探测仪就可实现,甚至只需通过使用如今很多移动设备内置的动作感应功能就可实现,而这些功能原本是为了导航和游戏设计的。

斯坦福大学的“地震捕捉者网络”(Quake-Catcher Network, QCN)由参与分布式地震检测网络的大约200个志愿者的计算机组成。有时候,这个监测网络能提前10秒钟提醒可能会受灾的人群。也许10秒钟看上去不长,但是却很重要,因为这意味着你是搭乘运行的电梯还是走楼梯,是走到开阔处去还是躲到桌子下面。

“地震捕捉者网络”就是一个会生成大量数据的廉价监测网络的典型例子。以前,要捕捉和存储如此多的数据耗资巨大,但是,正如我们在接下来的章节会谈到的一样,近期的技术进步使得这些数据的捕捉和存储成本大大降低——有时候甚至比过去便宜了九成都不止。能得到更多、更好的数据不只为计算机实现更精明的决策提供了更多的可能性;也使人类变得更聪明了。

更多的数据,更聪明的大脑

如果你想变得更聪明,现在不必再为此独自伤神了。最近的研究为你带来了一个好消息:通过增加储存的信息量可以扩张脑容量。

为了获得驾照,伦敦的计程车司机必须通过一个名为“知识”(the Knowledge)的严厉考试,以此证明他们已经熟知伦敦市中心的25000条街道布局和20000个地标位置。这些申请者完成所有任务一般需要3~4年,那么,在这些伦敦计程车司机完成“知识”考试的培训课程之后,真的变得更聪明了吗?结果证明的确如此。