03 思维变革:大数据时代新闻传播的认识创新和逻辑创新

大数据带来的信息风暴正在改变我们的生活、工作和思维。大数据之所以从一个简单的概念到被炒得这么火爆,主要是因为它颠覆了千百年来人类的思维惯性,对人类的认知和与世界交流的方式提出了全新的挑战。一方面,大数据通过数据的叠加和互相链接会生产出更多的知识和信息,成为人们获得新的认知和创造新的价值的源泉;另一方面,大数据作为一种的技术手段和思维方式,也在不断重塑着市场、组织机构,以及政府与公民关系,成为数据社会新的社会技术基础,未来将主导社会关系及社会权力格局。

当大数据占据整个信息社会的中心舞台,所有的社会资源配置都在围绕大数据而展开时,要求我们以一种新的、与大数据相匹配的思维方式来理解这个世界。传统知识观中的因果律遭到极大的挑战,而相关性则让我们从对过去的理解,解放出对未来的预测。大数据带来的是思维方式的大解放。

一、思维革命:从“为什么”到“是什么”

大数据不是建立在因果关系基础上的,因此也就不适用于从果到因的推定。用大数据进行涉及因果的推定是对大数据的滥用,这种滥用将把人禁锢在可能性之中。在大数据时代,“为什么”不重要,重要的是“是什么”,这是大数据的一个核心特点。

在以往的社会研究思维中,经常使用的数据分析方法是相关分析、回归分析和结构方程模型等,这些方法的背后是认为世界是因果联系的,有果必有因,必须找到因;但在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”,知道“是什么”就够了,没必要知道“为什么”。

可以通过以下几个例子来理解大数据时代相关关系比因果关系更加重要。亚马逊开始聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊网站的主页面上。这个团队创立了“亚马逊的声音”版块,成为当时公司的一颗“宝石”,是其竞争优势的重要来源。正是因为他们的评论、推荐,才使得书籍销量猛增。后来,亚马逊决定让这个团队根据客户个人以前的购物喜好,为其推荐具体的书籍。同时,亚马逊还建立了计算机推荐制度,对以往储存的用户相关数据如客户购买的书籍、关注的书籍、关注了却没有购买等进行分析,为客户推荐新书。结果发现,通过这个计算机系统推荐的书的销量是专家团队荐书销量的100倍。于是,他们解散了专家团队。亚马逊的这套计算机推荐系统只是梳理出了有趣的相关关系,但不知道背后的原因。知道“是什么”就足够了,没有必要知道“为什么”。

即在大数据时代,大数据分析可以帮助我们找到一个现象的良好的关联物,这个关联物可以帮助我们捕捉现在和预测未来。如果现象A和现象B经常一起发生,我们只需要注意到现象B发生,就可以预测现象A也会发生。

在大数据时代,经常被大家谈起的案例是美国有一家折扣零售商Target,他们使用大数据的相关关系分析已经有好多年了。对于零售商来说,知道一个顾客是否怀孕是非常重要的,因为这是一对夫妻改变消费观念的开始,也是一对夫妻生命的分水岭,他们会光顾以前不会去的商店,渐渐对新的品牌建立忠诚。所以Target的市场部向分析部求助,看是否能够通过一个人的购物方式发现她是否怀孕。公司分析部的技术人员首先查看了签署婴儿礼物登记本的女性消费记录。他们注意到,登记本上的妇女会在怀孕大概第三个月的时候买很多无香乳液,几个月后,会买一些营养品。公司最终找到了大概20多种关联物,通过这些关联物可以给顾客的“怀孕趋势”评分,甚至能够比较准确地预测预产期。这样,Target就能够在客户孕期的每个阶段给客户寄送相应的优惠券,这才是Target市场部的目的。一天,一个男人冲进了Target商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”几天后,经理向这个男人打电话致歉,这个男人的语气却变得平和起来,他说:“我跟我女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”

UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,以便能及时地进行防御性的修理。如果车在路上抛锚,损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并耗费大量的人力物力。所以,以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法效率不高,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。有一次,检测系统甚至帮助UPS公司发现了一辆新车的一个零件有问题,免除了可能会造成的困扰。

英国华威商学院的研究人员与波士顿大学物理系的研究人员合作,通过谷歌趋势(Google Trends)服务,预测股市的涨跌。研究人员使用谷歌趋势共计追踪了98个搜索关键词,其中包括“债务”、“股票”、“投资组合”、“失业”、“市场”等与投资行为相关的词,也包括“生活方式”、“艺术”、“快乐”、“战争”、“冲突”、“政治”等与投资无关的关键词,发现有些词条,例如“债务”成为预测股市的主要关键词,《使用谷歌趋势量化金融市场的交易行为》(Quantifying Trading Behavior in Financial Markets Using Google Trends)这篇论文也发表在《自然》杂志上。

同样,美国印第安纳大学的研究人员也发现:Twitter用户的情绪有助于预测股市。如Facebook进行IPO(首次公开募股上市)当天,研究者监测了Twitter上的情感倾向与Facebook股价波动的关联。在开盘前Twitter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌;而当Twitter上的情感转向正面时,Facebook的股价在8分钟之后也开始了回弹;当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。2013年诺贝尔经济学奖获得者罗伯特·席勒所倡导的“动物精神”(Animal Spirits),在大数据的相关性检验下,可以对资产定价实现预测。

因此,大数据思维只关注相关性,而不再关注因果关系。也就是说,沃尔玛知道尿布和啤酒、手电筒与Poptarts蛋挞的销量具有正相关性,就足够做出将两个物品摆放在一起销售的决策了,并不需要去分析背后的原因。因为只要知道这件事情“正在发生”或“即将发生”,企业就完全能够做出正确的决定。

二、范式转换:从“随机样本”到“总体”

大数据研究教父级人物巴拉巴西通在其《大数据时代》这本书中认为,大数据对传统意义上的统计学会构成一定的冲击。随着计算机技术的不断提升,人们有足够强大的数据搜集和数据处理能力来处理更多的数据,样本数量不再是万分之一和千分之一,而转变成了“总体”和“全部”,成了百分之百和万分之万。众所周知,传统意义上的统计学的随机抽样方法中有一条极其明智的真理,即采样分析的精确性会随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。也就是说,样本分析奠定了绝大多数学科研究的基础。而进入大数据时代,全数据分析的模式将全面替代样本分析方式。正如《魔鬼经济学》(Freakonomics)中作者史蒂芬·列维特关于相扑运动员的研究,其创造性观点正是通过使用了11年中超过64000场摔跤比赛的全数据记录寻找到了异常性。这样的洞见,恰恰是样本分析所无法提供的。因此,大数据为科学研究提供了全新的研究视角和研究范式,这种转向会像统计学诞生伊始一样,促进不同学科的跨越式发展。

新闻传播学主要研究的是“5 W+H”的问题,即when、where、who、why、what、how,在研究方法上主要运用的是问卷调查法、内容分析法和实验法。其中在问卷调查法和内容分析法中都用了样本分析,尤其内容分析法是研究传播内容的主要方法。而大数据技术为总体分析提供了技术支持,所得到的研究结论将更加完善和严整。

三、结果转换:从“具体结论”到“宏观趋势”

在传统小数据时代,数据分析的结果追求的是极致化的数据结论,尽量控制和减少错误,使得结论具有唯一性和可实践性。而在大数据时代,由于可以分析的数据是海量的,数据量的显著增大也必然会带来一些溢出效应,即一些不准确、驳杂的数据会混入数据库,使得数据分析的结果可能不像小数据时代那么准确。这就是大数据时代的另一种思维——“不是精确性,而是混杂性”。在大数据的采集过程中,当技术尚未达到完美无缺之前,混乱是不可避免的。虽然得到的信息和数据不再像以前的小数据那么准确,但收集到的数量庞大的数据可以让研究者放弃严格精确的选择变得更为划算。如谷歌翻译系统收集了上万亿的语料库,来自未经过滤的网页内容,可能会含有不准确的用法、语病,未必每一条语料库都非常“精确”,但这个语料库本身的规模是布朗语料库的几百万倍,这样的庞大规模优势完全掩盖了它的缺点,谁都不可以否认谷歌翻译系统更为强大和完善。这也就是所谓“大数据的简单算法,比小数据的复杂算法更加有效”。大数据追求的是宏大的趋势分析和预测,而不再局限于“小问题”、“小结论”。

在新闻传播学界,包括国外学界,一直被大家所诟病的是,学界的研究相对于业界是滞后的,很多研究是基于业界的实践进行的总结和诠释。随着大数据时代的来临,尤其是学科交叉的来临,这种趋势可能会被扭转,科学研究将逐步从对两个变量之间的因果关系甚至某一个参数的高与低的“鸡零狗碎”式“小问题”的探讨,上升到整体学科领域发展的“宏观叙事”中来。

四、研究重点转换:从“理论”到“算法”、“规则”

早在2008年,《连线》杂志主编克里斯·安德森就指出:数据爆炸使得传统时代科学的研究方法都落伍了,大数据从某种程度上意味着理论的终结。目前对于大数据的讨论比较有争议的是理论与大数据的关系。克里斯·安德森关于“理论已死”的观点过于极端,被很多研究者所诟病,但也说明了理论在大数据时代的整体效力在下降。任何理论的产生都带有其社会背景和时代烙印,甚至是理论创造者的个人色彩;任何一个理论一旦成为理论,其本身的活力就没有了,成为所谓的“理论僵尸”,其能够解释的范围和效度十分有限,尤其是在现代急剧变动的社会环境中,过多地迷信理论、将理论奉为圭臬的做法都无异于刻舟求剑。大数据时代,理论的指导价值也在下降,而将大数据进行有效的重新整合,类似于田忌赛马一样的优化组合的数据算法和处理法则则越来越显得重要起来。大数据目前之所以很大程度上还停留在简单的概念层面,主要原因之一是缺乏有效的对数据进行梳理、整合和挖掘的算法和法则。大数据时代,理论虽然不会消失,但其重要性会进一步让位于更好的数据算法和有效的数据处理法则。