第二部分 基础知识
第3章 大数据思维
【导读案例】亚马逊推荐系统
虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它早期的书评内容最初是由人工完成的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块,成为当时公司皇冠上的一颗宝石,是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响力的书评家,因为他们使得书籍销量猛增。
亚马逊公司的创始人及总裁杰夫·贝索斯(见图3-1)决定尝试一个极富创造力的想法:根据客户个人以前的购物喜好,为其推荐相关的书籍。
图3-1 亚马逊和贝索斯
从一开始,亚马逊就从每一个客户那里收集了大量的数据。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的,就如同你在买一件婴儿用品时,会被淹没在一堆差不多的婴儿用品中一样。马库斯回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复。”
亚马逊的格雷格·林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利。方法的转变使技术发生了翻天覆地的变化。
因为估算可以提前进行,所以推荐系统不仅快,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据,推荐会更理想。林登回忆道:“在组里有句玩笑话,说的是如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。”
现在,公司必须决定什么应该出现在网站上。是亚马逊内部书评家写的个人建议和评论,还是由机器生成的个性化推荐和畅销书排行榜?
林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间相差甚远。他解释说,通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但是这似乎并不重要,重要的是销量。最后,编辑们看到了销售额分析,亚马逊也不得不放弃每次的在线评论,最终,书评组被解散了。林登回忆说:“书评团队被打败、被解散,我感到非常难过。但是,数据没有说谎,人工评论的成本是非常高的。”
如今,据说亚马逊销售额的三分之一都来自于它的个性化推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。
知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,而不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因——知道是什么就够了,没必要知道为什么。