- 商战数据挖掘:你需要了解的数据科学与分析思维
- (美)汤姆·福西特 福斯特·普罗沃斯特
- 1331字
- 2020-08-29 00:48:20
1.1 数据机遇无处不在
当大量的数据触手可及时,几乎各行各业的公司都关注通过数据开发来获得竞争优势。过去,公司可以聘用统计学家、建模工程师和分析师,组队对数据进行人工分析。然而,当今的数据量和复杂度已远远超出人工分析的能力范围。与此同时,随着计算机和互联网的普及以及其算力的增强,覆盖多种数据集的分析方法和挖掘算法不断被开发出来,使得数据分析的深度和广度达到了前所未有的程度。这些现象的集中出现,使得数据科学原理和数据挖掘技术在商业领域的应用变得越来越广泛。
数据挖掘技术最常见的应用是在营销领域,尤其是在目标市场营销、线上广告和交叉销售的推荐系统中。一般客户关系管理系统使用数据挖掘技术来分析客户行为,以提高客户留存率和最大化客户价值。金融业使用数据挖掘技术来进行信用评分和量化交易,并在运营中用它检测欺诈行为和优化生产资源。亚马逊和沃尔玛等大型零售商在其经营的各个环节——从市场营销到供应链管理——都使用了数据挖掘技术。很多公司由于战略性地应用了数据科学,因而在市场中崭露头角,有的甚至变成了数据挖掘公司。
本书的首要目标是帮助读者从数据的角度看待商业问题,并从原理上理解如何从数据中获取有用的信息和知识(即建立数据分析式思维)。数据分析式思维包含一个基础架构和一套基本原理,理解它们至关重要。诚然,解决某些具体问题时,人们需要具备直觉、创意、常识以及领域知识。但数据视角可以提供一个基于上述架构和原理的框架,来系统地分析这些问题。这样,你在逐渐熟悉这种数据分析式思维之后,就会自然地培养出一种直觉,懂得在何处以何种方式运用你的创意和领域知识(这样的好处显而易见,因为宝贵的创意和知识需要用在最需要的地方)。
本书的第1章和第2章将详细讨论与数据科学和数据挖掘相关的多个话题和技术。本书会频繁使用“数据科学”和“数据挖掘”这两个术语,两者在很多情况下是可以混用的,不过“数据科学”这个字眼在各种以获利为目的的炒作中已经失去了它本来的意义。严格地说,“数据科学”是一套指导人们从数据中获取知识的基本原理,而“数据挖掘”则是将这些原理以具体技术的形式实现并从数据中获取知识的过程。作为术语,“数据科学”比传统意义上的“数据挖掘”涵盖的范围更广,而后者则对前者的原理进行了最清晰的阐释。
即使你没有任何亲自应用数据科学的打算,理解数据科学也是至关重要的。
这是因为数据分析式思维可以帮助你评估与数据挖掘有关的商业提案。譬如当你的一位员工、一位咨询师或者一个潜在的投资对象提议通过对数据进行分析和挖掘来改善某一商业环节时,你应该有能力系统地评估该提案,判断它是否可行。当然,这并不意味着让你判断它是否一定会成功,因为“尝试”是数据挖掘项目的家常便饭,不成功的风险总是存在。但是至少你应该有能力发现一个提案是否存在明显的缺陷、不现实的假设或者缺失的环节。
本书将介绍大量的数据科学基础原理,同时每一条原理都会通过列举至少一项应用了该原理的数据挖掘技术来解释。由于每一条原理都会对应多项技术,因此本书把重点放在原理解释而非具体技术应用上。换言之,除非对理解概念有关键作用,否则本书不会大费周章地区分“数据科学”和“数据挖掘”这两个概念。
让我们来看两个通过分析数据发现预测性模式的简单案例。