- 商战数据挖掘:你需要了解的数据科学与分析思维
- (美)汤姆·福西特 福斯特·普罗沃斯特
- 1073字
- 2020-08-29 00:48:20
本书结构及体例
除了偶尔出现的脚注,本书还会出现用方框框起的“补充栏”。它们本质上是扩展了的脚注,用于阐释那些有趣、有价值,但作为脚注过长,又偏离主题的内容。
前方有技术细节——关于带星号的小节的说明
我们把偶尔出现的数学细节归入了带星号的选读小节中。这些小节的标题前带有星号,小节开头还有这样的一段辅文。这些小节包含更多的数学/技术细节,这段文字就解释了其目的。读者在阅读本书时,即使跳过这些部分也不会影响阅读的连续性,但本书仍会在一些地方提醒读者该处将介绍技术细节。
本书中如“(Smith & Jones, 2003)”这样的文本表示对参考文献中一个条目的引用(此处即指,Smith和Jones在2003年发表的文章或出版的图书); “Smith & Jones(2003)”与之类似。全书使用的参考文献列在正文后面。
本书尽可能少讲数学,并且在讲到数学的时候进行了简化,以免造成困惑。针对有技术背景的读者,我们有必要对简化方式稍作解释。
(1)我们没有使用教科书中普遍使用的Sigma(Σ,连加)和Pi(Π,连乘)符号,而是使用了如下带省略号的公式:
f(x)=w1x1+w2x2+…+wnxn
在介绍技术细节的带星号小节中,若上述方法过于繁冗,本书偶尔也会使用Σ和Π符号。我们假定阅读这些部分的读者习惯使用这种符号,不会感到困惑。
(2)统计学图书通常会在估计值上加上“帽子”符号,以区分真实值和其估计值,因此在这类书中,你往往会看到实际概率表示为p,而其估计值表示为。本书几乎一直讨论基于数据的估计值,加上帽子符号会让公式又复杂又难看,因此除非特别指出,否则这些值默认都是基于数据的估计值。
(3)一些符号和变量在上下文中不言自明,因此我们会在文中简化或删除它们。比如,在用数学语言讨论分类器时,技术上讲,本书表示的是基于特征向量所进行的决策预测。以较为正式的方式表示,就会得到如下公式:
其中,Age表示年龄,Balance表示账户余额。但我们把它写得更通俗易懂:
f(x)=Age×(-1)+0.7 × Balance+60
其中,x是向量,Age和Balance是向量的元素。
为了尽量保持版式一致,本书用等宽字体(如sepal width)表示数据中的属性或关键字。比如,在第10章中,discuss表示数据中的一个输出标记。
本书采用了如下排版约定。
· 黑体字
表示新术语或重点强调的内容。
· 等宽字体(constant width)
表示程序片段,以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。
· 等宽斜体(constant width italic)
表示应该由用户输入的值或根据上下文确定的值替换的文本。
本书中,我们在正文中穿插了一些与内容相关的提示和警告。根据阅读载体(纸质书、PDF或电子书)的不同,它们的呈现形式会不大一样,如下所示。
该图标表示提示或建议。
该图标表示一般注解。
该图标表示警告或警示。它比提示重要得多,且出现得较少。