本书结构及体例_商战数据挖掘：你需要了解的数据科学与分析思维-QQ阅读男生轻小说网

本书结构及体例

除了偶尔出现的脚注，本书还会出现用方框框起的“补充栏”。它们本质上是扩展了的脚注，用于阐释那些有趣、有价值，但作为脚注过长，又偏离主题的内容。

前方有技术细节——关于带星号的小节的说明

我们把偶尔出现的数学细节归入了带星号的选读小节中。这些小节的标题前带有星号，小节开头还有这样的一段辅文。这些小节包含更多的数学/技术细节，这段文字就解释了其目的。读者在阅读本书时，即使跳过这些部分也不会影响阅读的连续性，但本书仍会在一些地方提醒读者该处将介绍技术细节。

本书中如“（Smith & Jones, 2003）”这样的文本表示对参考文献中一个条目的引用（此处即指，Smith和Jones在2003年发表的文章或出版的图书）; “Smith & Jones（2003）”与之类似。全书使用的参考文献列在正文后面。

本书尽可能少讲数学，并且在讲到数学的时候进行了简化，以免造成困惑。针对有技术背景的读者，我们有必要对简化方式稍作解释。

（1）我们没有使用教科书中普遍使用的Sigma（Σ，连加）和Pi（Π，连乘）符号，而是使用了如下带省略号的公式：

f(x)=w1x1+w2x2+…+wnxn

在介绍技术细节的带星号小节中，若上述方法过于繁冗，本书偶尔也会使用Σ和Π符号。我们假定阅读这些部分的读者习惯使用这种符号，不会感到困惑。

（2）统计学图书通常会在估计值上加上“帽子”符号，以区分真实值和其估计值，因此在这类书中，你往往会看到实际概率表示为p，而其估计值表示为。本书几乎一直讨论基于数据的估计值，加上帽子符号会让公式又复杂又难看，因此除非特别指出，否则这些值默认都是基于数据的估计值。

（3）一些符号和变量在上下文中不言自明，因此我们会在文中简化或删除它们。比如，在用数学语言讨论分类器时，技术上讲，本书表示的是基于特征向量所进行的决策预测。以较为正式的方式表示，就会得到如下公式：

其中，Age表示年龄，Balance表示账户余额。但我们把它写得更通俗易懂：

f(x)=Age×(-1)+0.7 × Balance+60

其中，x是向量，Age和Balance是向量的元素。

为了尽量保持版式一致，本书用等宽字体（如sepal width）表示数据中的属性或关键字。比如，在第10章中，discuss表示数据中的一个输出标记。

本书采用了如下排版约定。

· 黑体字

表示新术语或重点强调的内容。

· 等宽字体（constant width）

表示程序片段，以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。

· 等宽斜体（constant width italic）

表示应该由用户输入的值或根据上下文确定的值替换的文本。

本书中，我们在正文中穿插了一些与内容相关的提示和警告。根据阅读载体（纸质书、PDF或电子书）的不同，它们的呈现形式会不大一样，如下所示。

该图标表示提示或建议。

该图标表示一般注解。

该图标表示警告或警示。它比提示重要得多，且出现得较少。