前言

第2版新内容

本书第1版出版于2012年,彼时基于Python的开源数据分析库(例如pandas)仍然是一个发展迅速的新事物。在本次更新、拓展的第2版中,我在一些章节内进行了修改,以解释过去5年中发生的不兼容的变更、弃用和一些新特性。此外,我还添加了新内容,用以介绍在2012年还不存在或者不成熟的工具。最后,我会避免把一些新兴的或者不太可能走向成熟的开源项目写入本书。我希望本版的读者能够发现本书内容在2020年或者2021年仍然几乎像在2017年一样适用。

第2版中的主要更新包括:

· 所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)

· 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引

· 更新pandas库到2017年的最新版

· 新增一章,关于更多高级pandas工具和一些使用提示

· 新增statsmodels和scikit-learn的简明使用介绍

除了以上更新内容,我还重新组织了第1版的部分重要内容,使本书对新手来说更易于理解。