前言

机器学习是人工智能的核心技术。本书针对典型的实际应用情景,结合作者最近几年在科研、教学和企业培训中的成果,基于TensorFlow、PySpark和TI-ONE等主流的开源机器学习平台,使用真实的业务数据和企业应用问题,详细、深入地介绍了机器学习实施的基本思路、关键步骤和难点。本书通过这些实际应用案例介绍了数据可视化、典型的机器学习算法以及电子推荐技术的具体应用,使得读者能够深刻地理解机器学习的专业知识和解决问题的思路,提升对实际应用领域问题的分析和动手能力。

本书可以与2018年出版的《机器学习》一书配套学习。通过对本书的学习,读者不仅可以模仿书中的案例实践基于开源机器学习平台的实际数据分析应用,也很容易举一反三,对新的数据分析问题提出合理的分析思路。

本书不是简单地介绍机器学习理论,而是通过分析目前机器学习技术的痛点(即与实际应用结合不紧密等问题)而编写的实战案例集。当前,国内机器学习实战方面的资料存在着以下3个明显问题:一是机器学习的应用案例比较粗略,问题也比较简单,分析过程不具体,难以支撑机器学习技术的学习,而这方面又是培养人工智能应用人才非常重要、不可或缺的环节;二是数据量比较小,分析的问题仅仅是实际问题的简化,数据的分析深度、算法的复杂度还达不到机器学习的要求;三是内容分散,主流的机器学习开源平台非常多,各有千秋,而实际上机器学习的工作使用TensorFlow、PySpark等几种主流的机器学习平台就可以胜任。

本书通过精心地选择实际数据和应用问题,突出使用机器学习解决数据分析过程中常见的问题,使读者不仅能理解几种主流机器学习平台的原理,还能针对实际问题设计可视化分析、机器学习等分析程序,具有较强的实战性。

使用本书的读者需要有一定的Python编程基础,如果对Spark有一定的了解更佳。对于学习者而言,定义机器学习模型是一项复杂而又有难度的工作,而借助良好的机器学习框架,可以降低应用门槛。为了便于学习机器学习的分析过程,本书使用了多种业界主流的开源机器学习平台,包括TensorFlow、PySpark和TI-ONE等,这些平台一般注册账号后就可以使用,使读者在数据分析的过程中可以把主要的精力放在数据分析的思路上,降低了应用开发的难度。

本书可作为对机器学习感兴趣的研究人员和工程技术人员的参考资料,也可作为高等院校本科生、研究生的机器学习、数据分析、数据挖掘等课程的实验或实训教材。

感谢腾讯、谷歌、百度等公司资助的产学合作协同育人项目的支持。在本书写作的过程中,研究生蒲实、耿甲、于召鑫、袁雪如、陈伯宇、胡远文等在资料收集方面做了一些工作,在此特表示感谢。

2019年5月

于复旦大学