前言

数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。大数据虽然孕育于信息通信技术的日渐普及和成熟过程中,但它对社会经济生活产生的影响绝不限于技术层面。本质上,它为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去那样更多地凭借经验和直觉做出。数据挖掘是实现大数据知识发现的有效手段和途径,能帮助人们从海量数据中找到未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次“知识”。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,有效发现大量数据项集之间有趣的关联信息,其已在零售、快消、电商、金融、搜索引擎、智能推荐等领域大有作为。自1993年Agrawal等人首先提出关联规则以来,关联规则的理论研究已经吸引了大量的国内外研究者。围绕关联规则的研究主要集中于两个方面:扩展经典关联规则能够解决问题的范围;改善经典关联规则挖掘算法效率和规则兴趣性。本书侧重于第二方面的研究内容。现有的关联规则挖掘算法因其时空复杂性和I/O代价高,难以适应大数据分析处理任务,利用集群系统、并行技术的强大数据处理能力,研究面向大数据的关联规则挖掘方法和性能优化,对于如今信息爆炸的大数据时代具有重要意义。

近年来,作者一直进行数据挖掘与并行计算方面的研究,围绕大数据时代数据处理的核心理论与技术问题,将数据挖掘技术、并行算法设计及计算模型的优化技术有机结合,试图改善“信息丰富而知识贫乏”的窘境。本书是作者近年来相关科研成果的总结,全书主要内容分为三篇共9章,具体章节编排如下:

第一篇是基础理论篇(包括第1、2章)。该篇对本书涉及的一些相关概念和理论知识做了简要介绍。其中,第1章主要介绍数据挖掘、关联规则、集群系统与并行计算模型及大数据的相关概念、理论基础及应用;第2章对目前影响MapReduce集群性能的关键因素——数据放置策略的研究与进展进行了综述和分析。

第二篇是关联规则并行挖掘及性能优化篇(包括第3~8章)。该篇对并行环境下的关联规则挖掘算法及研究过程中发现的一些性能问题进行了深入探讨与研究。第3章和第4章均研究了基于MapReduce集群环境的关联规则挖掘算法;第5章提出基于约束的频繁项集并行挖掘算法,以提高挖掘结果的针对性,同时也考虑了挖掘过程中的负载均衡问题;第6章和第7章针对频繁项集并行挖掘过程中存在的数据非本地性问题,分别提出了一种新的数据划分策略和任务重定向方法;为了更好地适应关联规则挖掘的高迭代计算任务,第8章提出一种基于Spark平台的挖掘算法。

第三篇是应用篇(包括第9章)。本篇以某钢铁企业的冷轧辊产品生产为背景,将上述研究成果应用于冷轧辊产品质量控制过程的相关性分析中,从而为企业开展产品质量控制提供了一种新的技术方法和解决思路。

本书的完成得到了太原科技大学计算机学院数据挖掘和智能信息系统实验室团队成员的大力支持,尤其是张继福教授提出了宝贵建议,硕士研究生吴晓婷、闫晓妩、李永红、于晓龙等在实验过程中给予了大量帮助。另外,美国奥本大学秦啸教授在研究过程中给予了许多有益的指导和建议。在此一并致以诚挚的谢意。

本书所涉及的研究工作得到了国家自然科学基金资助项目(No.61602335、No.61876122、No.U1731126)、太原科技大学博士科研启动基金项目(No.20172017)的资助,在此谨向相关机构表示深深的感谢。

由于作者水平有限,书中难免有不妥之处,欢迎各位专家和广大读者批评指正。

作者

2019年3月