- 《架构师》2019年8月
- InfoQ中文站
- 3字
- 2020-06-26 06:07:17
卷首语
AI架构师:让企业没有难做的AI
机器学习毫无疑问是2019年最受关注的技术之一,无论是手机中每日收到的咨讯推荐,还是我们在银行系统中的信用评分,机器学习都已经应用到所有人生活中的方方面面。大数据的积累、计算能力的提升以及日渐成熟的算法,让机器学习成为企业向数字化、智能化方向转型的关键。然而,眼下并非所有企业都能像巨头公司一样,迅速积累经验实现业务与AI的无缝整合。若要跨过AI应用落地的门槛,真正让AI能在企业中应对复杂多变的业务应用,除了在算法上不断革新,打好地基之外,规范化的机器学习建模流程、面向AI的工程技术优化等环节更是将这项浩大工程由“做”转变为“做好”的关键所在。
机器学习闭环流程
人,之所以被称之为“智能体”,是因为人总是在不断的学习。在人类心理学研究史上,有一个著名的“库伯学习圈”理论,该理论认为人类学习的过程是由“行动、经验、反思、理论”这四个阶段构成的。简单来说,人们通过行动产生经验,再通过反思经验,学习、总结其中的规律,在新的行为发生时找到最优决策。人工智能的本质亦是如此。
关联到企业的AI平台中,标准的AI全流程则将以上的四个步骤转化为“行为数据采集、模型训练、模型应用、反馈数据采集”的过程。行为数据采集保证了机器学习模型有足够的特征作为输入,是训练有效模型的基础,模型应用则是收集反馈数据的前提,如果没有数据反馈及时更新模型,就无法体现机器学习模型自适应的能力以及实时性的模型效果。
作为架构师,需要考虑在机器学习平台中整合数据引入、数据管理甚至是数据标注系统,提供标准和统一的数据格式给模型训练使用,除了要能够支持主流的机器学习训练框架,模型上线后提供数据回流功能也很重要,对于实时性要求较高的模型提供参数Fine-tune、模型更新等功能,才能帮助企业构建一站式的机器学习闭环流程。
软硬一体优化
随着模型应用越来越广,性能优化成为降低业务成本、提高模型效果的重要手段,借助GPU、FPGA等新硬件的软硬一体优化更成为业界的主流。以GPU为例,主流的GPU拥有超过3000个并行计算单元,无论是浮点运算能力还是计算并行度都比CPU有数百倍的提升,而定制化的FPGA在能耗上也有突出的优势。除了计算相关的硬件优化,RDMA技术可以给机器学习模型训练带来更极致的网络吞吐和极低的延时,针对特定硬件的软件优化不仅提高了AI计算的性能,也实现了更低TCO的智能应用落地。
线下线上一致性
在传统的机器学习中,离线的特征计算与在线的预估服务往往是相互独立的两个阶段,而维护线下线上特征一致性成为保证模型业务效果的关键。离线的特征计算包括任意宽表的拼接或超大时间窗内的聚合等操作,甚至出现使用未来特征或者标签作为特征等穿越问题,这样会导致在线服务无法生成模型所需要的特征输入,离线效果好的模型更是无法上线。
从架构的角度,规范在线和离线特征生成过程非常重要,使用针对机器学习场景优化的特征计算引擎,可以避免线上线下重复实现冗余的计算逻辑,更是杜绝了期望特征在模型训练和在线预估时不一致的隐患。
这些只是实现AI规模化落地技术的冰山一角,身为架构师的我们,真正从企业应用AI的实际情况出发,解决其中的种种问题才是重中之重。