书名：《架构师》2019年8月
作者名：InfoQ中文站
本章字数：3字
更新时间：2020-06-26 06:07:17

卷首语

AI架构师：让企业没有难做的AI

作者第四范式资深AI架构师陈迪豪

机器学习毫无疑问是2019年最受关注的技术之一，无论是手机中每日收到的咨讯推荐，还是我们在银行系统中的信用评分，机器学习都已经应用到所有人生活中的方方面面。大数据的积累、计算能力的提升以及日渐成熟的算法，让机器学习成为企业向数字化、智能化方向转型的关键。然而，眼下并非所有企业都能像巨头公司一样，迅速积累经验实现业务与AI的无缝整合。若要跨过AI应用落地的门槛，真正让AI能在企业中应对复杂多变的业务应用，除了在算法上不断革新，打好地基之外，规范化的机器学习建模流程、面向AI的工程技术优化等环节更是将这项浩大工程由“做”转变为“做好”的关键所在。

机器学习闭环流程

人，之所以被称之为“智能体”，是因为人总是在不断的学习。在人类心理学研究史上，有一个著名的“库伯学习圈”理论，该理论认为人类学习的过程是由“行动、经验、反思、理论”这四个阶段构成的。简单来说，人们通过行动产生经验，再通过反思经验，学习、总结其中的规律，在新的行为发生时找到最优决策。人工智能的本质亦是如此。

关联到企业的AI平台中，标准的AI全流程则将以上的四个步骤转化为“行为数据采集、模型训练、模型应用、反馈数据采集”的过程。行为数据采集保证了机器学习模型有足够的特征作为输入，是训练有效模型的基础，模型应用则是收集反馈数据的前提，如果没有数据反馈及时更新模型，就无法体现机器学习模型自适应的能力以及实时性的模型效果。

作为架构师，需要考虑在机器学习平台中整合数据引入、数据管理甚至是数据标注系统，提供标准和统一的数据格式给模型训练使用，除了要能够支持主流的机器学习训练框架，模型上线后提供数据回流功能也很重要，对于实时性要求较高的模型提供参数Fine-tune、模型更新等功能，才能帮助企业构建一站式的机器学习闭环流程。

软硬一体优化

随着模型应用越来越广，性能优化成为降低业务成本、提高模型效果的重要手段，借助GPU、FPGA等新硬件的软硬一体优化更成为业界的主流。以GPU为例，主流的GPU拥有超过3000个并行计算单元，无论是浮点运算能力还是计算并行度都比CPU有数百倍的提升，而定制化的FPGA在能耗上也有突出的优势。除了计算相关的硬件优化，RDMA技术可以给机器学习模型训练带来更极致的网络吞吐和极低的延时，针对特定硬件的软件优化不仅提高了AI计算的性能，也实现了更低TCO的智能应用落地。

线下线上一致性

在传统的机器学习中，离线的特征计算与在线的预估服务往往是相互独立的两个阶段，而维护线下线上特征一致性成为保证模型业务效果的关键。离线的特征计算包括任意宽表的拼接或超大时间窗内的聚合等操作，甚至出现使用未来特征或者标签作为特征等穿越问题，这样会导致在线服务无法生成模型所需要的特征输入，离线效果好的模型更是无法上线。

从架构的角度，规范在线和离线特征生成过程非常重要，使用针对机器学习场景优化的特征计算引擎，可以避免线上线下重复实现冗余的计算逻辑，更是杜绝了期望特征在模型训练和在线预估时不一致的隐患。

这些只是实现AI规模化落地技术的冰山一角，身为架构师的我们，真正从企业应用AI的实际情况出发，解决其中的种种问题才是重中之重。