1.9 总结

我们用图1-18所示的分布式深度学习总览来总结本章,大家从图中可以看到分布式机器学习系统的若干方面,比如:

• 在单次模型训练迭代中,数据会经历前向传播、反向传播、梯度聚合、模型更新等步骤。

• 对于参数分布和通信拓扑,既有参数服务器这样的中心化网络架构,也有All-Reduce和Gossip这样的去中心化网络架构。

• 关于如何控制迭代更新,则有BSP、SSP和ASP等通信控制协议。

• 关于计算和通信的并行,图上给出了流水线、WFBP(Wait-Free Backward Propagation)和MG-WFBP(Merged-Gradient WFBP)等技术。

• 对于通信优化,图上给出了稀疏化(Sparisification)技术作为示例。

本书接下来就带领大家在这个神奇的世界中展开一次寻宝之旅。

图1-18

图片来源:论文Communication-Efficient Distributed Deep Learning:A Comprehensive Survey


[1] 参考论文Strategies and Principles of Distributed Machine Learning on Big Data

[2] 参考论文Demystifying Parallel and Distributed Deep Learning:An In-Depth Concurrency Analysis

[3] 参考自张昊博士论文Machine Learning Parallelism Could Be Adaptive,Composable and Automated