封面
版权信息
作者介绍
内容简介
前言
1 分布式基础
第1章 分布式机器学习
1.1 机器学习概念
1.2 机器学习的特点
1.3 分布式训练的必要性
1.4 分布式机器学习研究领域
1.5 从模型角度看如何并行
1.6 从训练并发角度看如何并行
1.7 分布式机器学习编程接口
1.8 PyTorch分布式
1.9 总结
第2章 集合通信
2.1 通信模式
2.2 点对点通信
- APP免费
2.3 集合通信
- APP免费
2.4 MPI AllReduce
- APP免费
2.5 Ring All-Reduce
- APP免费
第3章 参数服务器之PS-Lite
- APP免费
3.1 参数服务器
- APP免费
3.2 基础模块Postoffice
- APP免费
3.3 通信模块Van
- APP免费
3.4 代理人Customer
- APP免费
3.5 应用节点实现
- APP免费
2 数据并行
- APP免费
第4章 PyTorch DataParallel
- APP免费
4.1 综述
- APP免费
4.2 示例
- APP免费
4.3 定义
- APP免费
4.4 前向传播
- APP免费
4.5 计算损失
- APP免费
4.6 反向传播
- APP免费
4.7 总结
- APP免费
第5章 PyTorch DDP的基础架构
- APP免费
5.1 DDP总述
- APP免费
5.2 设计理念
- APP免费
5.3 基础概念
- APP免费
5.4 架构和初始化
- APP免费
第6章 PyTorch DDP的动态逻辑
- APP免费
6.1 Reducer类
- APP免费
6.2 前向/反向传播
- APP免费
第7章 Horovod
- APP免费
7.1 从使用者角度切入
- APP免费
7.2 horovodrun
- APP免费
7.3 网络基础和Driver
- APP免费
7.4 DistributedOptimizer
- APP免费
7.5 融合框架
- APP免费
7.6 后台线程架构
- APP免费
3 流水线并行
- APP免费
第8章 GPipe
- APP免费
8.1 流水线基本实现
- APP免费
8.2 梯度累积
- APP免费
8.3 Checkpointing
- APP免费
第9章 PyTorch流水线并行
- APP免费
9.1 如何划分模型
- APP免费
9.2 切分数据和Runtime系统
- APP免费
9.3 前向计算
- APP免费
9.4 计算依赖
- APP免费
9.5 并行计算
- APP免费
第10章 PipeDream之基础架构
- APP免费
10.1 总体思路
- APP免费
10.2 profile阶段
- APP免费
10.3 计算分区阶段
- APP免费
10.4 转换模型阶段
- APP免费
第11章 PipeDream之动态逻辑
- APP免费
11.1 Runtime引擎
- APP免费
11.2 通信模块
- APP免费
11.3 1F1B策略
- APP免费
4 模型并行
- APP免费
第12章 Megatron
- APP免费
12.1 设计思路
- APP免费
12.2 模型并行实现
- APP免费
12.3 如何设置各种并行
- APP免费
12.4 Pipedream的流水线刷新
- APP免费
第13章 PyTorch如何实现模型并行
- APP免费
13.1 PyTorch模型并行
- APP免费
13.2 分布式自动求导之设计
- APP免费
13.3 RPC基础
- APP免费
13.4 上下文相关
- APP免费
13.5 如何切入引擎
- APP免费
13.6 自动求导引擎
- APP免费
第14章 分布式优化器
- APP免费
14.1 原生优化器
- APP免费
14.2 DP的优化器
- APP免费
14.3 DDP的优化器
- APP免费
14.4 Horovod的优化器
- APP免费
14.5 模型并行的分布式问题
- APP免费
14.6 PyTorch分布式优化器
- APP免费
14.7 PipeDream分布式优化器
- APP免费
5 TensorFlow分布式
- APP免费
第15章 分布式运行环境之静态架构
- APP免费
15.1 总体架构
- APP免费
15.2 Server
- APP免费
15.3 Master的静态逻辑
- APP免费
15.4 Worker的静态逻辑
- APP免费
第16章 分布式运行环境之动态逻辑
- APP免费
16.1 Session机制
- APP免费
16.2 Master动态逻辑
- APP免费
16.3 Worker动态逻辑
- APP免费
16.4 通信机制
- APP免费
第17章 分布式策略基础
- APP免费
17.1 使用TensorFlow进行分布式训练
- APP免费
17.2 DistributedStrategy基础
- APP免费
17.3 分布式变量
- APP免费
第18章 MirroredStrategy
- APP免费
18.1 MirroredStrategy集合通信
- APP免费
18.2 MirroredStrategy分发计算
- APP免费
第19章 ParameterServerStrategy
- APP免费
19.1 ParameterServerStrategyV1
- APP免费
19.2 ParameterServerStrategyV2
- APP免费
19.3 ClusterCoordinator
- APP免费
反侵权盗版声明
- APP免费
文后
- APP免费
封底
更新时间:2023-07-26 17:17:35