封面
版权页
内容提要
专家推荐
丛书序
前言
第1章 大语言模型的发展
1.1 人工智能的发展阶段
1.2 从深度学习到大语言模型
第2章 Transformer模型
2.1 Transformer模型的基本原理
2.1.1 注意力机制
2.1.2 自注意力机制
2.1.3 多头注意力机制
2.2 Transformer模型的结构和模块
2.2.1 位置编码
2.2.2 编码器
2.2.3 解码器
2.2.4 模型代码
2.3 Transformer模型在NLP任务中的应用
2.4 使用MindSpore实现基于Transformer模型的文本机器翻译模型
2.4.1 数据集准备与数据预处理
2.4.2 模型构建
2.4.3 模型训练与评估
2.4.4 模型推理
2.5 参考文献
第3章 BERT实践
3.1 BERT基本原理
3.2 BERT结构
3.3 BERT预训练
3.4 BERT微调
3.5 使用MindSpore实现数据并行的BERT预训练
3.6 参考文献
第4章 GPT实践
4.1 GPT基本原理
4.2 GPT训练框架
4.2.1 无监督预训练
4.2.2 有监督微调
4.2.3 GPT下游任务及模型输入
4.3 使用MindSpore实现GPT的微调
4.3.1 数据预处理
4.3.2 模型定义
4.3.3 模型训练
4.3.4 模型评估
4.4 参考文献
第5章 GPT-2实践
5.1 GPT-2的基本原理
5.2 GPT-2的技术创新与改进
5.3 GPT-2的优缺点
5.4 使用MindSpore实现GPT-2的微调
5.5 参考文献
第6章 自动并行
6.1 数据并行原理
6.2 算子并行原理
6.3 优化器并行原理
6.3.1 背景及意义
6.3.2 基本原理
6.4 流水线并行原理
6.4.1 背景及意义
6.4.2 基本原理
6.5 MoE并行原理
6.5.1 背景及意义
6.5.2 算法原理
6.6 自动并行策略搜索
6.6.1 策略搜索定位
6.6.2 策略搜索算法
6.6.3 MindSpore实践
6.7 异构计算
6.7.1 计算流程
6.7.2 优化器异构
6.7.3 词表异构
6.7.4 参数服务器异构
6.7.5 多层存储
6.8 大语言模型性能分析
6.8.1 缩短单个模块耗时
6.8.2 提高不同模块任务间的并行度
6.9 MindFormers接口
6.9.1 准备工作
6.9.2 Trainer高阶接口快速入门
6.9.3 Pipeline推理接口快速入门
6.9.4 AutoClass快速入门
6.9.5 Transformer接口介绍
6.10 参考文献
第7章 大语言模型预训练与微调
7.1 预训练大语言模型代码生成
7.1.1 多语言代码生成模型CodeGeeX
7.1.2 多语言代码生成基准HumanEval-X
7.2 提示调优
7.2.1 提示流程
7.2.2 提示模板
7.2.3 优缺点分析
7.3 指令调优
7.3.1 基本流程
7.3.2 指令模板
7.3.3 优缺点分析
7.4 参考文献
第8章 基于人类反馈的强化学习
8.1 基本原理
8.2 强化学习
8.2.1 核心思想
8.2.2 关键元素
8.2.3 策略与价值函数
8.2.4 PPO算法
8.3 InstructGPT和ChatGPT中的RLHF
8.3.1 训练流程
8.3.2 训练任务
8.3.3 模型效果
8.4 优缺点分析
8.5 参考文献
第9章 BLOOM和LLaMA模型实践
9.1 BLOOM介绍
9.1.1 模型结构
9.1.2 预训练数据集
9.2 BLOOM实现
9.2.1 BLOOM架构实现
9.2.2 BLOOM总结
9.3 基于BLOOM的微调
9.3.1 数据集准备
9.3.2 Checkpoint转换
9.3.3 生成集群通信表
9.3.4 启动预训练或微调
9.3.5 微调后的对话效果
9.4 LLaMA模型介绍
9.4.1 模型结构
9.4.2 预训练
9.4.3 SFT与RLHF
9.5 LLaMA模型实现
9.5.1 LLaMA模型模块实现
9.5.2 LLaMA模型结构实现
9.6 基于LLaMA模型的微调
9.6.1 数据集准备
9.6.2 ckpt转换
9.6.3 生成集群通信表
9.6.4 启动微调
9.6.5 微调效果
9.7 参考文献
更新时间:2024-11-14 15:26:31