封面
版权信息
作者简介
内容简介
推荐序
前言
第1章 从TOP500和MLPerf看算力芯片格局
1.1 科学算力最前沿TOP500
1.1.1 TOP500的测试方式HPL
1.1.2 TOP500与算力芯片行业发展
1.2 AI算力新标准MLPerf
第2章 高性能CPU流水线概览
2.1 什么是指令
2.2 流水线与MIPS
2.2.1 经典5级流水线概述
2.2.2 超流水线及其挑战
2.3 分支预测
2.3.1 先进分支预测之“感知机分支预测器”
2.3.2 先进分支预测之“TAGE分支预测器”
2.4 指令缓存体系
2.5 译码单元
2.6 数据缓存
2.6.1 多级缓存的数据包含策略
2.6.2 缓存映射关系
2.6.3 受害者缓存
- APP免费
2.6.4 写入策略与一致性协议
- APP免费
2.7 TLB(旁路快表缓冲)
- APP免费
2.8 乱序执行引擎
- APP免费
2.8.1 指令相关的解决方案
- APP免费
2.8.2 寄存器重命名
- APP免费
2.8.3 指令提交与ROB单元
- APP免费
2.8.4 发射队列
- APP免费
2.8.5 数据旁路
- APP免费
2.9 超线程技术
- APP免费
第3章 缓存硬件结构
- APP免费
3.1 DRAM与SRAM设计取舍
- APP免费
3.2 DRAM读/写过程
- APP免费
3.3 SRAM读/写过程(以6T SRAM为例)
- APP免费
3.4 Intel对8T SRAM的探索
- APP免费
3.5 不同规格SRAM的物理特性
- APP免费
3.6 非一致性缓存架构
- APP免费
第4章 CPU计算单元设计
- APP免费
4.1 计算单元逻辑构成
- APP免费
4.2 整数和浮点数的差异
- APP免费
4.3 算术逻辑单元
- APP免费
4.3.1 ALU加法器与减法器
- APP免费
4.3.2 ALU比较单元和位移单元
- APP免费
4.3.3 ALU乘法器与除法器
- APP免费
4.4 浮点数单元
- APP免费
4.4.1 浮点加法器与减法器
- APP免费
4.4.2 浮点乘法器与除法器
- APP免费
4.5 指令的加载和存储单元
- APP免费
4.6 单指令多数据
- APP免费
4.6.1 MMX指令集
- APP免费
4.6.2 3DNow!指令集
- APP免费
4.6.3 SSE指令集及其扩展指令集
- APP免费
4.6.4 AVX指令集及其扩展指令集
- APP免费
4.6.5 AVX-512指令集与下一代AVX10指令集
- APP免费
4.6.6 对AVX指令集的间接实施
- APP免费
4.7 矩阵加速指令集
- APP免费
4.8 ARM SVE指令集
- APP免费
第5章 逻辑拓扑结构
- APP免费
5.1 环形拓扑方式
- APP免费
5.2 Infinity Fabric拓扑方式
- APP免费
5.3 网格拓扑方式
- APP免费
5.4 片上网络(NoC)
- APP免费
5.4.1 NoC分析重点
- APP免费
5.4.2 NoC高速发展的原因
- APP免费
5.4.3 常见NoC拓扑结构及特性
- APP免费
5.4.4 拓扑结构指标参数
- APP免费
5.4.5 拓扑结构改进案例
- APP免费
5.4.6 路由器微架构设计
- APP免费
5.5 近存计算拓扑特性
- APP免费
5.5.1 IPU芯片
- APP免费
5.5.2 WSE芯片
- APP免费
5.6 单芯片UMA与NUMA
- APP免费
第6章 经典算力CPU芯片解读
- APP免费
6.1 申威处理器
- APP免费
6.1.1 SW26010单芯片设计
- APP免费
6.1.2 “神威·太湖之光”系统设计
- APP免费
6.1.3 SW26010对比CPU+协处理器方案
- APP免费
6.1.4 针对SW26010的OpenCL编译系统设计
- APP免费
6.1.5 SW26010后期迭代
- APP免费
6.2 富士通A64FX处理器
- APP免费
A64FX指令流水线设计
- APP免费
6.3 苹果M1处理器
- APP免费
6.3.1 SoC模块化设计
- APP免费
6.3.2 高性能核心流水线设计
- APP免费
6.3.3 计算单元资源
- APP免费
6.3.4 UltraFusion芯片扩展
- APP免费
6.4 Ampere处理器
- APP免费
6.4.1 Ampere Altra
- APP免费
6.4.2 AmpereOne
- APP免费
6.5 IBM POWER处理器
- APP免费
6.5.1 POWER9架构设计
- APP免费
6.5.2 POWER9拓扑技术
- APP免费
6.5.3 POWER10架构分析
- APP免费
6.5.4 POWER10拓扑技术
- APP免费
6.5.5 POWER10 SIMD单元改进与MMA加速器
- APP免费
6.6 EPYC 9004处理器
- APP免费
6.6.1 Zen微架构介绍
- APP免费
6.6.2 EPYC处理器设计
- APP免费
6.6.3 Zen 4c小核心设计策略
- APP免费
6.7 Sapphire Rapids微架构Xeon处理器
- APP免费
6.7.1 EMIB封装
- APP免费
6.7.2 Golden Cove微架构
- APP免费
6.7.3 其他硬件加速单元——Intel IAA内存分析加速器
- APP免费
6.7.4 其他硬件加速单元——Intel DSA数据流加速器
- APP免费
6.7.5 Intel QAT数据保护与压缩加速技术
- APP免费
6.7.6 Intel DLB动态负载均衡器
- APP免费
6.8 Tesla Dojo超级计算机和D1处理器
- APP免费
6.8.1 D1芯片微架构
- APP免费
6.8.2 训练瓦片和存储资源
- APP免费
6.8.3 丰富的低精度数据类型
- APP免费
6.8.4 设计独特性与思考
- APP免费
第7章 从图形到计算的GPU架构演进
- APP免费
7.1 GPU图形计算发展
- APP免费
7.1.1 从三角形开始的几何阶段
- APP免费
7.1.2 光栅化衔接3D和2D世界
- APP免费
7.1.3 像素着色阶段
- APP免费
7.1.4 DirectX API推动GPU演进
- APP免费
7.2 GPGPU 指令流水线
- APP免费
7.2.1 取指阶段
- APP免费
7.2.2 译码阶段
- APP免费
7.2.3 发射阶段
- APP免费
7.2.4 执行阶段
- APP免费
7.2.5 写回阶段
- APP免费
第8章 GPGPU存储体系与线程管理
- APP免费
8.1 GPGPU多级别存储体系
- APP免费
8.1.1 大容量寄存器与倒金字塔结构
- APP免费
8.1.2 不同时代NVIDIA GPU片上存储器容量
- APP免费
8.1.3 GPGPU存储组织模式之合并访存
- APP免费
8.1.4 GPGPU存储组织模式之板块冲突
- APP免费
8.2 GPGPU线程管理
- APP免费
8.2.1 GPU线程定义
- APP免费
8.2.2 线程束宽度
- APP免费
8.2.3 线程调度和管理
- APP免费
8.2.4 线程块在线程管理中的作用
- APP免费
8.2.5 SIMT堆栈与Volta架构对线程管理的改进
- APP免费
8.2.6 Cooperative Group
- APP免费
8.2.7 Hopper架构对线程管理的改进
- APP免费
8.3 通用矩阵乘法与AI类任务
- APP免费
8.3.1 利用线程块优化矩阵计算
- APP免费
8.3.2 通过流实现任务级并行
- APP免费
8.4 VLIW指令结构在GPU中的应用历史
- APP免费
第9章 张量处理器设计
- APP免费
9.1 张量的定义
- APP免费
9.2 脉动阵列计算单元
- APP免费
9.2.1 谷歌TPU处理器
- APP免费
9.2.2 TPU v4芯片概览
- APP免费
9.2.3 自研光学芯片用于TPU节点拓扑
- APP免费
9.3 Volta架构引入张量核心
- APP免费
9.3.1 张量核心设计细节
- APP免费
9.3.2 张量核心数据加载与指令编译
- APP免费
9.3.3 矩阵乘法访存优势与数据布局
- APP免费
9.3.4 Ampere架构引入稀疏性张量加速
- APP免费
9.3.5 Hopper架构改进张量内存加速器
- APP免费
9.3.6 低精度性能增益
- APP免费
9.4 华为昇腾Ascend 910 NPU芯片
- APP免费
9.4.1 达芬奇架构AI Core分析
- APP免费
9.4.2 拓扑互连能力
- APP免费
9.4.3 CANN与AI框架MindSpore
- APP免费
第10章 经典GPU算力芯片解读
- APP免费
10.1 NVIDIA GPU芯片
- APP免费
10.1.1 G80架构
- APP免费
10.1.2 GT200架构
- APP免费
10.1.3 Fermi架构
- APP免费
10.1.4 Kepler架构
- APP免费
10.1.5 Maxwell架构
- APP免费
10.1.6 Pascal架构
- APP免费
10.1.7 Volta架构
- APP免费
10.1.8 Turing架构
- APP免费
10.1.9 Ampere架构
- APP免费
10.1.10 Hopper架构
- APP免费
10.2 AMD GPU芯片
- APP免费
10.2.1 TeraScale架构
- APP免费
10.2.2 GCN架构
- APP免费
10.2.3 RDNA架构
- APP免费
10.3 Intel Xe GPU架构
- APP免费
10.3.1 x86指令集Larrabee GPGPU
- APP免费
10.3.2 Xe-core高端核心与EU低端核心
- APP免费
10.3.3 子片和扩展结构
- APP免费
10.3.4 超大芯片Ponte Vecchio
- APP免费
第11章 存储与互连总线技术
- APP免费
11.1 从DDR到HBM
- APP免费
11.1.1 为更高带宽持续改进——GDDR
- APP免费
11.1.2 新封装方式——HBM
- APP免费
11.2 PCI Express总线概况
- APP免费
11.2.1 由需求驱动的PCle总线发展历程
- APP免费
11.2.2 PCle物理和数据链路层技术概览
- APP免费
11.3 CXL扩展技术
- APP免费
11.3.1 CXL的3个子协议
- APP免费
11.3.2 CXL 2.0主要特性:内存池化
- APP免费
11.3.3 CXL 3.0主要特性:内存共享、多级拓扑
- APP免费
11.3.4 CXL协议细节
- APP免费
11.3.5 CXL延迟拆解
- APP免费
11.4 NVLink互连技术与GPU超级计算机
- APP免费
11.4.1 Pascal架构第一代NVLink
- APP免费
11.4.2 Volta架构第二代NVLink
- APP免费
11.4.3 Ampere架构第三代NVLink
- APP免费
11.4.4 Hopper架构第四代NVLink
- APP免费
11.4.5 Grace Hopper超级芯片
- APP免费
文后
更新时间:2024-10-16 17:49:43