封面
版权信息
版权
内容提要
献词
序1
序2
前言
资源与支持
资源获取
第一篇 目标检测与分割
第1章 双阶段检测
1.1 R-CNN
1.1.1 R-CNN检测流程
1.1.2 候选区域提取
1.1.3 预训练及微调
1.1.4 训练数据准备
1.1.5 NMS
1.1.6 小结
1.2 SPP-Net
1.2.1 空间金字塔池化
1.2.2 SPP-Net的推理流程
1.2.3 小结
1.3 Fast R-CNN
1.3.1 Fast R-CNN算法介绍
1.3.2 数据准备
1.3.3 Fast R-CNN网络结构
1.3.4 多任务损失函数
1.3.5 Fast R-CNN的训练细节
1.3.6 Fast R-CNN的推理流程
1.3.7 小结
1.4 Faster R-CNN
1.4.1 区域候选网络
1.4.2 Faster R-CNN的训练
1.4.3 小结
1.5 R-FCN
1.5.1 提出动机
1.5.2 R-FCN的网络
1.5.3 R-FCN结果可视化
1.5.4 小结
1.6 Mask R-CNN
1.6.1 Mask R-CNN的动机
1.6.2 Mask R-CNN详解
1.6.3 小结
1.7 MaskX R-CNN
1.7.1 权值迁移函数T
1.7.2 MaskX R-CNN的训练
1.7.3 小结
1.8 DCNv1和DCNv2
1.8.1 DCNv1
1.8.2 DCNv2
1.8.3 小结
第2章 单阶段检测
2.1 YOLOv1
2.1.1 YOLOv1的网络结构
2.1.2 损失函数
2.1.3 小结
2.2 SSD和DSSD
2.2.1 SSD
2.2.2 DSSD
2.2.3 小结
2.3 YOLOv2
2.3.1 YOLOv2:更快,更高
2.3.2 YOLO9000:更强
2.3.3 小结
2.4 YOLOv3
2.4.1 多标签任务
2.4.2 骨干网络
2.4.3 多尺度特征
2.4.4 锚点聚类
2.4.5 YOLOv3一些失败的尝试
2.4.6 小结
2.5 YOLOv4
2.5.1 背景介绍
2.5.2 数据
2.5.3 模型
2.5.4 后处理
2.5.5 YOLOv4改进介绍
2.5.6 小结
第3章 无锚点检测
3.1 DenseBox
3.1.1 DenseBox的网络结构
3.1.2 多任务模型
3.1.3 训练数据
3.1.4 结合关键点检测
3.1.5 测试
3.1.6 小结
3.2 CornerNet
3.2.1 背景
3.2.2 CornerNet详解
3.2.3 小结
3.3 CornerNet-Lite
3.3.1 CornerNet-Saccade
3.3.2 CornerNet-Squeeze
3.3.3 小结
3.4 CenterNet
3.4.1 网络结构
3.4.2 数据准备
3.4.3 损失函数
3.4.4 推理过程
3.4.5 小结
3.5 FCOS
3.5.1 算法背景
3.5.2 FCOS的网络结构
3.5.3 多尺度预测
3.5.4 测试
3.5.5 小结
3.6 DETR
3.6.1 网络结构
3.6.2 损失函数
3.6.3 小结
第4章 特征融合
4.1 FPN
4.1.1 CNN中的常见骨干网络
4.1.2 FPN的网络结构
4.1.3 FPN的应用
4.1.4 小结
4.2 PANet
4.2.1 PANet
4.2.2 小结
4.3 NAS-FPN
4.3.1 NAS-FPN算法详解
4.3.2 NAS-FPN Lite
4.3.3 小结
4.4 EfficientDet
4.4.1 BiFPN
4.4.2 EfficientDet详解
4.4.3 小结
第5章 损失函数
5.1 Focal Loss
5.1.1 Focal Loss介绍
5.1.2 RetinaNet
5.1.3 小结
5.2 IoU损失
5.2.1 背景知识
5.2.2 IoU损失
5.2.3 UnitBox网络结构
5.2.4 小结
5.3 GIoU损失
5.3.1 算法背景
5.3.2 GIoU损失详解
5.3.3 小结
5.4 DIoU损失和CIoU损失
5.4.1 背景
5.4.2 DIoU损失
5.4.3 CIoU损失
5.4.4 小结
5.5 Focal-EIoU损失
5.5.1 EIoU损失
5.5.2 Focal L1损失
5.5.3 Focal-EIoU损失
5.5.4 小结
第6章 语义分割
6.1 FCN和SegNet
6.1.1 背景知识
6.1.2 FCN详解
6.1.3 SegNet详解
6.1.4 分割指标
6.1.5 小结
6.2 U-Net
6.2.1 U-Net详解
6.2.2 数据扩充
6.2.3 小结
6.3 V-Net
6.3.1 网络结构
6.3.2 Dice损失
6.3.3 小结
6.4 DeepLab系列
6.4.1 DeepLab v1
6.4.2 DeepLab v2
6.4.3 DeepLab v3
6.4.4 DeepLab v3+
6.4.5 小结
第二篇 场景文字检测与识别
第7章 场景文字检测
7.1 DeepText
7.1.1 RPN回顾
7.1.2 DeepText详解
7.1.3 小结
7.2 CTPN
7.2.1 算法流程
7.2.2 数据准备
7.2.3 CTPN的锚点机制
7.2.4 CTPN中的RNN
7.2.5 边界微调
7.2.6 CTPN的损失函数
7.2.7 小结
7.3 RRPN
7.3.1 RRPN详解
7.3.2 位置精校
7.3.3 小结
7.4 HED
7.4.1 HED的骨干网络
7.4.2 整体嵌套网络
7.4.3 HED的损失函数
7.4.4 小结
7.5 HMCP
7.5.1 HMCP的标签值
7.5.2 HMCP的骨干网络
7.5.3 训练
7.5.4 检测
7.5.5 小结
7.6 EAST
7.6.1 网络结构
7.6.2 EAST的标签生成
7.6.3 EAST的损失函数
7.6.4 局部感知NMS
7.6.5 Advanced-EAST
7.6.6 小结
7.7 PixelLink
7.7.1 骨干网络
7.7.2 PixelLink的标签
7.7.3 PixelLink的损失函数
7.7.4 后处理
7.7.5 小结
第8章 场景文字识别
8.1 STN
8.1.1 空间变形模块
8.1.2 STN
8.1.3 STN的应用场景
8.1.4 小结
8.2 RARE
8.2.1 基于TPS的STN
8.2.2 序列识别网络
8.2.3 训练
8.2.4 基于字典的测试
8.2.5 小结
8.3 Bi-STET
8.3.1 残差网络
8.3.2 编码层
8.3.3 解码层
8.3.4 小结
8.4 CTC
8.4.1 算法详解
8.4.2 小结
第三篇 其他算法与应用
第9章 图像翻译
9.1 GAN
9.1.1 逻辑基础
9.1.2 GAN的训练
9.1.3 GAN的损失函数
9.1.4 理论证明
9.1.5 小结
9.2 Pix2Pix
9.2.1 背景知识
9.2.2 Pix2Pix解析
9.2.3 小结
9.3 Pix2PixHD
9.3.1 网络结构
9.3.2 输入数据
9.3.3 损失函数
9.3.4 图像生成
9.3.5 小结
9.4 图像风格迁移
9.4.1 算法概览
9.4.2 内容表示
9.4.3 风格表示
9.4.4 风格迁移
9.4.5 小结
第10章 图神经网络
10.1 GraphSAGE
10.1.1 背景知识
10.1.2 算法详解
10.1.3 小结
10.2 GAT
10.2.1 GAT详解
10.2.2 GAT的推理
10.2.3 GAT的属性
10.2.4 小结
10.3 HAN
10.3.1 基本概念
10.3.2 HAN详解
10.3.3 小结
第11章 二维结构识别
11.1 Show and Tell
11.1.1 网络结构
11.1.2 解码
11.1.3 小结
11.2 Show Attend and Tell
11.2.1 整体框架
11.2.2 小结
11.3 数学公式识别
11.3.1 基础介绍
11.3.2 公式识别模型详解
11.3.3 小结
第12章 人像抠图
12.1 Background Matting
12.1.1 输入
12.1.2 生成模型
12.1.3 判别模型
12.1.4 模型训练
12.1.5 模型推理
12.1.6 小结
12.2 Background Matting v2
12.2.1 问题定义
12.2.2 网络结构
12.2.3 训练
12.2.4 小结
第13章 图像预训练
13.1 MAE
13.1.1 算法动机
13.1.2 掩码机制
13.1.3 模型介绍
13.1.4 小结
13.2 BEiT v1
13.2.1 背景介绍
13.2.2 BEiT v1全览
13.2.3 BEiT v1的模型结构
13.2.4 掩码图像模型
13.2.5 BEiT v1的损失函数
13.2.6 小结
13.3 BEiT v2
13.3.1 背景介绍
13.3.2 BEiT v2概述
13.3.3 矢量量化-知识蒸馏
13.3.4 BEiT v2预训练
13.3.5 小结
第14章 多模态预训练
14.1 ViLBERT
14.1.1 模型结构
14.1.2 预训练任务
14.1.3 模型微调
14.1.4 小结
14.2 CLIP
14.2.1 数据收集
14.2.2 学习目标:对比学习(Contrastive Learning)预训练
14.2.3 图像编码器
14.2.4 文本编码器
14.2.5 CLIP用于图像识别
14.2.6 模型效果
14.2.7 小结
14.3 DALL-E
14.3.1 背景知识:变分自编码器
14.3.2 阶段一:离散变分自编码器
14.3.3 阶段二:先验分布学习
14.3.4 图像生成
14.3.5 混合精度训练
14.3.6 分布式运算
14.3.7 小结
14.4 VLMo
14.4.1 算法动机
14.4.2 MoME Transformer
14.4.3 VLMo预训练
14.4.4 小结
14.5 BEiT v3
14.5.1 背景:大融合
14.5.2 BEiT v3详解
14.5.3 小结
附录A 双线性插值
附录B 匈牙利算法
附录C Shift-and-Stitch
附录D 德劳内三角化
附录E 图像梯度
附录F 仿射变换矩阵
更新时间:2024-09-05 16:47:30