2.1.4 训练模型_AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型-QQ阅读男生都市网

书名：AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型
作者名：吴茂贵
本章字数：747字
更新时间：2024-08-22 11:15:15

2.1.4 训练模型

构建模型（假设为model）后，接下来就是训练模型。PyTorch训练模型主要包括加载和预处理数据集、定义损失函数、定义优化算法、循环训练模型、循环测试或验证模型、可视化结果等步骤。

（1）加载和预处理数据集

加载和预处理数据集可以使用PyTorch的数据处理工具，如torch.utils和torchvision等，这些工具将在第4章中详细介绍。

（2）定义损失函数

定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数，如回归使用的nn.MSELoss（）、分类使用的nn.BCELoss等损失函数，更多内容可参考2.9节。

（3）定义优化算法

PyTorch常用的优化算法都封装在torch.optim中，其设计灵活，可以扩展为自定义的优化算法。所有的优化算法都是继承了基类optim.Optimizer，并实现了自己的优化步骤。

最常用的优化算法就是梯度下降法及其变种，具体将在2.10节详细介绍，这些优化算法大多使用梯度更新参数。

如使用SGD优化器时，可设置为optimizer=torch.optim.SGD（params,lr=0.001）。

（4）循环训练模型

1）设置为训练模式：model.train（）。调用model.train（）会把所有的module设置为训练模式。

2）梯度清零：optimizer. zero_grad（）。在默认情况下，梯度是累加的，需要手工把梯度初始化或清零，调用optimizer.zero_grad（）即可。

3）求损失值：y_prev=model（x），loss=loss_fun（y_prev,y_true）。

4）自动求导，实现梯度的反向传播：loss.backward（）。

5）更新参数：optimizer.step（）。

（5）循环测试或验证模型

1）设置为测试或验证模式：model.eval（）。调用model.eval（）会把所有的training属性设置为False。

2）在不跟踪梯度模式下计算损失值、预测值等：with.torch.no_grad（）。

（6）可视化结果

下面通过实例来说明如何使用nn来构建网络模型、训练模型。

说明：如果模型中有BN（Batch Normalization，批归一化）层和dropout层，需要在训练时添加model.train（），在测试时添加model.eval（）。其中，model.train（）用于确保BN层使用每一批数据的均值和方差进行训练，而model.eval（）用于确保BN使用全部训练数据的均值和方差进行评估；而对于dropout层，model.train（）用于随机取一部分网络连接来训练更新参数，而model.eval（）则利用到了所有网络连接进行评估。

本周热推：

Arduino开发实战指南：智能家居卷从ChatGPT到AIGC：智能创作与应用赋能超AI入门玩转机器人：DIY智能小车机器人人工智能训练师基础（上册）