1.3.2 微调与优化
语言模型更大并不意味着能够更好地遵循用户的意图,大体量的文本资料库中不可避免地包含不良信息,会影响大型语言模型生成不真实、有害的或对用户毫无帮助的输出。在这种情况下,人类的反馈可以提供宝贵的指导。这就是所谓的“从人类反馈中进行强化学习”。换句话说,强化学习是一种通过人类反馈来指导机器学习的方法。这种方法需要人类不断地告诉机器学习算法它的表现好还是不好,从而帮助机器学习算法逐步优化它的表现。例如,如果机器人试图抓取一个物体,它需要知道哪种方法更有效,哪种方法更烦琐。这些信息可以由人类反馈提供,并且机器人可以据此改进它的抓取策略。
人类反馈强化学习是OpenAI在GPT-3基础上,通过人类训练师介入,并根据人类反馈训练出奖励模型(reward model),再用奖励模型去训练学习模型,以此来提高输出内容与人类意图之间一致性的方法。该方法首先使用于InstructGPT的训练中并被ChatGPT继承,如图1-5所示。
图1-5 加入了人类反馈步骤后的大模型迭代速度远超以往(来源:OpenAI官网)