- ChatGPT大模型:技术场景与商业应用
- 梅磊 施海平 陈靖
- 1089字
- 2024-12-24 10:28:19
2.1.2 运行机制:大规模预训练+微调
大模型的优势主要体现在具有通用性上。当前,传统AI模型在多个领域有出色的表现,但是由于数据规模、模型能力的限制,这些模型往往只能完成某一类任务,无法完成其他任务。而大模型得益于“大规模预训练+微调”的运行机制,可以很好地适应不同的任务,展现出强大的通用能力。
大模型的无监督训练模式使得其可以获得大规模无标注数据用于训练,大幅提升了训练效果。同时,超大参数量提升了模型的表达能力,使大模型可以基于训练数据中的通用知识建模。具有通用性的大模型,只需在不同的任务场景中做出适当微调,就能有亮眼的表现。
以GPT-4大模型为例,其能力来源于大规模预训练和指令微调。GPT-4所具备的语言生成、情景学习等能力,都源于大规模的预训练。通过对海量数据的深度学习,GPT-4大模型在多个方面具备通用能力。
而通过指令微调,GPT-4大模型拥有面向细分领域的能力,能够泛化到更多任务中,进行更加专业的知识问答。同时,基于RLHF(Reinforcement Learning with Human Feedback,根据人类反馈的强化学习)技术,GPT-4具备和人类“对齐”的能力,能够根据用户的提问给出翔实、客观的回答,拒绝回答不当的问题,拒绝回答超出其知识范畴的问题。
海量数据的预训练是大模型应用的基础。参数量庞大的大模型需要海量、广覆盖的高质量数据。数据的规模和质量深刻影响着大模型的性能,大模型研发企业往往通过大量的数据训练来提升模型的性能。
同时,适当地微调也十分重要。在预训练模型具备了强大的基础能力之后,适当地微调能够赋予模型在某一领域的专业能力,使大模型能够满足细分领域的需求。
模型微调的方法很多,以ChatGPT的训练为例,基础模型的微调分为三个步骤:一是通过人工标注好的数据进行模型训练;二是基于用户对模型生成答案的排序设计一个RM(Reward Model,奖励模型);三是通过奖励模型进一步训练ChatGPT,实现ChatGPT的自我学习。科学的奖励模型可以引导大模型生成正确的回答,提升内容输出的准确性。因此,模型微调对于提升大模型内容生成的准确性具有重要意义。
2023年2月,Meta推出一款开源大语言模型——LLaMA。自大模型发布后,基于LLaMA模型微调而产生的模型相继出现。2023年4月,哈尔滨工业大学的一个研发团队发布了对LLaMA模型微调之后的针对医学领域的新模型——Hua Tuo。Hua Tuo在智能问诊方面表现出色,可以生成一些可靠的医学知识。
以LLaMA为基础模型,为了保证模型回答问题的准确性,研发团队从CMeKG(Chinese Medical Knowledge Graph,中文医学知识图谱)中提取出诸多医学知识,生成多样化的指令数据,对模型进行监督微调,最终打造出针对医学领域的新模型Hua Tuo。
以上案例体现了模型微调的必要性。以大模型作为基础模型,利用特定领域的专业数据进行训练,对大模型进行微调,可以得到面向细分领域的新模型。