大模型微调基本概念（四）什么是强化学习(RLHF)？如何训练垂直领域大模型？-CFANZ编程社区

四、什么是强化学习(RLHF)

RLHF 是一种训练方式，并不是类似 Lora 这种的训练方法，RLHF 可以分为三阶段：

1）Language Model，LM：一个预训练语言模型 LM，对基础模型微调得到一个微调后的模型

2）Reward Model，RM：训练一个奖励模型 RM：训练一个奖励模型（Reward Model），用于评估生成模型的输出质量。

3）Reinforcement Learning，RL：用强化学习 RL 方式微调 LM ：使用强化学习算法（如 PPO（Proximal Policy Optimization））进一步优化第一步中生成的模型，使其输出更符合人类反馈的期望。

相比于 RLHF 现在好像 DPO 比较火

1）选择Base模型还是 Chat 模型？

对模型进行微调，都有可能触发灾难性遗忘。

在进行领域任务的 SFT 时，模型会重新调整对话任务相关的参数，而这些调整可能会干扰或破坏模型原先在通用对话任务上所学到的知识。这种现象就是灾难性遗忘。

即：灾难性遗忘会导致模型通用能力降低。

因为 Chat 模型就是在 Base 模型基础上做了微调以适应对话任务，掌握了生成对话内容的能力的 SFT 模型，因此再对 Chat 模型做 SFT 触发灾难性遗忘风险就比较高，相比之下 Base 因为没经过微调，因为触发灾难性遗忘的风险会比较低。

因此选择哪种模型取决于我们的场景：

2）是否需要继续预训练（Continue PreTraining）？

必要性：如果领域任务的数据集与预训练时的数据集差异较大，例如您的数据源自公司内部，而预训练数据无法覆盖这些领域，建议进行继续预训练。这样可以让模型更好地适应领域特定任务。
数据量考虑：当领域任务的数据量较大（例如 1B 以上的 token），增量预训练是必要的。

因此，一般有两种选择：

1）青春版：Chat 模型 + SFT

2）完整版：Base 模型 + 增量预训练(Continue PreTraining) + SFT

在此基础上，还可以通过强化学习进一步提升模型效果。

那么，最终一个完整的训练垂直领域大模型可以分为以下三步：

1）Continue PreTraining(增量预训练): 一般垂直大模型是基于通用基座大模型进行二次的训练，为了给模型注入领域知识，就需要用领域内的语料进行继续预训练。

2）SFT( Supervised Finetuning,有监督微调): 通过 SFT 可以激发大模型理解领域内的各种问题并进行回答的能力(在有召回知识的基础上)

3）强化学习：一般是二选一

1）大模型训练流程

2）微调

3）SFT 最佳实践

4）强化学习 RLHF

Reward Model，RM：训练一个奖励模型 RM：训练一个奖励模型（Reward Model），用于评估生成模型的输出质量。
Reinforcement Learning，RL：用强化学习 RL 方式微调 LM ：使用强化学习算法（如 PPO（Proximal Policy Optimization））进一步优化第一步中生成的模型，使其输出更符合人类反馈的期望。

5）如何训练垂直领域大模型

1）Continue PreTraining(增量预训练): 一般垂直大模型是基于通用基座大模型进行二次的训练，为了给模型注入领域知识，就需要用领域内的语料进行继续预训练。
2）SFT( Supervised Finetuning,有监督微调): 通过 SFT 可以激发大模型理解领域内的各种问题并进行回答的能力(在有召回知识的基础上)
3）强化学习：一般是二选一
RLHF(奖励建模、强化学习训练): 通过 RLHF 可以让大模型的回答对齐人们的偏好，比如行文的风格。
DPO(直接偏好优化)