强化学习(RL reinforcement learning)驱动
• 通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言推理等任务上表现出色,性能与OpenAI的o1正式版相当。
长链推理(CoT chain of thought)技术
DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,能够逐步分 解复杂问题,通过多步骤的逻辑推理来解决问题。
RL强化学习:推理能力强
CoT长链推理:推理时间长(token数量长)
RL强化学习的常见两种算法:PPO(近端策略优化)和GRPO(群体相对策略优化)
核心原理
-
PPO:通过限制策略更新的幅度,确保新策略不会偏离旧策略太远,从而稳定训练过程。它采用剪切目标函数或KL散度惩罚项来平衡探索和利用12。
-
GRPO:目前“GRPO”并非学术界标准术语,可能指分组策略优化或广义奖励策略优化。分组策略优化将动作空间或状态空间分组,分别优化子策略,最后整合结果;广义奖励策略优化则引入广义优势函数或混合奖励信号,解决稀疏奖励问题1。
适用场景
- PPO:适用于一般的强化学习任务,如连续控制、Atari游戏等,计算效率较高,适合需要快速稳定训练的场景123。
- GRPO:可能适用于更为复杂或需要细致调整的任务,如机器人控制、多智能体系统等