忆生科技
Published on 2025-02-22 / 137 Visits

监督微调(SFT)vs 强化学习(RL)

该研究深入探讨了监督微调(Supervised Fine-Tuning,SFT)强化学习(Reinforcement Learning,RL)在基础模型后训练阶段对模型泛化能力的影响。研究发现,SFT倾向于记忆训练数据,而RL更擅长学习可推广的规则,从而在未见过的任务中表现出色。

论文名称:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

网页地址:https://tianzhechu.com/SFTvsRL/

论文全文:https://tianzhechu.com/SFTvsRL/assets/sftvsrl_paper.pdf

GitHub:https://github.com/LeslieTrue/SFTvsRL

研究背景:

随着基础模型在各类任务中展现出强大的能力,SFT和RL已成为提升模型性能的主要后训练技术。然而,这两种方法在增强模型泛化能力方面的具体作用尚不明确。为此,作者设计了一系列实验,旨在比较SFT和RL在文本和视觉环境中的泛化和记忆能力。

研究方法:

  1. 任务设计:

    • GeneralPoints:这是一个算术推理卡牌游戏,模型需要根据给定的四张牌计算出目标数字(默认24)。该任务用于评估模型在文本和视觉环境中的规则学习和泛化能力。

    • V-IRL:一个真实世界的导航任务,模型需要在复杂的视觉环境中进行空间推理和决策。

  2. 训练策略:

    • 监督微调(SFT):使用人工标注的数据对模型进行微调,旨在让模型学习特定任务的模式和规则。

    • 强化学习(RL):通过与环境交互,模型根据反馈信号(奖励)调整策略,以最大化长期收益。

实验结果:

  1. 文本环境中的泛化:

    • SFT的表现:模型在训练数据上表现良好,但在面对未见过的规则变体时,性能显著下降,显示出有限的泛化能力。

    • RL的表现:模型能够学习到更一般化的规则,在未见过的任务中也能保持较高的性能,体现出强大的泛化能力。

  2. 视觉环境中的泛化:

    • SFT的表现:模型对训练中出现的视觉模式表现良好,但在遇到新的视觉变化时,性能下降明显。

    • RL的表现:通过与环境的持续交互,模型学会了适应不同的视觉变化,在未见过的视觉场景中也能有效执行任务。

深入分析:

  • 记忆 vs. 泛化:SFT倾向于记忆训练数据中的模式和规则,因此在训练数据上表现出色,但缺乏对新任务的适应能力。相反,RL通过探索和试错机制,学习到更普遍的策略,能够适应新的任务和环境。

  • 视觉识别能力的提升:RL不仅提高了模型的决策能力,还增强了其对视觉信息的识别和理解能力,这对于在复杂视觉环境中的泛化至关重要。

结论:

研究表明,虽然SFT在特定任务上可以快速提升模型性能,但其泛化能力有限。RL通过强化模型的探索和适应能力,能够学习到更具普遍性的规则和策略,在未见过的任务中表现更佳。因此,在需要广泛泛化能力的复杂多模态任务中,RL是一种更为有效的训练方法。

参考文献:

  • Chu, T., Zhai, Y., Yang, J., Tong, S., Xie, S., Schuurmans, D., Le, Q. V., Levine, S., & Ma, Y. (2024). SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. arXiv preprint arXiv:2406.10305.

附注: