一蛙AI8月前
LLM在数学推理能力的提升能否迁移其他领域 作者是华盛顿大学李岳泰 两个核心议题,一是强化学习如何在大模型中实现推理能力的跨域迁移并显著减轻灾难性遗忘;二是强化学习是否真的完全不遗忘以及如何应对隐藏的个体级遗忘现象。 2.主题一:RL的迁移与抗遗忘 实验以Qwen34B 为基线,在纯数学数据上分别进行RL 与SFT。结果显示,RL不仅全面提升数学推理,还将能力迁移至代码、科学甚至对话、常识等非推理领域,而SFT在非推理任务上普遍退化。进一步的PCA、KL散度与 Token rank-shift分析表明,RL对模型表示的扰动极小,仅微调与任务紧密相关的词,而SFT会大幅重排分布。作者将SFT与RL统一为三要素框架(采样分布、权重函数、KL 正则),发现迁移性的决定因素是on-policy 采样;advantage权重主要影响域内性能;KL正则作用最弱。 3.主题二:RL 并非“零遗忘” 整体指标虽上升,但仍有6-16% 题目出现“基线正确、RL错误”的反向波动。对训练过程做checkpoint追踪后可见,同一道题在不同阶段频繁“对-错”震荡,个体遗忘比例高达20-56%。这说明RL只是将遗忘压缩在微观层面,总体得分无法揭示全部问题。 4.Temporal Sampling方案 作者提出在推理阶段平均抽取多个中间checkpoint的输出,把训练动态当作答案多样性的额外来源。即使保持相同总采样数,Pass@k、Majority Voting、Best-of-n 等指标均显著超过只用最终模型;LoRA微调场景同样适用且存储开销低。该方法有效找回训练后被遗忘的正确解。 5.拓展工作与结论 团队还研究了奖励模型误判导致的“False Negative”,用1.5B Tiny-Verifier修正后显著提升训练效率;同时显示≤3B小模型在Long-CoT或大教师蒸馏下易表现失衡,原因是知识覆盖不足与分布差距过大。总体来看,RL在维持分布稳定的同时实现了跨域迁移和宏观抗遗忘,但个体级遗忘依旧需要通过Temporal Sampling等技术加以弥补。 #大模型 #强化学习 #深度推理
00:00 / 27:45
连播
清屏
智能
倍速
点赞28
00:00 / 04:18
连播
清屏
智能
倍速
点赞6742
00:00 / 01:04:23
连播
清屏
智能
倍速
点赞6925
00:00 / 00:39
连播
清屏
智能
倍速
点赞860
00:00 / 00:25
连播
清屏
智能
倍速
点赞20