00:00 / 05:56
连播
清屏
智能
倍速
点赞2458
00:00 / 01:59
连播
清屏
智能
倍速
点赞1208
00:00 / 02:07
连播
清屏
智能
倍速
点赞4938
00:00 / 00:39
连播
清屏
智能
倍速
点赞2960
00:00 / 15:00
连播
清屏
智能
倍速
点赞851
一蛙AI4月前
TTRL、PRIME原作论文讲解-智源大会2025(二) 、隐式密集奖励框架Implicit-PRM。传统RLHF通常只有结果奖励,难以获得过程监督,而Implicit-PRM通过将奖励定义为策略与参考模型对同一动作对数概率之比,只要有最终得分,就能在推理阶段为每一步甚至每个token生成免费的过程奖励。基于这样的奖励信号,团队提出了RL框架PRIME:结果奖励实时更新PRM,PRM立即反馈密集奖励,再与结果奖励合并更新策略模型。 2、Test-Time Reinforcement Learning(TTRL),最近也比较火。在没有任何人工标签的情况下,模型对同一输入采样多条答案,通过多数投票给出伪标签,再将“是否与投票答案一致”作为0、1奖励做强化学习训练。有效性来自“幸运的负奖励”现象:只要模型输出充分多样,即使真标签未知,投票也能提供方向正确、噪声可控的梯度信号。 3、The Entropy Mechanism 实验证明,在各种模型、数据和算法设置下,丁宁老师指出:高概率且高优势的动作会急剧降低熵,低概率但高优势的动作则会抬高熵。据此,只需对极少数协方差最大的token做Clip,或用KL正则约束更新幅度,就能保持探索多样性并避免熵快速坍缩,效果超过DAPO,而无需反复调参。 4、展示了在视觉-运动控制任务中的尝试:仅用一条演示轨迹和二元奖励信号,就把机器人任务成功率提升99% 以上。 5、问答环节:Clip是否引入偏差、TTRL如何避免reward hacking #大模型 #智源大会 #强化学习
00:00 / 17:29
连播
清屏
智能
倍速
点赞2303
00:00 / 01:15
连播
清屏
智能
倍速
点赞3749
00:00 / 02:59
连播
清屏
智能
倍速
点赞43
00:00 / 00:32
连播
清屏
智能
倍速
点赞2460