00:00 / 01:44
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:07
连播
清屏
智能
倍速
点赞3417
AI为什么变聪明了?不是靠更多数据,而是学会自己跟自己比 小明期中考试数学考了八十五分,这算好还是差,单看分数你判断不了。得看全班平均分是多少,排名才说明问题。训练AI也是同样的道理,让AI自己跟自己比,比请个老师打分管用多了。 过去训练AI对齐人类偏好,需要额外请一个奖励模型当老师,给AI的每个回答打分。这就好比你想培养一个优秀学生,还得先花钱请个老师。而且这个老师本身也很贵,训练它需要大量算力和时间。 GRPO这个新算法,把这套流程彻底改了。它不再请老师打分,而是让AI针对同一个问题生成好几个回答,然后在这些回答之间互相排名。 还是拿小明考试举例。传统做法是请个老师给小明的卷子打八十五分。GRPO的做法是,让小明同一张卷子答五遍,然后看哪遍答得最好。八十五分本身意义不大,但如果你发现第三遍比第一遍进步了十分,这个进步就是最有价值的反馈。 GRPO不关心绝对分数,只关心组内相对位置。同一个问题生成一组回答,算出平均水平和波动范围,然后告诉AI,你这个比平均水平好,那个比平均水平差。好在哪差在哪一目了然,AI就沿着比平均更好的方向不断迭代。 省掉的是一个独立的奖励模型,意味着额外的显存、额外的计算开销、额外的工程复杂度,GRPO把这些全砍了。在代码生成任务里,训练收敛速度提升了百分之四十,语法错误率降低了百分之六十二。 以前训练一个对齐模型要几十张显卡跑好几天,现在用GRPO,同样的效果用更少的资源就能做到。让AI学会自己跟自己比,比任何外部打分都有效。 #AI #deepseek #大模型
00:00 / 01:43
连播
清屏
智能
倍速
点赞1
00:00 / 03:29
连播
清屏
智能
倍速
点赞14
00:00 / 01:04
连播
清屏
智能
倍速
点赞4
00:00 / 04:05
连播
清屏
智能
倍速
点赞12
00:00 / 00:47
连播
清屏
智能
倍速
点赞33