由由。5天前
馒头的GRPO蒸法 今天早上,我蒸馒头。 你在旁边看着。 我问你:“要软一点还是硬一点?” 你说:“随便。” 我信了。 结果出来,一半塌陷、一半夹生。 我盯着锅,你叹了口气。 那一刻我明白—— 我们不是蒸馒头失败, 我们是优化模型崩了。 ⸻ 我一开始跑的是 DPO —— Direct Preference Optimization。 只听你的反馈。 你说太硬,我加水; 你说太软,我加面。 反复八轮迭代,模型彻底过拟合。 每次修正都更偏, 最后收敛在一个——没人想吃的极值点。 DPO 的问题,就是学得太快、听得太勤、忘得太多。 它只追一个人的偏好, 而那个人自己——也没固定目标。 ⸻ 后来我们换了思路, 跑 GRPO —— Group Relative Preference Optimization。 不再只听一个声音, 而是把反馈扩展成一组样本: 你的口感偏好、我的直觉经验、菜谱的配比、上次成功的样例。 模型开始计算相对满意度分布, 不再问“哪个最好吃”, 而是问:“哪种最不容易被骂。” 这不是退步, 这是稳定收敛的智慧。 ⸻ 在 GRPO 里,每个反馈都有一个权重 wᵢ。 系统会把这个权重乘上模型生成那次结果的概率,再求和。 你可以这么理解: 每个意见都有影响力, 但不是所有意见都要服从。 模型的目标,是让整体满意度上升,而不是单个评价爆表。 GRPO 教模型学会—— 不是谁声音大听谁的, 而是谁的反馈在系统里更稳、更持久、更有代表性。 ⸻ 最后那锅馒头, 没多软,也没太硬。 味道正常,外形堪忧。 但我们都吃了。 那一刻我明白, GRPO 不会生成完美的馒头, 但会生成愿意继续合作的我们。 #震撼首发 #抽象 #大模型
00:00 / 01:53
连播
清屏
智能
倍速
点赞32
00:00 / 00:42
连播
清屏
智能
倍速
点赞115
00:00 / 00:19
连播
清屏
智能
倍速
点赞469
00:00 / 00:09
连播
清屏
智能
倍速
点赞94
00:00 / 17:26
连播
清屏
智能
倍速
点赞2
00:00 / 03:45
连播
清屏
智能
倍速
点赞5071
00:00 / 02:34
连播
清屏
智能
倍速
点赞153
00:00 / 01:58
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:01
连播
清屏
智能
倍速
点赞6
00:00 / 01:30
连播
清屏
智能
倍速
点赞27
00:00 / 03:10
连播
清屏
智能
倍速
点赞3
00:00 / 01:20
连播
清屏
智能
倍速
点赞82
00:00 / 01:49
连播
清屏
智能
倍速
点赞12