大厂都是怎么选择微调方法的? ⭐ S|Situation “要不要微调、用哪种微调方法”。这个问题本身容易被问反—微调不是目标,而是手段。如果不先想清楚想改模型的哪一层能力,以及愿意为此付出多大的成本,讨论用SFT、LoRA还是RL,其实都没有意义。 ⭐ T|Task 这是模型能力不够,还是行为不稳? 这是一个短期验证需求,还是长期跑在核心链路里的能力? 在这些前提下,最轻、最可控的方案是什么? 顺序一定是:先判断问题类型→再看业务约束→最后才选技术手段。 ⭐ A|Action 第一步:先区分能力缺口还是行为缺口 如果模型“其实知道怎么答”,但经常跑偏,比如格式不稳定、边界拿捏不好、同一个问题每次答得不一样,这更多是行为对齐问题。如果模型对某类业务知识、流程、术语体系本身就不懂,一问就开始瞎编,那这就是能力缺口问题。 第二步:结合业务约束判断投入级别 是需要快速上线验证的需求,还是长期、稳定跑在核心链路里的能力。 第三步:按“从轻到重”的梯度选方案 能不用训练就不用训练。 Prompt/Workflow 如果问题主要是输出格式、语气、策略规则,比如稳定输出JSON、品牌口吻一致、规则可兜底,我会优先用prompt、模板、校验器和工具流程解决。本质是在改输出形态,而不是补知识。 RAG 如果问题来自信息不全、不新,或者需要查知识库、商品库、政策规则,而且信息变化频繁,我会优先用RAG。因为微调进去的知识会过期,也很难定位错误。 SFT(LoRA/QLoRA) 当prompt已经写得很复杂,但模型在某类任务上仍然不稳定,比如意图识别、结构化抽取、固定风格输出,而且我手里有明确的输入—输出数据,这时SFT的性价比最高,相当于把模型的默认行为整体拉到一条更稳的轨道上。 DPO/RL 这类方法我用得非常谨慎。它们不是为了“更聪明”,而是为了压方差、控边界。 只有在安全合规、拒答策略、Agent行为一致性这种硬指标场景,而且人类偏好能被清楚定义时,我才会考虑DPO;真正上RL,一般也只会发生在ROI非常明确的核心链路上。 ⭐ R|Result 是知识缺口还是行为缺口。能用prompt和流程解决的就不训练;缺知识优先RAG;缺稳定性再考虑SFT;只有当边界一致性是刚需时,才会上DPO或RL这种更重的方案。 #LLM #大模型 #AI #互联网大厂
00:00 / 03:46
连播
清屏
智能
倍速
点赞30
00:00 / 00:31
连播
清屏
智能
倍速
点赞58
00:00 / 03:04
连播
清屏
智能
倍速
点赞46
00:00 / 01:01
连播
清屏
智能
倍速
点赞1047
00:00 / 00:47
连播
清屏
智能
倍速
点赞3282
00:00 / 07:56
连播
清屏
智能
倍速
点赞72