00:00 / 02:18
连播
清屏
智能
倍速
点赞14
00:00 / 03:12
连播
清屏
智能
倍速
点赞0
00:00 / 06:11
连播
清屏
智能
倍速
点赞12
00:00 / 04:10
连播
清屏
智能
倍速
点赞19
00:00 / 00:43
连播
清屏
智能
倍速
点赞9
大语言模型:定义、涌现能力与三阶段训练流程解析 LLM 区别于传统 PLM 的独特优势在于其核心能力: 1. 涌现能力:随着模型规模增大,性能迅速提升,量变引起质变。 2. 上下文学习(In-context Learning):无需额外训练或参数更新,通过自然语言指令或示例即可执行任务,推动了 NLP 范式向 Prompt Engineering 转变。 3. 指令遵循(Instruction Following):通过指令微调获得泛化能力,能够理解并执行未见过的指令,极大拓宽了模型的应用范围。 4. 逐步推理(Step by Step Reasoning):通过思维链(CoT)推理策略解决涉及多个推理步骤的复杂任务。 训练一个完整的 LLM 一般需要经过三阶段: 1. 预训练(Pretrain):工程量最大的一步,使用海量无监督文本(数 T token)通过因果语言模型(CLM)任务来赋予模型海量知识。这一阶段需要大规模分布式训练框架(如 Deepspeed,利用 ZeRO 策略)支持上百亿参数的模型。 2. 监督微调(SFT):旨在激发模型的通用指令遵循能力。训练输入是各种类型的用户指令,输出是期望的模型回复。多轮对话能力也是在 SFT 阶段训练获得的。 3. 人类反馈强化学习(RLHF):实现 LLM 与人类价值观对齐,使其输出安全、有用、无害的内容。RLHF 分为两个步骤:训练奖励模型(RM)来拟合人类偏好,以及使用 PPO(近端策略优化)算法进行强化学习训练。此外,DPO(直接偏好优化) 是 RLHF 的一种低门槛平替方案。 #大语言模型 #涌现能力 #上下文学习 #幻觉 #知识前沿派对
00:00 / 08:52
连播
清屏
智能
倍速
点赞16
00:00 / 13:16
连播
清屏
智能
倍速
点赞26
00:00 / 01:58
连播
清屏
智能
倍速
点赞1
00:00 / 04:52
连播
清屏
智能
倍速
点赞18
00:00 / 01:57
连播
清屏
智能
倍速
点赞8
00:00 / 06:37
连播
清屏
智能
倍速
点赞2063
00:00 / 03:06
连播
清屏
智能
倍速
点赞35