00:00 / 05:42
连播
清屏
智能
倍速
点赞11
00:00 / 01:09
连播
清屏
智能
倍速
点赞39
TAPS 论文解析如何用任务感知打破大语言模型推理的速度 **研究背景:** 在大语言模型(LLM)的生成过程中,**投机解码**是一种常用的加速技术,它的原理是让一个轻量级、速度快的“草稿模型(Draft model)”先去预测(起草)未来的几个词(Tokens),然后再由庞大的“目标模型(Target model)”进行一次性的并行验证[1]。然而,在实际应用中,草稿模型通常是在宽泛的通用语料库上训练出来的,这使得业界并不清楚:草稿模型的训练数据分布究竟会在多大程度上影响投机解码的最终质量和加速效果[1]。 **核心方法:** 为了解答这一问题,研究团队选取了轻量级的 HASS 和 EAGLE-2 作为草稿模型骨架,并让它们分别在特定任务的数据集(如专注于数学推理的 MathInstruct、偏日常对话的 ShareGPT 以及它们的混合数据)上进行训练[1]。随后,研究人员在 MT-Bench、GSM8K、MATH-500 和 SVAMP 等多个经典基准测试上对这些模型进行了评估[1]。此外,他们还探索了如何在推理阶段(Inference time)把这些针对特定领域训练的“专家级”草稿模型有效地组合起来[1]。 **主要贡献:** * **证实了草稿模型的“术业有专攻”:** 实验明确证明,针对特定任务的训练会使草稿模型产生明显的专长化效果;例如,用数学数据训练的草稿模型在推理基准测试中接收长度最长(加速效果最好),而用 ShareGPT 训练的模型则在 MT-Bench 测试中表现最强[1]。 * **指出了组合专家模型的最佳方式:** 研究发现,如果简单粗暴地将不同模型的权重进行平均(Naive checkpoint averaging),表现非常糟糕[1]。相反,如果在推理阶段进行组合,例如使用**基于置信度的路由(Confidence-based routing)**,效果会超过单一领域的草稿模型;而使用**合并树验证(Merged-tree verification)**则能在两种架构上都获得整体最高的 Token 接受长度[1]。 * **明确了更优的路由信号:** 论文揭示出,在决定具体选用哪个草稿模型时,“置信度(Confidence)”比“熵(Entropy)”是更有用、更准确的路由参考信号[1]。
00:00 / 09:27
连播
清屏
智能
倍速
点赞12
00:00 / 00:53
连播
清屏
智能
倍速
点赞720
00:00 / 01:32
连播
清屏
智能
倍速
点赞17