00:00 / 32:36
连播
清屏
智能
倍速
点赞4961
00:00 / 05:57
连播
清屏
智能
倍速
点赞0
00:00 / 11:24
连播
清屏
智能
倍速
点赞106
00:00 / 00:40
连播
清屏
智能
倍速
点赞77
把RoPE丢掉,AI更能看懂长上下文了! #Transformer 作者团队开源 #DroPE 新方法 针对大模型长文本处理难题,Transformer架构核心作者之一 Llion Jones领导的#SakanaAI 团队开源了一项突破性技术DroPE。该方法通过“丢弃位置嵌入”实现零样本上下文扩展,仅需不到1%的预训练预算即可让模型获得长文本理解能力,被网友戏称为“NoRoPE”。 位置嵌入的双刃剑:稳定训练但限制长度 Transformer的自注意力机制需依赖位置嵌入来理解语序关系。当前主流方案RoPE(旋转位置编码)虽能提供稳定训练,却存在严重缺陷:高频维度快速饱和、低频维度变化过慢,导致模型难以处理长序列。 DroPE核心突破:训练用RoPE,推理直接丢弃 DroPE创新地将位置嵌入视为临时训练工具。在预训练阶段保留RoPE保证稳定性,推理阶段则完全丢弃位置嵌入,通过原上下文长度下的简短重新校准,解锁模型的长上下文外推能力。 实验效果显著,多项任务实现超越 在LongBench基准测试中,DroPE将基础SmolLM的平均得分提升10倍以上。NIAH任务召回率达74.92%,大幅超越传统RoPE缩放方法。即使对70亿参数的Llama2-7B模型,仅用0.5%预训练预算重新校准后,其在长上下文问答和摘要任务中仍优于最先进方法。 这项研究为大模型长文本处理提供了新思路,通过“训练-推理解耦”策略,以极小成本实现性能飞跃。DroPE已开源,有望快速集成到现有训练流程中,推动长上下文技术普及。
00:00 / 12:11
连播
清屏
智能
倍速
点赞5