00:00 / 02:14
连播
清屏
智能
倍速
点赞2217
00:00 / 01:55
连播
清屏
智能
倍速
点赞88
Qiuming2天前
上交大联合辉羲将LLM刻进ROM! 上交大联合辉羲将LLM刻进ROM!推理速度突破20000 token/s,GPU时代面临挑战 近期,上海交大、辉羲智能与微软亚洲研究院的研究团队在AI芯片架构领域取得突破性进展。他们通过创新的ROM+SRAM异构存储方案,将端侧大语言模型推理速度推至20000 tokens/s,与硅谷初创公司Taalas的"模型即芯片"方案不谋而合。 技术突破:用ROM打破"内存墙" 传统大模型部署面临"内存墙"困境——权重数据在内存与计算单元间的频繁搬运消耗大量能耗。研究团队提出的ROMA架构另辟蹊径:利用高集成密度、低功耗的只读存储(ROM)作为权重载体,将模型参数物理固化在芯片内部,从源头大幅降低访存功耗。 ROMA采用7nm工艺,芯片面积约500mm²,可完整容纳4bit LLaMA3.2-3B或2bit LLaMA3-8B模型。针对算法快速迭代的需求,团队引入QLoRA机制,通过"ROM基座模型+SRAM适配器"的混合设计,开发者只需下发极小规模的LoRA插件,即可让固化模型在不同任务间快速切换。 极致优化:挖掘三值模型的存储红利 在ROMA基础上,最新的TOM架构进一步将优化延伸至算法底层。针对BitNet-b1.58等三值化模型(参数取值为{-1,0,1}),团队发现其天然稀疏特性可被硬件直接利用——通过逻辑合成技术摒弃传统存储阵列,用标准逻辑门实现权重固化,物理消除"0"元素的存储电路。这种"以逻辑代存储"的范式,使芯片面积大幅削减,存储密度数倍提升。 应用场景:从具身智能到极端环境 20000+ tokens/s的吞吐量为具身智能场景带来"实时确定性":机器人能像拥有脊髓反射一样,在感知环境变化的瞬间做出语义理解与避障决策。在深海探测器、火星漫游车等极端环境下,ROM架构的天然抗辐射性和超低待机功耗,让大模型真正走出实验室。对于手机端应用,将成熟模型固化在本地隔离电路中,更在物理层面杜绝了数据外泄风险。 结语 从Taalas到上交大团队的研究,AI硬件正经历从通用计算向LLM原生架构的重要转向。这种算法与硬件深度耦合的设计思维,为端侧大模型部署开辟了新路径。当模型真正"刻进"芯片,GPU的霸主地位或将迎来根本性挑战。 ROMA:https://arxiv.org/pdf/2503.12988 TOM:https://arxiv.org/abs/2602.20662
00:00 / 03:41
连播
清屏
智能
倍速
点赞2
00:00 / 00:44
连播
清屏
智能
倍速
点赞180
00:00 / 04:21
连播
清屏
智能
倍速
点赞5
过完年可以来机器人行业开始找工作啦! 公司:light robotics 团队有多强🧠 ✅ 创始人:前OpenAI全栈大模型专家@姜旭-Roger GPT-4核心贡献者 / RLHF核心发明人 技术报告提及8次,全球顶级梯队 ✅ 核心团队:清北 / ETHZ RSL / HKU / 华为天少/DJI 机器人&多模态大模型双天团 ✅ QS前20博士+顶级大厂背景 公司福利&环境🌊 ▫️深圳湾海景办公室 ▫️充足算力 + 扁平化管理 ▫️内部技术孵化 + 每周技术交流会 ▫️base可选:深圳 / 北京 / 上海 / 新加坡 ▫️只招 A Players,和最顶尖的人一起做事 🔥 我们正在急招 算法工程师|Agent开发 后端开发(App方向) 结构工程师|硬件工程师 产品经理|Marketing HR|CFO 🤓公司文化: 1.主人翁精神,Ownership ● 自驱 ● 以终为始,以公司的目 标为出发点,像创始人一样去思考问题和做事情 ● 不设边界,不分你我 2. 直接沟通 ● 没有不能说,不能反馈和不能挑战的,但是要找到负责人 ● 直接说,直接反馈和直接挑战 3.第一性原理思考&批判性思维 ● 行业还在非常早期,需要很多定 义性的事情,所有的答案都需要经过深刻的思考和探索 ● 技术进展非常快, 应用每天都在日新月异的变化 4.追求极致 ● 不断突破自己的上限、行业的上限,不满足现状 ● 拒绝糊弄和“差不多文化” 不搞虚的,只和顶级大脑共事 加入我们,定义下一代具身智能未来 📩 简历投递 邮箱在主页~或者私信 #AI招聘 #机器人招聘 #大模型招聘 #算法工程师 #具身智能
00:00 / 00:20
连播
清屏
智能
倍速
点赞650
00:00 / 01:38
连播
清屏
智能
倍速
点赞36