00:00 / 02:08
连播
清屏
智能
倍速
点赞141
Qiuming3天前
Taalas亮相:为单一模型定制,速度超GPU 50倍 激进AI芯片初创公司Taalas亮相:为单一模型定制,速度超GPU 50倍 核心摘要: 一家名为Taalas的芯片初创公司于2026年2月21日发布了一款极其激进的AI推理芯片HC1。该芯片将特定的AI模型(Llama 3.1 8B)的权重直接“刻”入硅片,实现了针对该模型的极致优化。据称,其推理速度可达每秒17,000个token,是英伟达最强Blackwell架构GPU的50倍,成本仅为后者的二十分之一,功耗也低一个数量级。 主要特点: 极致专用化: HC1芯片采用掩模只读存储器(Mask ROM)工艺,将模型参数与计算逻辑合二为一,彻底消除了传统芯片中数据搬运带来的性能瓶颈。代价是芯片完全不可编程,只能运行预设的Llama 3.1 8B模型,若要更换模型则需重新流片。 存算一体与高能效: 基于台积电N6工艺,芯片面积达815 mm²,功耗约250W。10卡系统的总功耗约2.5kW,可在标准风冷机架中运行,与需要液冷、功耗达数十千瓦的英伟达GPU服务器形成鲜明对比。 快速定制流程: Taalas借鉴结构化ASIC思路,为每个新模型定制芯片时只需更换两层掩模,声称从拿到模型到生成芯片的周期可缩短至两个月。 商业模式与挑战: 公司瞄准那些会在生产环境中被长期(至少一年)使用的特定模型。其面临的挑战也非常明显:AI模型迭代极快,芯片的不可编程性意味着巨大的市场风险。公司计划探索出售芯片、提供API或与模型开发者合作等多种商业模式。 观点: Taalas的方案触及了当前AI推理的核心瓶颈——存算分离带来的“内存墙”,并通过极端手段将其消除。虽然牺牲了通用性,但在特定场景下能带来压倒性的性能和成本优势。然而,它能否被市场接受,不仅要看其技术指标的兑现程度,更要看它能否在模型快速迭代的行业中找到足够多的“长尾”应用。这并非要取代通用的GPU数据中心,而是为特定需求提供一种效率极致化的备选方案。
00:00 / 03:58
连播
清屏
智能
倍速
点赞68
就在前几天,一家叫Taalas的芯片初创公司,扔出了一枚重磅炸弹。他们发布了一款新产品,名字有点技术流,叫HC1。但真正让人惊掉下巴的,是它的性能数据:在处理特定AI任务的时候,它的速度据称比英伟达最新的 Blackwell 架构GPU快了将近50倍 。什么概念?就好比人家还在骑电动车,它已经坐上了火箭。 那么,这家名不见经传的小公司,是怎么实现这种“降维打击”的呢?答案藏在他们的一个疯狂想法里。咱们都知道,现在的AI芯片,就像一个超级图书馆,模型和数据都存在“内存”里,计算的时候需要来回调取,这路上就得耽误功夫、消耗能量。而Taalas的做法简单粗暴:别调取了,我把这本书直接“刻”在芯片上。 他们把Meta的Llama 3.1大模型,不是装进去,而是通过一种叫“硬连线”的技术,物理地、永久地蚀刻在硅片上 。这样一来,芯片本身就成了模型。电流一过,答案瞬间生成,根本不需要出去“查资料”。所以,它快,是理所当然的。功耗呢?自然也就降到了人家的十分之一甚至更低 。 更让人觉得不可思议的是,创造这个奇迹的,不是什么科技巨头,而是一支仅有24人的“梦之队” 。他们大多来自AMD,是芯片设计领域的老兵。整个项目从零到一,只花了大约3000万美元,用了两年半时间 。在动辄需要百亿美金建厂的芯片行业,这简直就像是用小米加步枪,造出了一颗原子弹。 听到这儿,你可能会想,那是不是明天我们就能用上比现在快几十倍的AI了?别急,故事的另一面同样值得思考。 这颗芯片虽然快,但它有一个“死穴”:它太专一了。因为它把Llama 3.1这个特定的模型刻死了,所以它这辈子,就只能跑这一个模型 。如果明天Meta发布了Llama 4,或者OpenAI出了更厉害的新模型,这块昂贵的芯片瞬间就过时了,变成一块“电子板砖”。 这就引出了一个核心的博弈:在追求极致速度和应对快速迭代之间,我们该如何选择?Taalas的路径,像是在为未来的“超级AI应用”打造一种“专用器官”。比如,未来的具身智能机器人,它的大脑可能就是一块专门为它设计的、永不改变的高速芯片 。而对于我们日常使用的、不断进化的大模型,通用芯片依然有其不可替代的价值。 所以,Taalas的出现,与其说是要“杀死”英伟达,不如说是给整个行业立下了一个新的坐标。 #taalas #hc1芯片 #fpga #壁仞科技 #长飞光纤
00:00 / 02:57
连播
清屏
智能
倍速
点赞111
00:00 / 00:34
连播
清屏
智能
倍速
点赞156
这可能是今年很重要的AI新闻,只做一件事的AI芯片 这可能是今年最重要的AI新闻,但中文互联网还没什么人聊。 昨天,一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们不是做大模型的,不是做应用的,而是做了一件听起来很复古的事:把AI模型直接刻在芯片里。 这家公司叫 Taalas。他们做的芯片 HC1,运行 Llama 3.1 8B的速度是 17000 tokens/秒。作为对比,目前业界最快的 GPU 也就 2000 左右。十倍差距。 但这还不是最疯狂的。最疯狂的是,这块芯片只能跑这一个模型。不能换,不能改,不能升级。你买回家,它就永远只会做这一件事:以光速运行 Llama 3.1 8B。 Taalas 的赌注很简单:在这个所有人都追求灵活性的时代,他们选择了绝对的不灵活,换取绝对的效率。 要说清楚这件事为什么重要,得先理解过去几十年芯片发展的主线。从 CPU 到 GPU,再到各种 AI 加速器,所有人都在做同一件事:造一个通用的计算平台,然后用软件在上面跑各种模型。 这条路走到今天,遇到了一个硬边界。模型越来越大,内存带宽成了瓶颈。你把几百亿参数从显存搬到计算单元,这个过程消耗的能量和时间,已经比计算本身还要多了。 Taalas 的思路是:既然你每次都算同样的东西,为什么还要搬来搬去?直接把权重存在晶体管里不行吗? 他们真的这么做了。HC1 芯片里没有显存,没有 HBM,没有复杂的缓存层级。模型的每一个权重都对应着芯片上的特定晶体管,矩阵乘法通过电路的物理连接直接完成。你输入一个 token,电流流过这些预先设计好的路径,输出就是下一个 token 的预测。 这就像录音带和现场演奏的区别。传统芯片是每次都要重新演奏,Taalas 是把演奏录在磁带里,播放就行了。 这种设计带来了几个惊人的结果。 第一是速度。17000 tokens/秒意味着什么?你几乎感受不到延迟。不是"很快",是"瞬间"。有测试者说,按回车的瞬间,答案就已经完整出现在屏幕上,甚至看起来像是预先准备好的。 第二是功耗。传统 GPU 运行 AI 推理需要液冷,一个机柜动辄几十千瓦。Taalas 的芯片只要空气冷却,十张卡加起来才 2.5 千瓦。他们号称能效是 GPU 的十倍。 第三是成本。制造这样的芯片,他们说是传统方案的十分之一到二十分之一。 但代价也是真实的。 这块芯片出厂那一刻,它的命运就已经注定。
00:00 / 08:50
连播
清屏
智能
倍速
点赞4
00:00 / 00:31
连播
清屏
智能
倍速
点赞4
00:00 / 01:29
连播
清屏
智能
倍速
点赞2344
00:00 / 01:35
连播
清屏
智能
倍速
点赞46
00:00 / 00:23
连播
清屏
智能
倍速
点赞17
00:00 / 00:35
连播
清屏
智能
倍速
点赞117
00:00 / 03:03
连播
清屏
智能
倍速
点赞1127