00:00 / 00:34
连播
清屏
智能
倍速
点赞162
00:00 / 02:08
连播
清屏
智能
倍速
点赞159
Qiuming1周前
Taalas亮相:为单一模型定制,速度超GPU 50倍 激进AI芯片初创公司Taalas亮相:为单一模型定制,速度超GPU 50倍 核心摘要: 一家名为Taalas的芯片初创公司于2026年2月21日发布了一款极其激进的AI推理芯片HC1。该芯片将特定的AI模型(Llama 3.1 8B)的权重直接“刻”入硅片,实现了针对该模型的极致优化。据称,其推理速度可达每秒17,000个token,是英伟达最强Blackwell架构GPU的50倍,成本仅为后者的二十分之一,功耗也低一个数量级。 主要特点: 极致专用化: HC1芯片采用掩模只读存储器(Mask ROM)工艺,将模型参数与计算逻辑合二为一,彻底消除了传统芯片中数据搬运带来的性能瓶颈。代价是芯片完全不可编程,只能运行预设的Llama 3.1 8B模型,若要更换模型则需重新流片。 存算一体与高能效: 基于台积电N6工艺,芯片面积达815 mm²,功耗约250W。10卡系统的总功耗约2.5kW,可在标准风冷机架中运行,与需要液冷、功耗达数十千瓦的英伟达GPU服务器形成鲜明对比。 快速定制流程: Taalas借鉴结构化ASIC思路,为每个新模型定制芯片时只需更换两层掩模,声称从拿到模型到生成芯片的周期可缩短至两个月。 商业模式与挑战: 公司瞄准那些会在生产环境中被长期(至少一年)使用的特定模型。其面临的挑战也非常明显:AI模型迭代极快,芯片的不可编程性意味着巨大的市场风险。公司计划探索出售芯片、提供API或与模型开发者合作等多种商业模式。 观点: Taalas的方案触及了当前AI推理的核心瓶颈——存算分离带来的“内存墙”,并通过极端手段将其消除。虽然牺牲了通用性,但在特定场景下能带来压倒性的性能和成本优势。然而,它能否被市场接受,不仅要看其技术指标的兑现程度,更要看它能否在模型快速迭代的行业中找到足够多的“长尾”应用。这并非要取代通用的GPU数据中心,而是为特定需求提供一种效率极致化的备选方案。
00:00 / 03:58
连播
清屏
智能
倍速
点赞68
就在前几天,一家叫Taalas的芯片初创公司,扔出了一枚重磅炸弹。他们发布了一款新产品,名字有点技术流,叫HC1。但真正让人惊掉下巴的,是它的性能数据:在处理特定AI任务的时候,它的速度据称比英伟达最新的 Blackwell 架构GPU快了将近50倍 。什么概念?就好比人家还在骑电动车,它已经坐上了火箭。 那么,这家名不见经传的小公司,是怎么实现这种“降维打击”的呢?答案藏在他们的一个疯狂想法里。咱们都知道,现在的AI芯片,就像一个超级图书馆,模型和数据都存在“内存”里,计算的时候需要来回调取,这路上就得耽误功夫、消耗能量。而Taalas的做法简单粗暴:别调取了,我把这本书直接“刻”在芯片上。 他们把Meta的Llama 3.1大模型,不是装进去,而是通过一种叫“硬连线”的技术,物理地、永久地蚀刻在硅片上 。这样一来,芯片本身就成了模型。电流一过,答案瞬间生成,根本不需要出去“查资料”。所以,它快,是理所当然的。功耗呢?自然也就降到了人家的十分之一甚至更低 。 更让人觉得不可思议的是,创造这个奇迹的,不是什么科技巨头,而是一支仅有24人的“梦之队” 。他们大多来自AMD,是芯片设计领域的老兵。整个项目从零到一,只花了大约3000万美元,用了两年半时间 。在动辄需要百亿美金建厂的芯片行业,这简直就像是用小米加步枪,造出了一颗原子弹。 听到这儿,你可能会想,那是不是明天我们就能用上比现在快几十倍的AI了?别急,故事的另一面同样值得思考。 这颗芯片虽然快,但它有一个“死穴”:它太专一了。因为它把Llama 3.1这个特定的模型刻死了,所以它这辈子,就只能跑这一个模型 。如果明天Meta发布了Llama 4,或者OpenAI出了更厉害的新模型,这块昂贵的芯片瞬间就过时了,变成一块“电子板砖”。 这就引出了一个核心的博弈:在追求极致速度和应对快速迭代之间,我们该如何选择?Taalas的路径,像是在为未来的“超级AI应用”打造一种“专用器官”。比如,未来的具身智能机器人,它的大脑可能就是一块专门为它设计的、永不改变的高速芯片 。而对于我们日常使用的、不断进化的大模型,通用芯片依然有其不可替代的价值。 所以,Taalas的出现,与其说是要“杀死”英伟达,不如说是给整个行业立下了一个新的坐标。 #taalas #hc1芯片 #fpga #壁仞科技 #长飞光纤
00:00 / 02:57
连播
清屏
智能
倍速
点赞114
00:00 / 00:31
连播
清屏
智能
倍速
点赞4
Taalas: 一家颠覆冯·诺依曼结构范式创新的公司 想象一下,你手中握着一个计算器——不是那种可以编程的多功能设备,而是一个专为加减乘除设计的简单小玩意儿。它没有多余的按钮,没有复杂的菜单,却能在瞬间给出答案,因为它的每一个电路都只为那几个运算而生。这,就是Taalas这家新兴公司的魔力所在。他们不是在修补旧有的计算机蓝图,而是在大胆地重绘它,挑战了近一个世纪以来主宰我们数字世界的冯·诺依曼架构。就像达尔文颠覆了生物学的旧有范式,Taalas正以“模型即芯片”的理念,点燃人工智能硬件革命的火炬。 让我们先来追溯一下这个故事的源头。1945年,数学家约翰·冯·诺依曼提出了一个天才的设计:计算机应该将程序指令和数据存储在同一个内存中,由处理器一步步读取、解码并执行。这就好比一个厨师在厨房里,根据菜谱(程序)从冰箱(内存)里取出食材(数据),然后烹饪出一道道菜肴。这种“软件-硬件分离”的范式,让计算机变得无比通用——同一台机器可以运行游戏、编辑文档,或者训练AI模型,只需换个软件就好。它是我们现代数字生活的基石,从智能手机到超级计算机,无一例外。但正如任何伟大发明一样,它也有阿喀琉斯之踵:在AI时代,这种设计遇到了瓶颈。想想那些大型语言模型,如ChatGPT背后的引擎,它们需要海量数据和计算,每次推理都像厨师反复跑去冰箱取东西,造成延迟、能耗和成本的爆炸。 现在,走进Taalas的舞台。这家总部位于多伦多的初创公司,由一群前Tenstorrent高管创立,他们的愿景大胆而简单:为什么不把AI模型直接“铸造”进芯片里呢?不再让硬件“运行”软件,而是让芯片本身就是模型的物理化身。他们的首款产品HC1,就是这样一个奇迹。它针对特定AI模型(如Meta的Llama系列)进行硬编码,将神经网络的权重、连接和逻辑直接嵌入硅晶体管的布线中。结果?推理速度飙升到每秒17000个token——这相当于一个聊天机器人能以闪电般的速度回应你的问题,而传统GPU如NVIDIA的H200,可能只能勉强达到它的几分之一。更惊人的是,功耗和成本大幅降低,据称仅为对手的1/20,因为没有了那些多余的软件抽象层,一切计算都是纯硬件的电流流动,就像神经元在脑中直接点亮想法,而非通过书本慢慢阅读......#taalas #人工智能 #ai #大模型 #科技改变生活
00:00 / 00:08
连播
清屏
智能
倍速
点赞0
00:00 / 00:25
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:04
连播
清屏
智能
倍速
点赞1763
00:00 / 00:26
连播
清屏
智能
倍速
点赞NaN
00:00 / 02:58
连播
清屏
智能
倍速
点赞418
00:00 / 02:03
连播
清屏
智能
倍速
点赞92