粉丝447获赞9352

有这么一颗芯片,在二零二六年二月份横空出世,跑出了让英伟达、 cyrus 甚至 groot 都感到脊椎发凉的数据,它的峰值推理速度啊,达到了恐怖如斯的每秒一万七千个 token。 这意味着啊,深层几万字的小说或者上千行的代码,几乎能在毫秒内完成,这对于人类的感知来说啊,相当于输入即光速吐出啊! 来做个简单对比啊,对比我们之前详细介绍过的刚刚被英伟达以两百亿美元收购的 groot lpu groot 啊,可以说已经比传统的 gpu 快 了整整一个数量级,达到了每秒一千三百个 token。 而这颗 tina s h c 外芯片的推理速度大约是 groot 的 十三倍以上。 更为夸张的是啊,相较于主流的 gpu 方案,它不仅是速度快,由于不需要昂贵的 h b 们高宽带内存,风冷啊就能散热成本还骤降了二十倍,功耗降低了高达十倍以上。一张插满 h c y 芯片的 p c i e 加速卡只要两百瓦,而同等推理能力的 g p u 服务器 大概要烧掉几千瓦的电力。那么在这个电力及算力的时代,这可引发全球科技行业高度关注的 ai 芯片, 是如何做到光速推理的呢?它能冲击现有的算力卡的格局吗?能颠覆英姆达的 gpu 垄断吗?以下它的未来落地点,落地方向在何方呢?那么今天啊,我们就来探讨一下这个非常有趣的话题。 首先,特纳斯公司何许人也呢?是我们在网络上看到的最为显著的标签之一啊,就是特纳斯仅用二十四人团队就完成了这场史无前例的极速表现, 然而事实上,他的背景啊,并不那么简单。特纳什的创始人努比贾巴沙克并不是一位无名之辈,相反呢,他的职业经历啊,本身就是一部浓缩版的硅谷顶尖芯片架构的眼镜使。 这位来自于塞尔维亚的芯片设计师是业界公认的技术传奇。巴沙克曾经是黄仁勋手下的员工,在英伟达期间,他就参与到了英伟达 gpu 架构的搭建,后来转战 amd, 期间 结识了他职业生涯最重要的一位伯乐,芯片界的真神 gator 之一的金凯纳。金凯纳就不用多做介绍了,叉八六零级的奠基人之一,两次挽救 md 于水火的那个男人, 曾经领导苹果开创了 a 四 a 五自研芯片之路,后来为特斯拉打造了 f s d 自动驾驶芯片。 在今天的播客采访中啊,他提到,巴萨克是少数能够融合四个不同领域的知识的全才。巴萨克理解 gpu 的 内部工作原理,精通 ai 算法的数学本质, 能将算法转化为软件实现,同时还具备了扎实的芯片设计能力,能够将这些知识落地为实际可用的芯片。 大概是在二零一六年,努比亚巴沙克决定离开大厂创业,当时他拿着一个用 f p g 实现的初级原型去找 jenkins, 两人一拍即合啊,创立了后来的 tencent 公司。 在当时啊,这两位技术大牛的目标是统一的,就是要用一种比英伟达 gpu 更聪明、更灵活的架构去跑 ai。 然而随着 tencent 的 发展呢,大概是在二零二一年, jenkins 开始全面接管 tencent 的 主要运营和业务, batshark 与 john keller 在 技术路线上的分歧啊,也愈发显现。简单来说呢, keller 的 理念是要打造一个通用的基于 risk 五可编程平台,让软件生态成为护城河。 而巴扎克则更加倾向于另外一个极端,那就是彻底的专用化。在他看来呢,软件层面的灵活性简直是效率的杀手啊。为了让芯片能够跑各种模型,业界浪费了太多的晶体管去处理指令编码、缓存调度和显存搬运。 巴扎克认为,如果模型已经收敛,那么我们为什么不把模型直接焊死在芯片上呢? 四心合一,说干就干。在二零二三年初, bashack 选择了辞职,与妻子雷拉创立了我们今天视频的主角 taylor 公司。我们用 bashack 本人在其官网的一句话总结概括 taylor 的 理念,他认为啊, ai 需要像通用计算一样变得容易构建,快速且廉价。 那么 tata 啊,这颗 h c one 芯片到底是歪门邪路还是一次革命性的创新呢?首先呢,我们要理解 h c one 芯片的速度啊,就必须要理解为什么 gpu 会慢。 在传统的 h 一 百或者 b 两百 gpu 架构中,由于熟知的冯论一慢架构的立存强瓶颈,应该说啊,计算是客,数据是主, 模型权重存储在 h b m 里,每层计算都要从 h b m 高带块内存中搬运 t p 级别的数据到计算单元。 一方面呢,这导致了严重的存算失衡,产生延迟。同时啊,在传统架构中,往往计算一个乘法只需要几 p 加二的能量,但是从内存搬运这个数据啊,却需要消耗上百倍的能量。 据统计啊,在传统 gpu 的 推理过程中,有高达百分之九十的能量和时间都耗费在了数据搬运上,而不是计算本身。 这就造成了目前机柜散热系统的承受上限,已然成为了算力释放的瓶颈之一。就像 john kenner 所说的,在 ai 时代,往往计算是免费的,数据移动啊,才是昂贵的。那么, tina 是 如何尝试去解决这个问题的呢? 简单来说呢, tata 的 技术原理啊,并不是对现有纯算一体路线的简单优化,而是一种非常极端的范式转换,甚至啊,是对于纯算架构的一次极致的斜修。目前主流的 c m 技术,无论是基于 s 1 还是进存计算, 其核心目标是在保持一定可编程性的前提下,缩短数据搬运的距离。而 h c one 芯片则选择了截然不同的路径,那就是为单一模型定制硅片, 将模型本身物理固化进芯片。有一种说法不是特别准确,但是啊,也可以这么理解吧,就是将模型直接刻在芯片上。 hc one 采用台积电六纳米工艺,通过 maserion 技术,将拉玛三点一八 b 模型的八十一个参数直接编码固化在芯片的金属眼模型中。 这意味着模型权重不再是存储在独立存储器单元里等待被提取,而是成为了芯片晶体管间互联电路的一部分,与执行计算的逻辑们在物理上共存于同一个硅基体中,实现了存储单元与计算逻辑在物理层面的合一。 这种设计带来的优势啊,是显而易见的, h c one 彻底消除了权重数据的远程搬运,使权重数据禁止在计算发生的原位 数据啊,流过芯片那一刻,计算即完成了,实现了真正意义上的电路层面的纯算及一。 这里啊,我大概画了一个表格,如果让我用三个词来概括 tina 的 设计理念,那就是,一、全面的专用化。二、极致的简化。三,纯算合一,它不再是运行模型,它本身就是一个硬体模型呐。 那么接下来啊,我们再来讨论一个关键的问题。目前硅谷把 hc one 吹得神乎其神,网络上更是将它描述为英伟达的颠覆者,挑战者。那么真的有这种可能性吗?它能商业化、规模化落地吗? 简单来说啊,的确天下武功唯快不破,但是啊,任何的快啊,都是有代价的, tnaas 啊,也无法避免这种物理规律。我这里呢,简单给大家总结了一下三个 tnaas hc one 芯片的致命的瓶颈。 首先是第一个致命的问题,那就是模型的过时风险。目前呢,由于 h c one 采用了硬编码设计,这意味着它出场的那一刻呀,实际上呢,就被永久地锁定了,只能终身运行。那么三点一八 b 这一个特定的模型, 既无法更改,也无法升级。而在当下的模型行业呢,众所周知,这个迭代速度啊,基本上是季根,甚至啊是月根。上半年的索塔模型,这个月可能就已经过时了。 虽然巴沙克宣称啊, tenas 啊让软件占基本消失了,这在硬件层面呢,却是一个相当致命的一个问题, 这意味着开发者无法为 h c y 编写任何软软体,也无法进行任何的优化,用户被彻底锁定在了一个静态的模型版本上。 然后是第二个瓶颈,那就是激进量化带来的精度损失。目前啊,为了将拥有八十一个参数的拉玛三点一八 b 模型啊高效地固化进这颗台积电的六纳米工艺的芯片之中啊, hc one 采用了一种激进的混合量化方案,它结合了自定义的三比特基础数据类型与六比特参数。简单来说呢,这种设计啊,相当于啊比 gpu 普遍使用的 f p 十六 f p 八精准, 会不可避免地带来一定程度的模型质量的退化。目前啊,已经有用户反馈呢,尽管 h c one 推理速度惊人,但在复杂的推理、数学计算、长链条的代码生成一些需要啊深度理解的任务中, h c one 有 明显的缺陷率上升的一个情况, 例如一些简单的数学题,一些简单的推理啊,可能因为量化损失而搞错。所以啊,有些人会说,得益于极佳的低功号, h c one 呢,适合在边缘计算,例如机器人、占地、军事或者智能驾驶领域来使用。 我想说啊,不能拿生命开玩笑啊,面对可能的频频翻测的情况,我觉得对于任何 严谨的使用场景,目前来看呢, h c one 呐,都不太适用。最后是第三个瓶颈,也是目前 t n s 架构争议最大的问题,那就是多芯片扩展的局限性。目前呐,跑八 b 模想肯定是不够看的。 对于前沿大模型,例如说跑完整的 d p c r one, tina 啊,就提出将 s m 部分拆分到单独芯片,每颗 h c one 承载约二十 b 参数,总机需要约大概三十颗定制芯片来协调工作。我们简单来设想一下,由于芯片完全不可编程, 出错余地啊,基本为零,那就需要在流片前就完成整个多芯片系统的完整的仿真。 可以说啊,这本身就是一项极其复杂且困难的工程挑战,这也让 h c one 呢,失去了原有的简单、高效、极致的一个优势。 最后总结一下,用六纳米八百一十五平方毫米的芯片面积,仅两百五十瓦的功耗,简单的风冷系统就跑出了每秒一万七千个 toon 的 巅峰推理速度, 这本身就是一个奇迹啊,对吧,我们不能苛刻太多,有人说他是英伟达的颠覆者,我想说啊,不至于不至于,应该说啊, 它更像是一次具有前瞻性的极端专用化的一次探索。虽然 telsa 这种卡短期内还无法应用在大规模的数据中心推理服务中, 但是长期来看呢,随着模型行业编辑效应的收窄, h b 们内存价格的持续走高,推理成本的控制的苛刻条件, 未来在一些优势场景啊,不排除出现一些杀手级的应用,比如说应用在实时翻译、实时代码补全、垂直领域等一些定制化的模型啊等等。 对于行业来说呢, h c one 芯片最大的价值啊,不在于颠覆了英伟达与否,而是在于它用最极端的方式验证了一个可行的设计理念。当算法收敛时啊, 硬件连线方案呢,同样可以带来数量级的一个效率提升。正如很多专家所说的,虽然 tata 啊目前确实还没有太多商业化的价值,但并不妨碍啊它成为一颗有历史意义的芯片, 它为通用还是专用,亦或是通用与专用并存的芯片路线之争提供了另外一种完全的可能性与想象力。 那么本期视频就这里,希望对大家了解目前他那是芯片的一些情况,有更多的理解。如果大家对前沿科技和技术话题感兴趣,欢迎啊关注我频道,那么朋友们,我们下期视频再见!

你敲下回车,人家那边两千个字已经拍你脸上了,这事你敢信?就在二零二六年二月,农历大年初六年还没过完,一家加拿大只有二十四个人的小公司叫 talas, 突然扔出一枚深水炸弹, 他们搞出一款芯片,推理速度直接干到了每秒一万七千个 token。 什么概念?现在市面上最火的英伟达 b, 两百每秒也就三百五十个 token, 也就说这枚小芯片的速度是英伟达最新款 gpu 的 将近五十倍。成本呢,直接砍到二十分之一, 工号降到十分之一。最狠的是,这帮人为了追求这个速度,干了一件反常识的事,他们把 ai 大 模型直接用物理的方式焊死在了芯片里。你没听错,是焊死。 就像把一首歌直接刻在黑胶唱片上,这张唱片这辈子就只能放这一首歌。这到底是一次改朝换代的宣战,还是一场注定沦为电子垃圾的豪赌?英伟达的芯片神话,是不是要被这二十四个人撕开一道口子了?今天就用一条视频把这个事给你讲清楚。 咱们先聊聊英伟达这些年是怎么封神的。其实过去三十年,不管是 cpu 还是 gpu, 硅谷那帮巨头就一个信仰,造一个通用的计算平台。什么叫通用?就是我这个芯片得是个万能舞台,你不管是跳芭蕾还是唱摇滚, 不管什么软件什么模型上来都能演。英伟达最牛的地方就是它造了 gpu, 这个舞台还搭了个叫库达的生态架子, 任何模型甭管是 chat、 gpt 还是 lma, 上来就能跑。所以过去十年,大家心甘情愿掏空钱包买英伟达的卡,图的就是这个万能,这个省心。但是这个万能舞台有个要命的硬伤,叫内存墙。我给你打个比方, 你是个大厨,你的灶台是计算单元,你的食材仓库是显存,每次炒菜,你都得从仓库把食材搬到灶台上。 以前炒个小炒搬一趟就行,但现在模型大到几千亿,参数等于你要办一桌满汉全席,得来回搬几百趟食材,这搬来搬去的功夫和力气,早就超过炒菜本身了。整个行业包括英伟达,为了保住这个万能舞台,只能拼命把仓库盖大, 把搬运工练壮,但永远解决不了来回折腾的这个过程本身。这时候那二十四个加拿大人站出来了,说,你们累不累啊?既然这个舞台天天只演罗密欧与朱丽叶,咱还天天搬布景干嘛?直接用水泥把布景气死在台上不就完了吗? pass 的 思路就是这么简单粗暴。他们做的芯片叫 hce, 出厂的时候就把 mate 的 lama 三点一八 b 这个模型,每一个参数每一个权重直接对应到了芯片上特定的晶体管。你问他问题,压根不需要去内存里加载数据,电流一通过,答案啪的一下就出来了, 这就是速度暴增五十倍的秘密。那问题来了,把魔性焊死,到底是神操作还是骚操作?网上已经吵翻了天,正方说这是未来,你看他那个速度, 那不是回复,是直接未卜先知把答案砸你脸上。有人甚至说,这种速度根本就不是给人准备的,是给以后无数个 ai 智能体互相聊天用的。那个世界不需要等待,这就是把灵活性换成了极致速度。 就像你听歌是愿意听现场交响乐团,还是愿意听灌好的黑胶唱片,黑胶唱片音质完美,而且想听就听,不需要等乐团就位。但反方的话更难听,他们说你这是引阵止渴,是制造高级电子垃圾。 为啥?大模型现在十八个月就迭代一次,今年是拉玛三,明年拉玛四出来,你这块号称速度第一的芯片瞬间就变成一块废铁, 为了追求那点速度,把升级的路全堵死了,这不是自己把自己玩死了?这种分裂本身就说明行业共识已经被打破了,以前大家都信通用,现在有人开始走专用这条道了,而且走的这么极端, 那这场路线大决裂之后, ai 世界会变成什么样?咱们普通人能得到啥?或者会失去啥?我个人觉得未来的 ai 硬件会走向一个两级分化的世界。一边是云端,那些通用神灵就是少数,像英伟达这样的巨头,供养着几千亿参数的通用大模型, 他们负责思考,负责创造,负责给你写诗画画。他们像发电厂的高压电,庞大昂贵但无所不能。 另一边就是像它拉斯这种被死死刻进龟片里的电子牛马,他们会以百亿计的数量钻进你的手机,你的汽车,你家的扫地机器人,工厂的流水线上。他们不懂什么是诗和远方,他们生下来就只会干一件事,比如语音唤醒或者人脸识别。 但干这件事他们是光速,而且成本低到可以忽略不计。网上有个评论特别扎心,他说其实大部分人类一辈子也就说一种语言,做着一份固定的职业,这和大脑里刻死了一个模型有什么区别?想想还真是,我们在绝大多数场景下,根本不需要一个全知全能的神。 你家里的扫地机,它只需要认路避障,你管它是 gpt 六还是 cloud 五呢?这时候,一个永远不需要换代的钉子一样的专用芯片就是最好的答案。所以你看扎克伯格,如果看到这个芯片,他眼睛得发光。他手里有拉玛模型, 如果他能用这种技术把拉玛固化到每一台设备里,他就能彻底摆脱对英伟达的依赖,实现硬件及模型的终极梦想。这对麦塔是天大的好事,但对那些靠卖通用算力的云厂商来说,就是噩梦。 这场决战让我想起了当年的 intel 和 a r m。 pc 时代, intel 的 x 八十六芯片一统天下,啥电脑都用它, 这是通用。到了移动时代, a r m 走了一条完全不同的路,它允许每个手机厂商定制自己的芯片, 功耗低,专门为手机服务,这是专用。结果呢?两者共存至今,今天的 ai 芯片可能就站在这样一个历史岔路口。所以回到咱们开头的问题, 一个二十四人的小团队掏出一万七千 tokens 每秒的芯片,这不是一次简单的技术突破,这是用一种全新的物种对旧世界发出的挑战书。它不是要取代英伟达,它是要告诉你,未来的世界不需要一个神,而是需要无数个各司其职的牛马。 你觉得人类的科技树应该往哪个方向点?是继续追求那个全知全能的通用神,还是拥抱这些光速干活的电子牛马?欢迎在评论区谈谈你的观点。


本周呢,有一个非常非常非常炸裂的信息,然后产品经理小易然后写的一篇文章,然后这篇文章呢,其实说了一个这个 t i 我 不知道怎么念啊。 tales, 这是上周非常炸裂的一个新闻,就是应该是能够轰动行业,但是我看国内报道的很少, 好像只有少数几个头部的自媒体博主报导这个新闻了。这是什么东西呢?上周呢,推出了一个,怎么说呢,这个玩意其实不能算是单独的硬件或者软件了。这个这个 tels 网站点 com, 这个网站是它是一个相当于是一个技术介绍的一个网站。 这个网站呢相当于什么呢?相当于是做专款专用。就我们知道现在的很多的芯片,它需要有内存,需要有呃存储空间,需要有显卡, 每个做做单独的预算。我们知道,比如说这个英伟达 blackwell 架构,它用了一些更厉害的并联技术,使它的这个每一个显卡之间的沟通效率提高了多少倍。但无论你怎么做这件事情,在你信息从一个终端,从一个硬件终端调到另外一个硬件终端的时候,就是比如说到内存调到显卡上,它一定是会有损耗的。 然后这一次呢,就是在今年二月份的时候, tels 正式发布了其首款的 hci 芯片,然后这款将 matta 的 lma 三点一 b 大 圆模型完整硬件化。官方数据,这款星舰突野突里速达到了一一万七千 tokyo 每秒,是英伟达 h 二百的七十三倍, 而功耗仅为后者的十分之一。这个是划时代的一次革新,就在于这个硬件只能服务于某一款模型, 而这个模型其实不怎么地啊,拉玛这个模型其实很次,就是它算是是个开源模型,但其实在开源模型里边比我们的 kimi 的 k 二啊或者千问啊都要差一截子,但是算是外网,就是国境外里边的这个开源模型里边算头部的开源模型了,但这种开源模型 在这个单独的为这个开源模型所搭配的单独硬件上跑出的效率极其惊人,而且成本极其之低。就这件事情会给我们一个非常棒的一个想象空间,就是未来我们有一些比较 呃完整的,或者说已经已经已经沉淀,经过市场验证的一些模型,比如说比如说我们说 gpt 五点二,或者说我 jimmy, nike 三点一, pro 啊等等这些模型,或者是 grok 四啊等等这些已经被市场验证过了, 很很流行的模型,那我们就单独为这个模型单独去做一块呃专门适配这个模型的硬件,那可见就能让这个模型的效率大增,然后包括它的工号大降,这是一个非常有意思的思考方向,就是硬件和软件,硬件和模型单独结合, 然后这个是算是上周行业里边其实极其炸裂的新闻,强烈推荐同学们可以看一下。里边这个小易同学也在这个讲清楚它的原理是什么,然后为什么这种东西可能会更厉害, 以及他的一些测试结果,然后他当下的优势和挑战都在这边写清楚了。其实这件事情如果真的能做成,那么事实上 对于我们的想象空间就很大了,因为我们不可能做那种通用,通用的一芯片能赶得上英伟达的速度这个事情,无论如何,无论我们用什么样的窍门的方法, 其实距离国外的这顶级芯片至少有半年的这个待机的差距。那如果按照这种方法去做的话,那我们只要去训练好一个比较厉害的模型,那我们为这个模型单独去做一个比较合适的硬件的话, 这个难度应该要比直接做一个能通用的这种硬件难度要低一些,所以这是给我们一个非常好的想象空间。关注。

talus 到底是颠覆者,还是只会干苦力的偏科生?全程硬核逻辑?大家注意,今天这条视频把 talus 专用芯片扒的底朝天。优点缺陷、产业定位、对英伟达的冲击一次性讲透。 talus 一 出来,很多人喊颠覆,英伟达干掉 gpu, 我 告诉你,纯属想多了, 他就是一个超级偏科生。先讲他的恐怖优势,他把模型直接焊死在芯片里,只干一件事,速度快到炸裂,工号低到离谱、成本压到极限,固定流程重复作业、大规模算力需求的重资产工厂,一颗芯片怼下去,效率直接拉满。就问你强不强,猛不猛? 但重点来了,它的致命缺陷一个比一个要命,模型焊死等于不能升级,不能换,模型一变,芯片直接报废。没有灵活应变能力,没有复杂推理能力,没有成熟生态,没有安全用余 医疗、车载自动驾驶、金融决策、高端推理,这些人命关天高价值的场景,谁敢用它?一出事就是灾难性后果,它就是一片空白,直接死机。再看产业格局,英伟达 gpu 是 什么?是全能学霸,是大脑, c u d a 生态牢不可破,训练、研发、创新、复杂计算、安全场景,全是它的天下,这是根基,这是护城河。 tallas 是 什么?是流水线。超级工人只能干苦力,干重复活,干不关键的活。它颠覆不了英伟大,更动摇不了 c u d a 架构, 它只是产业链的补充,不是革命者。最后总结一句话,专用化有市场,但绝不是万能。偏科生干不了大脑的活。高端算力、核心决策、产业底座,永远是通用 g p u 的 天下。 holus 有 价值,但没那么神。本视频仅为信息分享,不构成任何投资建议或操作指导。投资者应根据自身情况独立判断,并自行承担投资风险。

每秒一万七千个 token, 初创公司 tylas 刚发布的 hce 芯片,把推理速度直接拉高了十倍,成本还只有 h 幺零零的十分之一。 这种芯片及模型的暴力方案,难道真的要终结 gpu 时代了吗?摇完了硬件,咱们看生产力。 asurepic 发布了全新的 ai 代码扫描工具,基于 cloud 的 四点五 opus 的 恐怖代码能力,直接扫描漏洞。 这消息一出,美股网络安全板块瞬间成压, ai 正在精准降维,打击传统安防。不仅是代码,印度 ai 巨头 seven 刚刚上线了英特斯 ai 聊天应用,在多语言处理上,他们针对本土语料做了深度优化。 全球大模型本地化竞争越来越白热化了。再看学术圈的新发现,清华 ar 团队揭示了人类与智家算法在视觉注意力上的本质差异。现在的算法在极端场景下还是容易跑偏, 这对我们优化端到端大模型非常有参考价值。回到刚才提到的它,拉斯这款 hce 芯片在拉玛三点一八 b 模型上跑出了一点七万 tokins 的 成绩。观众老爷们, 这意味着 lm 真正实现了亚迪 s 级响应,几乎感觉不到延迟,技术细节更硬核它拉拉斯放弃了通用算力,直接把模型架构刻在硅片上, 模型不再加载到内存,而是变成硬件逻辑。这种极端的专用 ace 路径,可能会重塑边缘测 ai 的 格局。而且这玩意工号降了十倍,成本直接缩减二十倍买不到。 h 幺零零 plus 的 思路是,既然通用 gpu 太贵,那就直接定制模型芯片。 二十四个人的小团队,真的硬刚了。英伟达大厂这边也有动向,欧普奈悄悄把长期算力支出目标下调到了六千亿美元,虽然还是天文数字,但可以看出,即便是巨头也在优化资源分配, 不再盲目堆料了。与此同时,欧普奈正在推进新一轮巨额融资。尽管支出目标微调,但为了 gpt 六的研发,奥特曼手中的钱袋子还得继续扩充, 钻离霸权的地位依然稳固。收回 antropic 的 动作,他对网安行业的冲击不容小觑。当 ai 能自动发现并修复漏洞时,传统安全厂商如果跟不上 cloud 四点五的迭代速度, 恐怕真的要凉凉了。最后插播一条 tech crunch disrupt, 两千零二十六的早鸟票,还有七天涨价,想去现场看 gpt 五点二深度应用的老哥们, 抓紧最后省六百八十刀的机会吧。从一点七万头肯的芯片到六千亿的算力博弈,两千零二十六年的 ai 圈依然是神仙打架,想紧跟技术最前沿,关注天天叫,咱们下期见!

大家都知道,现在搞 ai 服务器和算力的全都在盯着英伟达的卡,不管是 h 两百还是 b 三百,算力确实猛,但价格也是真的贵,而且功耗和散热让人头皮发麻。今天给大家聊个实在的,一家叫特拉斯的加拿大初创公司,搞出了一张思路完全不一样的芯片,直接把大模型的推理速度干到了每秒一万七千个头啃。 这是什么概念?基本上一眨眼的功夫,几万字就出来了,延迟低到不到一毫秒,他们是怎么做到的?目前普遍在使用的 gpu, 本质上都属于通用计算芯片, 跑大模型的时候,计算单元得去显存里把参数权重翻过来,算完了再把数据塞回去。这就好比干活的工人不停的去仓库拿物料,大部分的时间和电力全浪费在了跑腿上。行业里管这个叫内存强, 现在数据中心里那些几千瓦的机柜,百分之八九十的电都耗在了搬运数据上,最后全变成了费热 tales 的 思路,简单粗暴,干脆不要这个搬运过程了。他们最新搞出的这块 hce 芯片,直接把一个八十亿参数的拉玛三点一模型物理固化成了硅片上的真实电路。 模型本身就是芯片数据通电进去,顺着排好的晶体管走线流过去,数学计算就自然完成了,软件直接变成了物理硬件。这么干的结果就是极其省电,因为省掉了显存来回读写的步骤,这张卡跑满状态下的功耗只有大概二百五十瓦, 这也就是一台普通家用电脑的水平,随便拿个普通的风扇吹吹就行,根本不需要上什么昂贵的夜冷服务器机柜。听到这,懂行的朋友肯定要问了, 大模型叠带这么快把拉玛三点一直接刻死在物理电路上?明天要是出了新模型,或者我想自己微调一下,这卡不就直接变成了电子垃圾吗? tels 的 团队也考虑到这一点,所以他们搞的是一套混合架构。大模型里面,最底层、最庞大、最不需要变的基础权重,确实被永久刻死在了底层的硬件线路里。 但在这些固定线路上面,他们留了一层可以擦写的高速缓存,也就是 sram。 这层空间虽然不大,但刚好够干两件事, 一是用来存放聊天时候的上下文记忆,二是用来跑微调的 loo 模块。也就是说,硬件底座提供了基础的大模型能力,但你可以随时在上面换不同的微调插线。哪怕退一步脚,就算开源模型真的大换代了,他们重新造新卡的速度也很快,因为芯片底层那海量的晶体管,全都是标准化批量生产的。 出了新模型,把芯片最顶层的两层金属走线重新定制一下就行。从拿到新模型到新芯片出厂,只需要两个月,完全跟得上软件更新的节奏。不过现在的问题是,真正厉害的前沿模型都是几千亿上万亿参数的, 受限于光刻机的物理极限,不可能把几千亿参数全部刻在一张龟片上。对付这种超大模型, taylor 的 方案也非常接地气,他们把模型做水平切分,例如一个有一百层的 transformer, 把前五层放在第一张卡上,第一张卡算完后,只传递一个很小的状态包给第二张卡,第二张卡接着算下去。 这个流水线式的做法对贷款的要求相对较低,普通的 pci 通道就够用,也就是说不需要昂贵的高贷款。互联不用专门的超级服务器机架, 普通机箱里插上几张这种低成本的卡,就能以更低的成本运行一个万亿参数级别的系统。总结一下,把模型直接做成硬件的方案,并不会完全取代 gpu 厂商在训练环节的地位,因为你要从头训练一个大模型,还是得老老实实的买 gpu, 这没得选。 但是在模型训练好之后的推理阶段,也就是真正拿给大规模用户去调用的时候, tels 的 这种方案的成本优势是碾压级的,据说在这种架构下,跑一百万个 tik 的 成本连一美分都不到。 如果未来推理算力真的能变得像自来水一样便宜,那整个 ai 应用的商业模式和落地玩法可能就要彻底变天了。你怎么看这款芯片评论区,聊聊你的看法。

这个春节, ai 芯片行业要变天了,把 ai 大 模型写进 ai 芯片,你想过吗? 就在刚刚呢,加拿大一家只有二十四个人的 ai 创业公司 paris 创新了一款芯片,直接把 ai 大 模型写进芯片里面,它的算力速度呢,是英伟达的五十倍,而且成本只有英伟达的二十分之一,对于整个 ai 芯片行业来说呢,简直就是颠覆式的创新。 很多网友呢,跑去体验了一遍,这个速度的响应呢,确实很快,基本上呢,你想什么,他马上给你答出来了,但是他目前的弊端也很明显,第一个呢,就是他推理的准确性呢,真的不高,像个智障一样。 第二个呢,就是他只能应用于一些单一的大模型,如果你的使用场景是多模型的,而且需要科研,需要推理的话呢,其实这一款芯片的话呢,是不太适合的, 它特别适合那些应用于单一场景的,比如说电商的这种固定的回复啊,什么军事领域啊这种。这次英伟达呢,恐怕要坐不住了。 你知道像 ai 这种硬核科技的话呢,对于我们最大的启发就是它的想象力,有什么 mini max 啊,都已经跑赢了快手啊,百度啊这些已经跑了几年十几年的老灯互联网公司。那那句话怎么说的?乾坤未定,你我皆是黑马。

tales 公司正式发布了其首款 ai 推理芯片,命名为 h c e。 h c e 芯片的核心设计目标是将 mate 的 lelema 三点一八 b 大 语言模型几乎完整地集成到规片中, 这种集成方式只在优化大型语言模型在硬件层面的运行效率。在单用户场景下, h c e 芯片展现出每秒一万七千 token 的 惊人输出速度, 这一性能指标显著超越了市场上现有竞品的推理速度和效率表现。 h c e 芯片的发布标志着 ai 推理硬件领域的一项重要进展。主流 ai 推理任务广泛依赖于通用图形处理器 gpu 进行计算, 例如, nvidia 的 h 一 百、 h 两百系列是当前 ai 推理领域常用的 gpu 型号。 gpu 的 核心优势在于其通用计算能力和成熟的软件生态系统支持。然而, gpu 的 计算单元与存储单元之间存在物理分离的架构特点,这种分离导致数据在 hbm 高带宽内存 与计算核心之间传输时会消耗大量能量和时间,数据搬运过程中的能耗与时间开销是当前 gpu 架构面临的性能瓶颈之一。它拉斯 hce 芯片的核心设计理念是全面专用化、存算合一,极度简化。 该芯片采用 maskron 工艺,将模型权重直接编码在芯片的金属互联层中,模型权重与计算逻辑共存于同一硅片,实现了高度集成。此设计消除了对外部 dram 或 hbm 的 需求,简化了系统架构。 通过这种方式, hce 芯片有效解决了传统 gpu 面临的带宽墙问题。 hce 芯片采用台积电 n 六工艺制造, 芯片面积为八百一十五平方毫米,功耗约为两百五十 w。 由十块 hce 板卡组成的服务器总功耗约为二点五千瓦,可在标准风冷机架中稳定运行。 相较于需要液冷支持且功耗高达数十千瓦的 gpu 服务器, hce 在 功耗方面表现出显著优势。 hce 芯片的低功耗特性使其在散热需求上远低于传统 gpu 服务器,降低了运行成本和复杂性。 hce 芯片存在局限性, 其设计仅支持运行 lollam 三点一八 b 模型。该芯片几乎不具备可编程性,限制了其应用范围和灵活性。它拉斯公司借鉴了结构化 s a 的 设计理念,优化了芯片定制流程。 为适配新模型,定制芯片时仅需更换两层眼膜,大幅简化了制造步骤。这一创新流程将模型到芯片的周期缩短至约两个月。快速迭代能力使得它拉斯能够高效响应市场需求,实现技术快速更新。 talas 对 deepsea r e、 六百七十一 b 等大型模型进行了模拟测试,模拟结果显示,约三十颗 h c e 芯片协同工作可实现每秒一万两千 token 的 用户推理速度,这一推理速度显著超越了当前 gpu 的 性能水平。此外, hce 方案的推理成本也明显低于现有的 gpu 解决方案,这充分展示了 hce 芯片在大模型扩展性方面的巨大潜力。极端专用化策略面临模型快速迭代的固有风险, 若芯片支持的模型迅速过时,前期投入的巨额投资可能随之失效。多芯片系统在互联方面存在显著的工程挑战, 确保各部分高效协同系统同步性是多芯片设计的另一大难题,需克服复杂的持续问题。芯片制造的良率控制对多芯片系统置关重要,直接影响生产成本和可能性。 芯片不可编程的特性意味着出错余地基本为零。对流片前仿真要求极高精度。 tars 的 解决方案并非只在完全取代现有 gpu 数据中心,而是专注于特定应用场景。 其核心目标是为具有长期稳定性的模型提供极致的性能与成本效益。可能的商业模式包括提供 a p i 推理服务,直接销售定制芯片。此外,它拉斯还可与模型开发者合作,共同定制专用芯片解决方案。


现在啊,人工智能这一块可以说遇到了一个大瓶颈,不过呢,有家初创公司站出来说,他们有办法,而且口气还不小,说要彻底颠覆整个 ai 硬件。哎,这是怎么回事呢?咱们今天就来好好聊聊。 这话说的特别好, ai 的 潜力那真的是无穷大,但是你懂得,理想很丰满,现实嘛,总是有一个大问题挡在前面,让我们没法完全释放它的能量。 那具体是什么问题呢?其实啊,说白了就是两大难题,正是这两座大山阻碍了 ai 的 普及。一方面呢,是延迟太高了,你跟 ai 说话,它反应慢半拍,那种感觉就特别别扭,思路一下子就断了。 另一方面就是成本,那简直是天文数字,普通人根本玩不起,只有那些巨头公司烧得起这个钱,这么搞下去,未来会什么样?可能就是到处都是那种巨大的超级耗电的数据中心,旁边还得配个发电厂,感觉有点反乌头帮,对吧? 但是啊,咱们回过头看看,历史,也许还有别的出路。说到历史,有个例子特别贴切,真的,他能完美的告诉我们一项新技术,刚出来的时候,看起来再怎么笨重,最后是怎么一步步进化过来的。 就拿最早的计算机 india 来说吧,那家伙简直就是个怪物,塞满的整个房间全是真空管和电缆,又大又慢,根本谈不上什么扩展性。 但是后来怎么样了呢?晶体管出现了,然后一切都变了,一场革命就这么开始了,计算能力就从那种占满整个屋子的庞然大物,一路净化,最后塞进了我们现在口袋里的手机里。 所以说,现在的人工智能硬件缺的就是这么一场革命。那么今天 ai 硬件里的那个伊尼尔克, 它的问题出在哪儿呢?核心啊,就是一个技术瓶颈,叫做内存计算鸿沟,简单说就是存数据的地方和处理数据的地方是分开的 啊。这时候,一家叫坦拉斯的公司就登场了,他们觉得要想让 i a i 真正普及,就不能再走老路了,必须得换个思路。他们的想法呢,主要建立在三大核心原则上, 这三个原则说实话,每一个都挺颠覆的。第一,叫完全专用化,意思就是别用通信芯片了,给每一个 ai 模型量身定做最适合它的芯片。 第二,融合存储与计算,就是要把存数据和算数据的部分做到一个芯片上去,把那个红勾填平,最后彻底简化,把整个硬件重新设计一遍,把那些又复杂又贵的东西都扔掉。 ok? 听起来很厉害对吧?但光说不练假把式,这个想法到底行不行呢? taylor 直接用产品说话了,他们发布了第一款芯片来证明自己。 结果怎么样呢?我跟你说,他们的第一款芯片速度快到吓人,单个用户每秒能处理一万七千个 token。 一 万七这个数字可能大家没概念,没关系,我们来比一下你就知道了。 大家看这张图就非常直观了, teles 的 这个速度根本不是快了一点儿半点儿,它直接把行业巨头们最牛的技术甩在了后面,快了将近十倍,这简直是降维打击啊! 而且最关键的是什么?你可能会觉得这么快的速度成本肯定很高吧?恰恰相反, 他们不仅实现了性能的飞跃,智造成本还低了二十倍,功耗也少了十倍,这才是最厉害的地方。那他们是怎么做到的呢?在他们的第一代芯片里,用了一种技术,叫激进量化, 当然了,这个技术也不是完美的,他可能会对模型输出的质量有一点点影响。不过泰勒斯自己也挺坦诚的,他们承认这个问题,而且已经想好办法了,准备在下一代芯片里就解决掉。 好,那接下来他们打算怎么走呢?我们来看看他们的路线图,看看这个小目标是怎么一步步变成一个大平台的。你看他们的计划非常清楚, 现在已经有了基于 h c y 芯片的拉玛模型,然后今年春天会上一个中等规模的模型,到了冬天,更厉害的要来了,他们会用上更快的第二代 h c 处芯片,推出一个前沿大模型。 这句评价我觉得特别到位。现在很多搞高科技的初创公司都喜欢搞人海战术,跟打仗似的。 但 talas 不 一样,他们团队不大,但非常专注,就像搞外科手术一样,进行一次精准打击,专门解决大公司那种靠砸钱砸人解决问题的蛮力模式。 聊了这么多技术,咱们回到最根本的问题,这玩意到底有什么用?对于我们这些开发者,或者说未来想用 ai 做点东西的人来说,这一切到底意味着什么? 它的意义可太大了,我们终于可以解锁那种真正及时的 ai 了。你想想看,跟 ai 的 互动能像我们思考一样快,那是一种什么体验? 各种以前觉得不切实际的应用,比如需要毫秒级反晕的智能体,现在都变得可行了。而且开发者再也不用为了巨大的资金或者复杂的工程头疼了,可以放开手脚,用几乎零成本去尝试各种新想法。 所以最大的价值就在这儿。它拉斯做的就是把那种即时的而且成本超级低的智能直接放到了开发者手里,以前束缚 ai 创新的那些枷锁一下就被打破了。 所以最后这个问题也留给大家,留给每一位创造者和开发者。如果 ai 的 速度真的不再是问题,沉稳也不再是门槛儿,你会用它来创造点什么呢? 二零二六, ai 重塑世界,复合型人才将引领未来!具备深度业务洞察,精通前沿 ai 技术,拥有卓越创新能力。 a g i to b 专业 ai 学习平台,提供系统课程、实战项目与精英社群。

这是念 tax 吗?赵神运动又来了,他横空出世,很有可能对芯片行业形成一个降维打击,目前大家还在观察他的一个性能跟大规模运用的可能性,一旦落实,那我们大 a 很多股票的估值要大打折扣了, 明天我们就开工了。如果 ai 芯片方向有急跌,我觉得大家不要急着抄底,先让子弹飞一会吧。

兄弟们,最近很火的那个塔拉斯芯片简直太牛了。来啊来,兄弟们,不要眨眼,这个世界上最快的模型它出现了。来啊, 零帧起手有没有?哇塞,简直就是一秒零帧出答案。对比英伟达 h 两百来说,它拥有七十三倍的性能优势,三十八倍的成本降低和十倍的能效提升。再让我们来看一下性能对比,这是塔拉斯芯片,这是英伟达 h 两百, 这是塔拉斯芯片,这是因为达两百。 ok, 让我们来看一下这个,呃,成本对比,我去,这是因为达,这是塔拉斯芯片, 这妥妥的就是价格屠夫。那他其实提出了一个颠覆性认知,叫做模型及芯片。芯片及模型,那以往我们的 gpu 跑 a i 其实就像做题一样,他需要去图书馆翻书,然后再将书还回去。那现在来说的话就是塔拉斯芯片将 斑马三点一八 b 模型直接镶嵌在了这个芯片上,也就是做到了模型和芯片合二为一,数据不用在内存和处理器之间来回搬运,而是说啊,直接在 这个硅片上直接光速漂移,其实从一定意义上我觉得是实现了从同文计算机到专用大脑的一个转变。大家现在也会发现一个问题,就是随着大模型更新迭代速度越来越慢,以及说随着 呃我们对模型的一个粘性越来越高,那是否未来三年之后,可能我们买的一个笔记本手机,甚至咖啡机里面都有这么的一个 ai 硬件镜片,就是能它能做到的,它不需要云端部署,也不需要调用 api, 而是说它插电就是 gpt 级别的 ai 助手。 但其实呢,这块芯片的代价就是说他目前只能训练拉玛三点一模型,而不支持其他模型。那大家觉得这种专一但极简路线能否打败英伟达的通用的昂贵呢?评论区留下大家的想法。

兄弟们,这是用弯道超车英伟达吗?就在刚刚,一家二十四人的初创团队造出了一款芯片,是英伟达芯片性能的二十倍,你敢信?这款芯片的核心原理就是将大模型收 入在整块芯片上,从而降低传输损耗,提高性能。它 tko 总的输出效率高达两万每秒,对比目前最先进的 h 两百,也 最多才两千头克每秒。这原理就像我记得之前在私募做的时候,他们一些交易员为了提高速度,把交易软件烧在网卡上,使得去提升整个交易的流畅程度与响应速度啊。但是目前来说这款芯片还是有一些缺点,那就比如烧制的模 型不能变,而且现在目前烧制的是兰达的八 b 模型,但是这依然不影响给咱们自己的芯片公司一条弯道超车的路啊兄弟。

大家好啊,最近这段时间在西方的 a 圈里边讨论最多的这是一个小公司,就在前天,这小公司叫 ta 泰拉斯啊,不是特斯拉,是泰拉斯 t a a l a s t a。 这家公司呢,搞了一个事啊,他们把 ai 的 模型直接刻在了芯片上。然后呢,大家也要知道,无论是 deepsea 还是 gpt 啊,包括你现在说最火的这几家的,像千问啊,它们都是在模拟的参数运损,模型参数运行在内存里啊, gpu 像勤劳的搬运工是吧?每秒几十万次的从内存搬数据到计算单元,然后算完再搬回去。 这个搬运的过程就是治理 ai 的 一个重要的终极瓶颈,叫做内存强啊,无论英伟达的这个芯片有多强,百分之九十的能耗和时间都浪费在这个内存搬运上了。 然后 tiktok 这家新征程公司,它的解决法非常简单,搬运数据慢,我就把模型刻上去了,别搬运了对不对?他们把里尔玛三点一啊,这个八 b 的 小模型,全部参数通过光刻工艺,直接变成了规片上的物理电路。 看一下,以前模型是存在硬盘里的文件,需要播放器来解码,那现在呢,它变成一张黑胶照片,文字本身就是音乐。 芯片上的每个 g d 管对应的模型的一个权重或参数,电流通过就在进行推理计算。这种硬连线的架构呢,使得打破了相关的底层的依赖啊,数据和计算不分离,模型本身就是计算机,结果内存将消失了, h b m 的 高带突然不需要了啊,夜冷散热也省了,一张二百五十瓦的芯片跑出了一个比整机柜 g p u 还快的速度,推理速度一万七千个 toc 每秒。 这玩意有一个大问题,因为模型很多时候都不断在更新嘛,它把它刻在芯片上,明天出了新的新模型,怎么办?这个事呢?它做了一个什么呢?做了一个模型编辑器啊,能把手机网络呢自动翻译成芯片的电路。传统的 asic 的 设计,要流片要两年,当压缩要两个月,也就是说它可以两个月迭代一次这个芯片, 两个月迭代一次芯片,而且只改芯片最上层的两层金属眼膜,成本呢,也就大幅降低了啊。他们逻辑呢?一个大模型的推理呢?超过十亿美元的时候,让花两亿美元单独做一块芯片,只要节省百分之二十的推理的费用,实际上他们号称能节省百分之九十啊,这样开始一个全新的一个概念,软件定义硬件。 所以呢,这个情况,但是这里面会有什么?如果说推理速度提到一万七千个通通每秒,那很多模型就可以推到一个非常高的水平。当然这个是一个非常小的八八 b 的 一个小模型,但是如果你把一个比如二百三十五 b 的 一个大模型扣进去的话,那可能一个芯片可能会非常的大,但这是一条路啊,是一条测试的路, 但这个后面代价也是非常大的,对不对?一个是他除了推理速度以外,其他的准确度特别低,因为他这个非常小的模型。另外一个他每一次都要重新去做芯片,每一次升级都是做芯片的过程。这个思路属于什么呢?属于集市的这样一个架构, 他是极致的硬件,但后续东西可能对他就不是很有利了。你新的一些架构出现的话,那你要重新去设计个芯片,那你费的时间和相关的对后续东西的探索就更加的离谱啊,再加上我们现在的很多的芯片很可能要换方向啊,那这个事怎么办?是吧?有一些东西他现在还在 传统的传送门上,那其他的深度的 m o e 怎么办?他那个用的三点一码是传统的传送门,还没有涉及到 m o e 那 些怎么办?都有很多很多的问题,可能这条路走不通,但它只是一个测试,那这条路也是给我们提出更多的一些思考的方向,我觉得还是有价值的。 好吧,简单跟大家说一下啊,有朋友说老张你的会员视频很多都压住热点了,是很多朋友还很高兴啊,到哪看?关注我们的小程序,奥德豆豆与瑞克。老张科普课啊,这小程序赶紧到里边看好不好?我们现在正好年度会员,咱们的特价幺六九九九九啊, 这个要特价,现在那个平台给的补贴的,咱们还有几个名额,所以需要的赶紧。咱们这个年度会员,一年一百八十以上的会员视频,三十二场以上会员直播,所有转来免费看啊,现在咱们的阅读会员特价正在开啊,咱们到三月十五号结束 啊,阅读会员呢?幺幺九,原价幺九九的啊,除了时间,其他的跟年度是一样的啊。一个月咱们是十到十五个会员视频,这个两到三场的会员直播啊,所有需要包括之前的视频都能看。好,今天就到这,我是瑞小张,关注我带大家看中国科技的高度和温度,我们下期见,拜拜。