粉丝1075获赞1.8万

腾讯近期通过日本服务商的第三方云端服务取得英伟达最新 gpu 的 预算资源。该服务商近期将采购一点五万颗英伟达 flago gpu, 并不属于日本大阪与澳洲悉尼的数据中心。 英伟达发言人表示,现规则允许企业在受管制国家以外地区建制并营运云端服务。该事件已经引起美国政府关注。

你是否好奇过,像叉特 gpt 这样的 ai 模型和自动驾驶汽车为何能拥有惊人的运算速度?这不仅得益于智能代码, 更离不开专为易购计算设计的特殊硬件。今天,在知识中心,我们将深入解析英伟达 h 两百等 ai 芯片的运作机制。先从基础说起,传统 cpu 就 像全能型办公室职员,擅长多任务处理和通用计算, 但在深度学习领域却力不从心。这是因为 ai 任务需要海量并行计算,同时执行数十亿次矩阵乘法和张量运算。 gpu 正是为此而生,其内部集成的数千个微核可同时处理多路数据流, 这种被称为大规模并行处理的原理使其成为神经网络训练的理想选择。这类任务需要对数百万数据点进行统一运算,基于 hopper 架构的英伟达 h 两百 gpu 将这一技术推向全新高度。 芯片内部集成超过八百亿个晶体管,精心排列成流式处理器,其中包含专为 ai 数学设计的张量核心。 这些张量核心能处理 f p 八 b f 一 六、 f p 三二等混合精度计算格式,在速度与精度之间取得完美平衡。其中, f p 八八位浮点技术在保持模型质量的同时,实现了更快的运算速度和更低的功耗, 这对 g p t 四 gemini 等大型 ai 模型而言堪称革命性突破。现在,让我们来谈谈真正的瓶颈内存性能。 h 两百是首款配备一百四十一 gb 次世代 hbm 三 e 显存的 gpu, 其带宽高达每秒四十八 tb, 几乎是前代 h 一 零零的两倍。这种超高速内存让 gpu 能近乎实时地将数据传输到核心, 大幅降低训练和推理过程的延迟。换句话说, h 两百的数千个核心可以始终保持忙碌状态, 无需等待数据传输,但这类芯片在 ai 数据中心中很少单独使用数百甚至数千个。 h 二零零通过英伟达的 nv link 和 nv s 交换技术互联,形成所谓的 gpu 级群。 envilink, 实现了 gpu 之间超高速、低延迟通信,使它们如同一台巨型分布式超级计算机协同工作。这正是 openai、 antropic 和谷歌等公司通过数万亿参数训练模型时 多 gpu 协同工作、数据闪电传输的原理。那么问题来了,为何像 h 两百这样的 ai 芯片比普通芯片性能更胜一筹?这些芯片专为人工智能领域量身打造。普通 cpu 虽然在逻辑运算和分支任务上速度不俗, 但受限于核心数量和顺序处理能力。相比之下, h 两百芯片能同时处理数万次运算,显著提升矩阵乘法、 卷积运算和注意力机制等现代神经网络核心任务的处理效率。更值得一提的是,它配备了专用张量核心、海量内存宽带以及 ai 优化软件站,打造出专为智能计算而非通用计算设计的芯片。在这场竞赛中, h 二零零并非孤军奋战, 竞争对手包括 amd 的 instinkme 三零零 x 芯片,该芯片采用一百九十二 g bps 的 hbm 三内存,专为大型语言模型优化。还有谷歌专为谷歌云 ai 工作赋在定制的 tpu v 五 p 芯片。

今天我们要讲的是一个强化学习的新方法,叫做 g d p o, 这个方法可以解决在多奖赏的情况下,奖赏信号会塌缩的问题,从而让模型能够更好的对齐人类的偏好。听起来很有意思啊,那我们就直接开始吧。好的, 咱们先来谈谈为什么现在大家对于大型语言模型的行为有越来越高的期待,然后以及为什么多奖赏的强化学习会成为一个研究的热点。其实主要是因为现在的这个语言模型能力越来越强了,大家就不只是要求他回答的对, 嗯,大家还希望他的回答能够符合人类的各种偏好,比如效率啊,安全呀,逻辑一致呀,没有偏见呀等等,这些东西都要同时满足,所以这就很有挑战性。对,确实是这样,那为了应对这个挑战,现在大家在技术上面有什么新的动向呢? 目前最主流的就是用强化学习来让这个大模型去对齐人类的偏好,而且是同时用多个奖赏信号, 每一个奖赏信号负责引导一种偏好,嗯,这样的话就可以让模型的行为更贴合我们的期望。哎,那咱们接下来要聊的就是这个 g r p o 在 多奖赏的强化学习里面会遇到什么问题,对吧? 然后为什么会出现这个奖赏他缩的情况?就是最近有很多研究啊,虽然在设计各种新的奖赏函数,但是呢,在优化的时候都是直接用的 g r p o。 对, 但是他们都没有考虑到 g r p o 其实本身并不适合去处理这种多个不同类型的奖赏组合啊,原来这里面有个适配性的问题。对,那直接用 g r p o 会有什么后果呢?如果直接用的话,就会导致不同的奖赏组合 在经过标准化之后,会收敛到相同的优势值。啊,那这样的话就相当于你的训练信号变得非常的粗糙。嗯,模型就很难去区分到底哪些行为是真正被偏好的,所以就会导致策略更新不准确,然后奖赏也没有办法收敛, 甚至有时候还会造成训练提前终止。没错,我还有个疑问啊,就是这个 g d p o 到底是怎么解决多奖赏强化学习里面的这个奖赏塌缩的问题呢?是这样的,就是 g d p o 它其实是对每一个奖赏都单独做了一个组内的标准化, 对,这样的话就可以保留不同奖赏之间的差异,然后他再做一个批次级别的优势标准化,就可以防止因为奖赏的数量增加而导致的数值范围的爆炸。嗯, 所以它这个整个的流程是可以让训练更加的稳定,然后收敛也会更可靠。明白了,那咱们来进入今天的核心内容吧,就是这个 g d p o 到底在各种不同的任务上面表现怎么样?我们在三个比较有代表性的任务上面做了比较,包括工具调用、数学推理,还有代码推理, 然后评估了很多指标,比如准确率、 bug 率、格式是否正确,长度是否符合要求等等。听起来很全面啊,那具体的结果怎么样呢? g d p o 是 不是真的比 g r p o 要好?结果非常明显,就是在所有的这些任务和所有的这些评估标准上面, g d p o 都是稳定地优于 g r p o 的 哦。比如说在工具调用这个任务上面, q n 二点五 instruct 这个模型,它用 g d p o 训练之后,不仅准确率更高,而且生成的格式也更加的规范。 然后在数学推理上面, deepseek r e 一 点五 b 和 q n 三四 b instruct 这两个模型,用 g d p o 训练之后,在 a i m e 数据集上面,准确率分别提升了百分之六点三和百分之二点三 哇,同时呢,还能更好的控制答案的长度。这些都充分说明了 g d p o 是 一个更有效,然后泛化能力更强的一个方法。是的, 那 g d p o 到底有哪些创新点呢?首先就是我们发现了,如果用 g r p o 去做多奖赏的强化学习的话,会导致奖赏组合塌缩到同一个优势值上面,对, 这样的话就会减弱你的学习信号。然后我们提出了 g d p o, 它是一种啊组内的奖赏解偶标准化的方法, 它会单独的对每一个奖赏进行标准化,所以它可以保留奖赏之间的差异,从而让多奖赏的优化变得更精准。这确实是一个非常大的突破。那除了这个方法本身,你们还做了哪些相关的工作? 我们还系统地整理了调整奖赏函数和设置奖赏权重的一些方法,然后在工具调用、数学推理、代码推理这三个任务上面,对 g d p o。 做了非常全面的评估。嗯,结果都表明, g d p o。 确实在训练的收敛性和模型的最终表现上面都要优于 g r p o, 而且它可以更好地对齐多种偏好。好的,今天我们聊了为什么多奖赏的强化学习会遇到这些问题, 然后又聊了 g d p o 这个新的方法是怎么来解决这些难题的,并且在各种任务上面都取得了更好的结果。没错,那我们这期节目就到这里了啊,感谢大家的收听,我们下次再见吧,拜拜。拜拜。

本节目引用 v h 点 p 六二零显卡和以糖和林烨赞助播出,话不多说,双硬卡怎么打上驱动不再追溯,我们直接上 p 二六零显卡和 v e o 显卡同时调用,教程 非常的简单,甚至是突破达芬奇只有单卡才能正常地显示的 bug。 先看一下演示。首先来到 windows 显示器设置里面, 高性能显卡系统默认选择 v 十 o, 达芬奇,应用选择高性能,总之选择 v 一 u 就 对了,不管是特定还是高性能, 打开达芬奇,找到偏好设置,找到内存和 gpu, 取消勾选,自动取消勾选 p 二六零显卡,仅仅勾选 v 一 百教程完了,正常预览不黑屏,达芬奇里面 ai 工具也正常调用, 但是如果你勾选自动的话,所有压力都会来到 p 二六零显卡上, v 十 o 的 三 d 占用和解码器几乎为零占用, 并且达芬奇导出媒体其实占用靓机卡的显存非常之多,更何况是使用特效,至少需要三点五 g 显存的靓机卡显卡才能没有瓶颈, 不然会像这种使用快速预览来模拟特效情况下会非常鬼畜。基本上压力全在 v 一 百上,会卡成 ppt, 有 概率会出现掉驱动卡死黑屏等情况。但是如果选择四 g 的 英伟达亮机卡就不值当了。 当然我们还发现一些热门现象存在。首先是上一期评论解答,为什么同样英伟达靓机卡也会预览黑屏和 d x 十二有关?如果是驱动支持的非原生 d x 十二, 可能会在本身就有双卡 bug 的 达芬奇下出现不支持。第二种情况就是我使用的是 quadro 立台显卡,专业渲染,所以本身就有特性识别。第三种为什么 amd 支持不了?可能是达芬奇走的 q 的 渲染有关, a m d 都不支持,要用双卡支持走 oppo 模式。为什么说不需要二克显存的靓机卡?因为无头卡使用靓机卡进行画面渲染和真回传,需要特定显存占用,分辨率越高占用越高,不附在情况下占用一个 g, 靓机卡在有负债情况下是一点五 g, 导出超级负债是需要一点八 g, 这还是在有 q 的 情况下。我测试的两张靓机卡保持了惊人的一致性, 在使用网易悠悠串流破解 amd 显卡达芬奇时,占用显存更低,零点四 g 似乎负债会跑到 v 一 百和 cpu 上。 如果使用串流的方式完全就禁用靓机卡也能发挥 v 一 百正常视频剪辑性能。当然,双按卡 amd 加 v 一 百或者串流无头 v 一 百都带来一个问题,三 d 性能看心情跑。再通过四 k 两分钟视频的导出 可以发现, p 六二零需要五十二秒时间导出视频,而 rx 五八零仅仅需要三十七秒,这还不够。 而破解的 a m d 加 v e 百也只需要三十八秒左右,这说明整个渲染全跑在 v e u 上面,直接禁用 a m d 也是一样速度。那靓机卡的显存占用应该完全是为了渲染给人类看, 但是你觉得二 g 的 显卡够用就大错就错了。还有许多软件需要 open go, 恰好双卡都能用到这种东西,比如剪影、 pr, pse, blender, 还有一些三 a 游戏, 靓机卡二 g 就 代表你不能一边渲染一边玩游戏,在开启达芬奇 opengle 模式之后,可以发现双卡的显存占用都突破二 g, 完全打破 qda 的 显存占用, 在四十八秒之内渲染成功。从结果而言,至少靓机卡大显存不是 amd 支持 dx 十二,应该是达芬奇想使用 v 一 百的标准准则,其他的性能和带宽差距不大,似乎可以发挥更好的效果。 本教程彻底结束,等过几天更新 v 一 百和 amd 用达芬奇的第二版教程三连通。

deepsea 又来掀 ai 圈的桌子了,新发布的论文里的算法不仅能让 ai 砍掉百分之九十无效计算,更炸裂的是,他们竟用廉价的 cpu 内存替代天价 cpu 显存来存储知识,成本直降数十倍。进入正题前,先问下,你知道 ai 模型有多笨吗?当 你问他莎士比亚的全名是什么,他居然要动用好几层神经网络,通过复杂运算拼凑出答案,而不是直接查字典。但如今, deepsea 终于帮 ai 装了个超大脑外挂,直接用 cpu 内存替代 cpu 显存,这波操作简直是要把英伟达的饭碗都给端了。 先说个冷知识, deepsea 创始人梁文峰是个从量化圈跨界来的技术狂魔,他一手打造的幻方量化曾是千亿规模的巨头。然后他把赚来的钱全部砸进了 ai 研究。二零二五年一月,他带的 deepsea 二一,直接把推理成本打到了 open ai 的 三十分之一,逼得全球大模型集体降价,大家都叫他 ai 界的拼多多。 但这次梁文峰的野心更大,他想解决一个困扰 ai 行业十年的问题,大模型太爱瞎算了。举个 deepsea 训练论文, via scalable lucap 里的例子, 当模型遇到 diana, princess of wills 时,前两层只理解这是 wills, 第三层才意识到是 princess of wills, 直到第六层才确认是戴安娜王妃。就 像让博士生去背新华字典,明明能直接查,非要用复杂计算去猜。所以 deep sec 搞了个叫 ngram 的 新模块,简单说就是给 ai 装了个超级字典,它用的是 ngram 这种最古老的技术,但搞了个现代化升级,通过哈歇函数把局部上下文印设到一个巨大的嵌入表里,实现长数时间解锁,快到几乎不用等。 但最狠的是, deepsea 在 这篇论文里玩了个大的,他们把这个超级字典放到了 cpu 内存里。要知道,以前跑大模型得买好几张昂贵的 gpu 显卡,光显存成本就压得中小企业喘不过气。但 ngram 的 解锁逻辑完全由输入 tock 决定,一旦看到输入文本,就能立即知道要访问哪些数据,不需要等待中间层的计算结果。这意味着可以在 gpu 开始计算之前,就把所有需要的嵌入向量从 cpu 内存里运取到 gpu 上。 deepsea 的 实验数据非常硬核,他们把一个一千亿参数的巨型安罐表完全扔在 cpu 内存里,推理吞吐量只下降了不到百分之三,在实际使用中基本感觉不到差别。 这意味着什么?以前你想跑千亿参数模型,可能需要几张 a, 一 百八十 gb, 现在你可能只需要一张消费级显卡,负责计算,再插上几根便宜的六十四 gb 内存条,负责存知识,就能跑起来。这下不用担心英伟达在二零二六年上调 gpu 价格了。 说到这,你应该知道为什么大家都在猜 ngram 可能是 deep sec v 四的核心技术了吧。最近外媒爆料, deep sec 要在春节前后发布, v 四主打超强代码生成能力,内部测试显示,编程表现已经超越了 gpt 和 cloud 系列。如果 v 四正如爆料所说,代码能力吊打全场,那一定是因为它解决了越写越笨的问题。 代码里包含大量固定的语法和套路,没必要每次都去推理一遍。 ngram 论文里的实验数据确实印证了这个说法,在 summo 上提升了三分, max 提升二点四分,长文本任务的多查询 nih 测试准确率从百分之八十四点二飙升到百分之九十七点零, 这相当于把 ai 从指挥背书的学生,变成了既能背书又能解析的学霸。其实, deepsix 这波操作暴露了中国 ai 的 一条独特路径, 不跟在 open ai 后面拼参数规模,而是靠架构创新实现换道超车。你看,从 v 二优化推理效率,到 v 三升级 mo 一 稳定性,再到 r 一 登上自然封面,现在又是 ngram 和 mhc 架构, deepstack 几乎每个月都有新技术发布。 梁文峰说过一句话,我们不需要弯道超车,因为根本不在同一条赛道上,真正的创新是开辟一条新路。而且 deepstack 的 开源策略也非常硬核, 不仅模型开源,连训练细节都写得清清楚楚,他们还把所有训练管线失败尝试全部公开, 这种透明度在 ai 行业极其罕见。这种开放态度,让 deepsea 建立了自己的技术生态护城河。截至二零二五年九月, r e 模型在 howkingface 的 下载量突破一千零九十万次,全球开发者都寄予他做二次开发。英伟达 ceo 黄仁勋甚至在 ces 二零二六上公开说 deepsea 激活了整个开元 ar 运动。 突然觉得这件事有点浪漫。一个从量化圈出来的技术狂魔,带着一群不到两百人的团队,硬是靠着架构创新,在 ai 这个被巨头垄断的赛道里杀出了一条血路。他们不是靠堆算力,而是靠更聪明的算法, 不是靠封闭垄断,而是靠开源共享。现在他们又给了 ai 一个超级字典,让模型终于能分清什么时候该背书,什么时候该思考。 等到春节前后 v 四发布的时候,也许我们能看到一个全新的 ai 格局,不是比谁的显卡多,而是比谁的架构更聪明。不是比谁更封闭,而是比谁更开放。这股来自东方的神秘力量,还能带来多少惊喜,我们拭目以待。

老黄的英伟达显卡帝国目前正遭受前所未有的挑战,这不是噱头,也不是博眼球。今天 cnbc 最新的一则新闻报道向我们揭示了整个 ai 硬件领域的底层逻辑正在发生根本性改变。经常和 ai 程序打交道的朋友一定熟悉 pie torch, 它最早由 meta 开发并受到广泛使用,现在已经成为了几乎所有 ai 软件的标准公共语言。你可以把它理解为 ai 平台最重要的中间件,而且你目前所熟知的几乎所有 ai 产品都基于它在运行,比如 comfyui、 千问和 deepseek。 下面的这张图解释了 pie torch 的 基本工作原理。 pi torch 在 整个 ai 运算中紧密连接了前端 ai 应用和后端硬件。而在过去, nvidia 的 kuda 芯片在对 pi torch 的 支持方面一枝独秀。在 github, 你 看到几乎所有 ai 程序都会指定 kuda 作为后台应用, 但是这一切正在被其他竞争者打破。最近,谷歌的 gemini 三成为了最热门 ai 大 模型,但是支持谷歌新模型的后台硬件并非 n vada 的 算力显卡,而是自研的 tpu, 功耗更低,效率更高。感兴趣的朋友也可以看一下之前我发布的谷歌 tpu 芯片曝光图, 而且谷歌已经明确表示,下一步的目标就是让自家的 tpu 芯片原生支持 padwatch, 最终实现 ai, 和硬件无关,这将直接威胁到 n vada 的 护城河。 除了谷歌之外, amd 也一直在和 openai 合作开发下一代的算力显卡 mi 四五零,以 amd 的 实力实现硬件性能突破绝非难事。 而苹果今天也抛出了重磅更新,采用基于雷电五的 r dma 技术,实现跨多台 mac 的 超低延迟通信。 简单来说,可以用雷电五接口轻松串联多台 mac 主机来共同运行体积更大的大语言模型。目前在油管已经有多位主播在直播相关测试, 已经可以轻松运行满血的 deep seek v 三点二版本以及 kim k 二。展望今后的 ai 硬件发展趋势,目前的这些挑战者还无法完全撼动 nvidia 在 整个行业的领先优势。相反,在多卡携同大规模并行训练的场景下, nvidia 仍占据领先优势。 而且在产品成熟度上,新发布的 ai 应用程序也必然会以枯燥环境作为最稳妥的选择。但我们可以预见,在不久的将来, ai 领域的硬件选择将会呈现多样化,成本会持续下降,选择更多且成本更低,这对整个 ai 领域的发展将具有极大的推动作用。


天下苦,英伟达久矣。刚刚 c e s。 大 会上,苏兹峰硬刚黄仁勋抛出了一个极其反直觉的判断,他认为 ai 的 下一个万亿级市场不在云端,而在你的手机 pc 上。他的整个演讲围绕边缘计算革命展开。第一个中磅炸弹就是 rezen ai 四百处理器, 算力高达六十 tops, 这意味着这颗芯片的神经处理单元每秒钟可以进行六十万一次操作。它不再需要联网,不再需要把你的个人隐私照片上传到云端的服务器。你的笔记本电脑本身就是一个超级大脑, 它采用了 amd 最新的 z 五 cpu 架构、 rdna gpu 架构,以及专门为 ai 设计的 x dna 二代 npu 架构, 这三个一体的组合让他在处理多任务时游刃有余。现场演示了一台搭载 ryzen ai 四百的轻薄本,一边在后台运行着实时的语音转文字会议记录,一边在帮用户渲染一段复杂的四 k 视频,同时在本地还运行着一个私人法律顾问大模型,回答着复杂的合同问题。 整个过程行云流水,没有任何卡顿,而且完全没有联网。这就是苏兹峰想卖给你的未来,一个不需要依赖云端安全、隐私且极度强大的智能伙伴。他锁定了内容创作、商业应用等最核心的生产场景,并宣布预计将有超过一百二十款搭载该芯片的设备上市。 接着第二个重磅炸弹是 ryzen ai halo, 它采用了 c p u、 g p u 与 n p u 的 统一内存架构,支持在本地运行高达两千亿参数的大模型。两千亿参数的模型意味着好几张英伟达的专业级显卡搭建的卡式工作站,光是电费和散热噪音就足够劝退百分之九十九的开发者。 而现在,苏兹峰把他塞进了一个便当盒大小的设备里,专门面向开发者和初创公司。他在告诉这群最富有创造力的人,拿着 amd 的 小盒子,在家里就能训练和微调顶级的 ai 模型。苏兹峰知道在高端数据中心短期内很难撼动英伟达的地位,所以他选择了一条农村包围城市的道路。 他把算力的门槛儿降到了地板,把开发的自由度交还给每一个普通人。第三个众望炸弹就是李飞飞和他的独角兽公司 world laps。 苏自锋展示了 world laps 基于 amd instinct 加速器生成的可交互三 d 世界。当别人还在卷文本和图像, amd 已经在压住空间智能,为物理世界、机器人和自动驾驶而生了 ai。 第四个重磅炸弹,与 leku ai 联手发布了 lfm、 二点五和 lfm 三系列模型。英伟达之所以强大,是因为现在的 ai 主流架构是 transformer, 这种架构天生就适合英伟达 gpu 的 并行计算。 但是 leku ai 受的是非 transformer 架构,它的模型采用了全新的算法逻辑,不仅更小更快,而且能让多模态 ai 在 pc、 手机甚至是机器人等终端上实时运行,效率远超传统模型。 杜子锋这一招可谓是釜底抽薪,他在扶持一种全新的算法生态。在底座,他有像 ten yata flops 进军的 m i、 三二五 x 和正骨架构,保证高端算力不掉队。在中间层,有 passando plora 解决网络传输,有 ryzen ai heroes 降低开发门槛,把路铺平。在应用层,他通过拉拢 world labs 的 空间智能和 lequake ai 的 新架构,探索绕过英伟达护城河的新航路。这是一个全站式精心设计的包围圈,这次他在主动定义未来。

好多粉丝追着问,巴卡,五零九零服务器到底能用来干啥?这台性能猛兽可不是普通主机,更像一只火力全开的算力怪兽。多卡协调发力,能把复杂任务拆解的又快又稳。从参数来看,他凭借多 gpu 并行架构,能轻松扛起高富帅运算,不管是海量数据吞吐,还 是复杂模型训练,效率都远超单卡设备。实际应用中,它更是多面手。 ai 领域能加速大模型训练与推理,让算法迭代快人一步。影视行业可高效完成特效渲染、大幅压缩成片周期。科研场景能支撑分子模拟、天文演算等复杂项目,就连工业设计的仿真测试,它也能轻松搞定。假如你拥有这台服务器,你会用来干什么?

家人们,英伟达官方高调宣称, q 大 十三点一正式上线,这是自二零零六年以来最大最全面的升级,号称二十年最大更新。 q 大 十三点一最核心的变化就是把手动挡换成了自动挡。新的胎瓦片模型 上,编辑器接管底层工作,开发者只需要告诉系统这块数据怎么分块运算就行。开发者狂喜,老显卡用户却有点扎心。打个比方,以前做饭,对自己买菜、切菜、炒菜,现在直接把食材和菜谱交给厨师长,你等着吃就行。这种转变可不是 简单的技术优化。 green context 专制算力抢单,它能把 gpu 的 s m 核心拆分成专属分区, 给关键任务划个 vip 专区,剩下的再分给其他任务,互不干扰,多进城服务。还加了内存局部性优化。当快 blackwell gpu 能虚拟存多个独立设备,多任务并发时,内存访问效率飙升。以前调试 q 大 代码遇到 type 内核问题根本摸不着头脑。现在 nisei com q 直接适配 type 内核分析,能看到数据块利用率性 性能瓶颈、精准定位问题。还有 tesla 科尔仿真高精度印刷,听着香,但延时和功耗会不会增加?官方梅西说非,等开发者实测踩坑。只能说英伟达这波是逼着大家换新款国产芯片,还要追赶多少年呢?

一分钟算力行业知识最出圈的算力硬通货。他本是为游戏而生,却因为三个优势成为了算力行业的热门,价格亲民、随处可得,且拥有最庞大的开发者生态。他所拥有的库达核心和 tensor core, 使他在处理复杂并行计算和 ai 运算时效率极高。顺着时代的浪潮, 他扮演起普惠型 ai 加速器的角色,成为了无数创业者、研究员和开发者进入 ai 世界的算力入场券。 它的核心战场是中小规模推理与创作,比如大家常用的文声图图、声图功能、边缘 ai 服务器、个人研究者和中小企业进行大模型的微调、精调以及中等规模模型的训练。如今,面对需求巨大的算力市场, 许多算力租赁服务商将大量 rtx 四零系、五零系卡从四扇吹风的风扇卡改造成向后直排的涡轮卡,使得多张显卡能紧密堆叠、稳定地塞进机架, 也就是集群化后,在宜远低于 a 一 百、 a 七一百等旗舰级数据中心专用卡的实租价格提供给开发者、初创公司进行模型训练、微调推理和学术研究。那么,面对众多型号,该如何选择? 三零九零、四零九零、五零九零都有什么区别? h a 系列又是什么?我们将在后续的几期里帮大家理清。关注我们带你看懂算力行业。