NVIDIA 宣布推出自 2006 年 CUDA 平台问世以来最大的一次架构性革新：CUDA 13.1 版本中的 CUDA Tile。#GPU世界#CUDA

cuda13.1 发布时间

21

1

9

2

举报

发布时间：2025-12-13 08:26

粉丝4097获赞6.7万

相关视频

04:53
NVIDIA放大招！20年最强CUDA 13.1来了！ NVIDIA放大招！20年最强CUDA 13.1来了
12月7号，NVIDIA正式发布了CUDA 13.1。官方都直言，这是2006年CUDA诞生以来，最大、最全面的一次升级——不光把GPU编程的玩法给改了，还通过好几层技术升级，把自己的生态壁垒筑得更厚了。
核心狠活：CUDA Tile编程模型，让编程门槛直降！
这次更新最亮眼的就是新出的CUDA Tile编程模型，标志着GPU编程终于不用再死磕底层了。以前搞GPU编程都得用SIMT（单指令多线程）模式，开发者得自己手动分配线程、优化内存、处理同步这些杂事，门槛高到劝退不少人。
而CUDA Tile是以“数据块（就叫它‘瓦片’吧）”为核心，开发者不用管那些复杂的底层操作，只需要专心琢磨“数据怎么摆”“计算逻辑怎么写”就行。线程调度、内存布局这些麻烦事，编译器和运行时会自动搞定，这感觉就像从“手动挡开车”升级成了“智能辅助驾驶”，省心太多了。
为了撑得起这个新模型，CUDA 13.1还加了个Tile IR虚拟指令集当中间层，不管是新老GPU架构都能兼容。更狠的是配套的cuTile工具，这是个专属的小语言，开发者直接用Python就能写GPU核心代码，不用再啃复杂的CUDA C/C++，也不用搞懂底层的SIMT逻辑。
装起来也简单，敲一行“pip install cuda-tile”就行，不过得满足几个条件：GPU计算能力得是10.x/12.x，NVIDIA驱动要R580以上，Python得3.10及以上。搭配NVIDIA Nsight Compute还能分析性能。值得一提的是，Tile编程不是要取代原来的SIMT，而是两者都能用，开发者看场景选就行。
关键升级：资源管得更明白，速度也飙得更快
除了编程模型，CUDA 13.1还有好几个重磅优化，全是开发者刚需：
Green Context资源隔离：简单说就是能把GPU的流式多处理器（SM）分成独立的小块，给重要任务留好专属资源，避免多个任务抢算力导致延迟忽高忽低。特别是线上服务里又要推理又要训练的场景，这个功能简直是救星。
MPS静态分区增强：新增了按“Chunk”划分SM的机制，Hopper及更新架构里每个Chunk含8个SM，加个“-S”参数就能启用。这样多个人共用GPU时，每个人能拿到的资源更稳定，不用担心中途被抢。
45程鹿虎
02:14
英伟达CUDA Tile 模型：一次编写，未来 GPU 自动适配✅告别 “一代硬件一套代码”！#英伟达 #CUDA #Tile模型 #GPU #编码 #InfoQ @抖音创作小助手
14InfoQ
01:44
英伟达CUDA史上最大更新！Python直接写GPU内核英伟达把CUDA门槛砸了！新一代CUDA 13.1推出全新编程模型CUDA Tile，15行Python代码性能匹敌200行C++，被芯片界传奇人物Jim Keller质疑“自毁护城河”。
#英伟达 #CUDA #GPU #前沿科技
1731量子位
00:11
NVIDIA护城河20年来最大更新！CUDA 13.1正式发布#NVIDIA #CUDA
89硬件世界
00:25
NVIDIA放大招CUDA13.1发布 NVIDIA CUDA 13.1重磅发布！革命性Tile编程模型颠覆GPU计算！#CUDA编程 #GPU编程 #科技前沿 #CUDA
38量子极算
01:03
20 年最大更新！CUDA 13.1能让GPU 开发者躺赢？#英伟达 #GPU #CUDA #干货分享 #算力
11GPU聪哥（智算维保服务专家）
02:28
【英伟达CUDA 13.1！20 年最大更新太懂开发者了，GPU 开发省麻了✨】
GPU 编程圈大事件！英伟达 CUDA Toolkit 13.1 更新，堪称 20 年来最重磅升级～
核心亮点全是实用干货：
✅ 新 Tile 编程模式：不用纠结线程细节，编译器自动搞定硬件适配，代码兼容性拉满，后续换显卡也不用重写
✅ Python 原生支持：直接用 Python 写 GPU 内核，不损失性能，数据科学家不用再啃 C++ 啦
✅ 资源隔离超贴心：能给关键任务单独分配 GPU 资源，不怕被其他任务拖慢，延迟超稳定
✅ 数学库升级：低精度计算更快，还能保证结果可复现，科研、AI 训练都好用
不管是 AI 开发者、算法工程师，还是做高性能计算的朋友，这套更新都能省不少事～新工具链还适配了调试分析，找性能瓶颈更方便！#技术革新 #英伟达CUDA #GPU编程 #AI开发者 #AI算力
查看AI文稿
AI文稿
近日， ai 圈被一枚软件核弹炸开了锅，英伟达正式发布了库达十三点一， ceo 黄仁勋亲自定调。这是库达平台自二零零六年诞生以来，近二十年最大的一次编程模型飞跃。这绝非小修小补，很可能成为我们编辑高性能代码方式的一个分水岭。过去，我们一直被困在 s i m t 模型里，像个硬件微雕师，必须手动管理成千上万的县城，精细控制数据在内存里的流动。为了在每一代新 gpu 上榨干性能，我们常常需要重写大量底层代码，痛苦又低效。现在，库达十三点一带来了一个叫库达太洛的全新模型，它的思路是根本性的转变，你不再需要指挥每一个现城市兵，只需要告诉 gpu 处理这块数据乐高，然后进行某种运算。至于调用张量、核心调度、异步数据搬运，这些底层脏活累活，全部交给一个更聪明的翻译器自动完成，意味着什么？好比以前你需要用接近硬件的语言精密指挥，现在则可以用更高级的思维直接下达指令。官方为此同步推出了 c u t l python 库，让数百万 ai 和数据科学家用自己最熟悉的 python，就能写出直接激发 blackwell 显卡巅峰性能的高效代码，极大降低了对 c 加加和硬件架构知识的依赖。带来的改变可能是全方位的开发效率，模型优化与部署的周期有望从过去的数月缩短到几周甚至更短。代码寿命写一次以图块为核心的算法，在未来数代英伟达 gpu 架构上，可能只需重新编辑就能获得优异性能，维护成本，大幅降低生态门槛。 ai 创新的技术门槛被显著降低，让开发者能从繁琐的底层优化中解放出来，更专注于算法本身和业务创意。系统性升级，这不仅是编程模型的创新，为了匹配 blackwell 等新一代硬件的全部潜力，库达十三点一还是一个系统级答案。它同时引入了诸多绿色上下文等新技术，以解决数据中心多任务干扰的吵闹领域问题，并增强了数学库的计算确定性，让科学计算和大模型调试更可靠。所以，这次更新远不止是新功能叠加，他是英伟达面对硬件日渐复杂和开发者效率瓶颈给出的一套组合拳，通过提升软件抽象层级，把复杂性封装在工具链内部，把简洁和生产力彻底还给开发者。对于这次酷达编程模型的重大演进，你怎么看？你认为它有抽象，会很快成为高性能计算的主流吗？作为开发者，你最期待用它来攻克手头的什么项目瓶颈？欢迎在评论区分享你的真知灼见。
40算泥
08:00
英伟达CUDA刚刚发布了史上最大的一次更新升级！刚发布的CUDA 13.1是20年来最大升级：用"瓷砖式编程"让开发者告别硬件细节，还能给GPU任务划分优先级房间。
相当于给程序员配了个智能管家，写代码更轻松高效了。
NVIDIA CUDA Toolkit 13.1，号称“20年来最大更新”，核心亮点包括全新编程模型、架构优化及工具链升级，重新定义GPU开发范式。
1. CUDA Tile：重构GPU编程模型
作为最核心更新，CUDA Tile推出基于Tile的抽象编程模型，允许开发者直接操作数据块（Tile）而非底层线程，编译器自动映射至张量核心等硬件。其包含两大组件：
CUDA Tile IR：新型虚拟指令集，兼容未来GPU架构；
cuTile Python：数组级DSL，简化Python核函数编写。
该模型解决了传统SIMT编程的硬件适配难题，使代码跨架构兼容，同时屏蔽张量核心调用细节，降低AI算法开发门槛。
2. 系统级资源管理革新
Green Context开放运行时API：轻量级执行环境，支持SM（流式多处理器）资源分区，可隔离高优先级任务（如低延迟计算）与普通任务，通过split() API实现细粒度资源分配。
MPS内存优化：Blackwell架构新增内存局部性优化分区（MLOPart），提升多进程内存效率；静态SM分区功能增强资源隔离性，减少任务伪依赖。
3. 工具链与性能升级
编程指南重写：针对新手与高级开发者优化，新增Green Context、Tile编程等章节；
数学库加速：cuBLAS支持分组GEMM（FP8/BF16），MoE场景性能提升4倍；cuSOLVER批处理特征分解加速2倍，cuSPARSE稀疏矩阵运算效率显著优化；
调试工具增强：Nsight Compute新增Tile统计分析，Nsight Systems支持系统级CUDA追踪与硬件级性能剖析。
8小萌芽科技
03:42
英伟达周末双响炮：发布20年来最大CUDA更新，4B小模型本周末，英伟达在软件生态与人工智能竞赛领域同时取得重大突破，彰显其技术领导力。
一、CUDA迎20年最大更新，简化未来GPU编程
英伟达正式推出CUDA 13.1，这是该平台诞生二十年来最全面的一次升级。其核心是引入CUDA Tile编程模型，旨在屏蔽Tensor Core等底层硬件细节，让开发者能更轻松地驾驭Blackwell等下一代GPU的强大性能。此次更新还包括：Green Context正式开放、cuBLAS支持新精度、CUDA编程指南完全重写，以及多项开发者工具与数学库增强，为未来GPU软件开发奠定新基础。
二、4B小模型以低成本赢得AGI“智商测试”竞赛
在备受关注的Kaggle ARC Prize 2025竞赛中，英伟达团队以27.64%的得分夺冠。该竞赛被视作衡量AGI通用推理能力的“晴雨表”。获胜方案NVARC 并未使用千亿参数大模型，而是基于一个仅40亿参数的Qwen3模型，单次任务推理成本仅20美分。
制胜关键：海量合成数据与精巧推理策略
团队制胜秘诀在于：
数据创新：通过大模型构建流水线，生成了320万个合成训练样本，极大扩充了原本仅数百题的训练数据。
高效模型：使用海量合成数据对4B小模型进行全量微调，使其在代码/推理领域表现卓越。
推理优化：结合测试时训练（TTT）与深度优先搜索（DFS）策略，让模型针对每个新题目快速适配并验证多种解题代码。
此次胜利表明，在推理任务上，高质量合成数据的扩展有时比单纯扩大模型规模更有效。英伟达此次在硬件生态与AI软实力上的双重突破，再次巩固了其在AI计算领域的核心地位
2Qiuming
01:00
英伟达CUDA发布20年来最大更新，重塑AI开发范式！ #财经 #热点 #英伟达 #AI
12L.V.P订单流研学
09:16
芯片霸主英伟达
#知识科普 #英伟达 #全球算力 #半导体芯片 #cuda
16奇迹时刻
00:22
英伟达发布CUDA史上最大升级 #人工智能 #CUDA #英伟达
27特大号
00:56
CUDA 13.1版本 #cuda #英伟达
180AI&视界
04:48
传奇芯片架构师Jim Keller引发行业激辩英伟达近日发布了CUDA平台诞生20年来最具颠覆性的更新——CUDA Tile。作为CUDA 13.1版本的核心特性，它彻底改变了传统的GPU编程范式，允许开发者直接使用Python代替C++编写内核代码，旨在通过抽象化Tensor Core等底层硬件细节，大幅降低高性能计算的门槛。
这一变革迅速引起了芯片界传奇人物、Tenstorrent CEO Jim Keller 的公开质疑。他提出：这是否意味着英伟达亲手终结了CUDA生态的「护城河」？Keller指出，随着英伟达GPU转向瓦片（Tile）架构，其他硬件厂商也在朝类似方向发展，AI内核的跨平台移植可能会变得更容易。
Jim Keller为何有话语权？
Jim Keller被业内誉为「传奇架构师」，是x86-64指令集和HyperTransport技术的共同作者，曾领导AMD Athlon/K8和Zen架构实现关键逆袭，也是苹果A4/A5芯片的设计推动者。他近年多次批评CUDA是「沼泽」，意指其复杂性让开发者深陷其中难以迁移。因此，他的质疑备受行业关注。
技术本质：从「线程」到「瓦片」的范式革命
过去20年，CUDA建立在SIMT（单指令多线程）模型上，开发者需管理成千上万个线程的协同，尤其在调用Tensor Core进行矩阵运算时极为繁琐，代码严重依赖硬件代际，可移植性差。
CUDA Tile则彻底抛弃「线程」视角，转向以「瓦片」为基本单位。开发者只需定义数据块（Tile）的形状和运算操作，编译器自动映射到底层硬件。英伟达为此推出了新的中间表示层CUDA Tile IR，并罕见地优先支持Python接口，反映出对AI开发生态的重度倾斜。
矛头指向OpenAI Triton？
业界注意到，CUDA Tile在设计理念上与OpenAI Triton高度相似，后者是OpenAI为打破对英伟达闭源库依赖而推出的开源编程语言。英伟达此次更新，被视为对潜在生态威胁的主动回应。
护城河真的消失了吗？
多数分析指出：
英伟达芯片间移植性：显著提升。基于Tile IR的代码可在Hopper、Blackwell及未来架构间无缝迁移。
跨厂商移植性：几无改善，甚至更难。CUDA Tile紧密耦合英伟达硬件路线图，并未开放生态接口。
结论
英伟达并非拆除护城河，而是将沼泽填平，筑起更舒适的高速公路——降低开发门槛.
0Qiuming
00:37
黄仁勋：英伟达CUDA二十年来最大升级 #财经 #抖音热门 #英伟达 #黄仁勋 #作手阿飞
319作手阿飞（巴菲特版）
00:14
下周发财了🤑#英伟达 #纳斯达克 #美股
66户晨雨
40:59
“再造一个CUDA”：英伟达的第二护城河与“超级碗”阳谋【深度解析GTC 2025】#掘金计划2025 #经济学知识看世界 #英伟达 #GTC #黄仁勋
3273硅谷101陈茜
01:00
英伟达发布新一代CUDA，软件是硬件的护城河 #英伟达cuda
542宏哥的记录
06:08
为什么英伟达不可战胜？ #黄仁勋 #英伟达 #NVIDIA #CUDA #科技 #商业
1.2万嘉宾商学
06:22
一文搞懂英伟达CUDA：不只是游戏显卡，更是AI时代的“算力发动机”
23老林白话科普

最新视频

热门推荐

热门分类