00:00 / 01:16
连播
清屏
智能
倍速
点赞37
00:00 / 00:38
连播
清屏
智能
倍速
点赞62
00:00 / 01:28
连播
清屏
智能
倍速
点赞55
00:00 / 00:57
连播
清屏
智能
倍速
点赞856
程鹿虎1月前
NVIDIA放大招!20年最强CUDA 13.1来了! NVIDIA放大招!20年最强CUDA 13.1来了 12月7号,NVIDIA正式发布了CUDA 13.1。官方都直言,这是2006年CUDA诞生以来,最大、最全面的一次升级——不光把GPU编程的玩法给改了,还通过好几层技术升级,把自己的生态壁垒筑得更厚了。 核心狠活:CUDA Tile编程模型,让编程门槛直降! 这次更新最亮眼的就是新出的CUDA Tile编程模型,标志着GPU编程终于不用再死磕底层了。以前搞GPU编程都得用SIMT(单指令多线程)模式,开发者得自己手动分配线程、优化内存、处理同步这些杂事,门槛高到劝退不少人。 而CUDA Tile是以“数据块(就叫它‘瓦片’吧)”为核心,开发者不用管那些复杂的底层操作,只需要专心琢磨“数据怎么摆”“计算逻辑怎么写”就行。线程调度、内存布局这些麻烦事,编译器和运行时会自动搞定,这感觉就像从“手动挡开车”升级成了“智能辅助驾驶”,省心太多了。 为了撑得起这个新模型,CUDA 13.1还加了个Tile IR虚拟指令集当中间层,不管是新老GPU架构都能兼容。更狠的是配套的cuTile工具,这是个专属的小语言,开发者直接用Python就能写GPU核心代码,不用再啃复杂的CUDA C/C++,也不用搞懂底层的SIMT逻辑。 装起来也简单,敲一行“pip install cuda-tile”就行,不过得满足几个条件:GPU计算能力得是10.x/12.x,NVIDIA驱动要R580以上,Python得3.10及以上。搭配NVIDIA Nsight Compute还能分析性能。值得一提的是,Tile编程不是要取代原来的SIMT,而是两者都能用,开发者看场景选就行。 关键升级:资源管得更明白,速度也飙得更快 除了编程模型,CUDA 13.1还有好几个重磅优化,全是开发者刚需: Green Context资源隔离:简单说就是能把GPU的流式多处理器(SM)分成独立的小块,给重要任务留好专属资源,避免多个任务抢算力导致延迟忽高忽低。特别是线上服务里又要推理又要训练的场景,这个功能简直是救星。 MPS静态分区增强:新增了按“Chunk”划分SM的机制,Hopper及更新架构里每个Chunk含8个SM,加个“-S”参数就能启用。这样多个人共用GPU时,每个人能拿到的资源更稳定,不用担心中途被抢。
00:00 / 04:52
连播
清屏
智能
倍速
点赞50
00:00 / 01:02
连播
清屏
智能
倍速
点赞38