00:00 / 00:50
连播
清屏
智能
倍速
点赞59
00:00 / 01:25
连播
清屏
智能
倍速
点赞1606
00:00 / 05:33
连播
清屏
智能
倍速
点赞8
00:00 / 10:28
连播
清屏
智能
倍速
点赞46
00:00 / 04:06
连播
清屏
智能
倍速
点赞309
00:00 / 05:09
连播
清屏
智能
倍速
点赞9
00:00 / 04:25
连播
清屏
智能
倍速
点赞241
摩尔线程还能追吗?摩尔线程与英伟达,谷歌TPU,Amd寒武纪 摩尔线程还能追吗?摩尔线程与英伟达,谷歌TPU,Amd,寒武纪之间的差异化是什么? 过去十年,AI 与高性能计算的爆发催生了多种加速器设计路线:从通用 GPU(Graphics Processing Unit)到专用的 NPU/TPU,再到兼顾图形与通用计算的混合架构。摩尔线程(中国新兴 GPU 厂商)、寒武纪(以 NPU 为核心)、英伟达(GPU 的“通用+专用”路线)、谷歌 TPU(端到端为深度学习定制的 ASIC)以及 AMD(走通用 GPU + HPC/AI 专用扩展的路线)代表了五条典型的设计谱系。把它们放在一起比较,可以看出不同设计取舍如何影响性能、能效、生态与产业链风险。 英伟达(NVIDIA):从图形渲染起家,GPU 逐步被证明对矩阵乘加(GEMM)、张量计算极其适合,因此演化出强大的张量核(Tensor Cores)和丰富的混合精度支持,目标是覆盖从游戏、图形到深度学习训练与推理的广泛场景。NVIDIA 在数据中心做出了“GPU 即 AI 加速器”的赌注,并同时在软件层(CUDA、cuDNN、TensorRT、CUDA-X)构建了强生态。NVIDIA 的架构路线以通用计算单元 + 专用张量单元 + 高带宽互连(NVLink)为核心。 谷歌 TPU(Tensor Processing Unit):从一开始就是为深度学习的矩阵乘加与张量流(TensorFlow)量身定做的 ASIC。TPU 的关键是大规模的Systolic Array(脉动阵列),把 MAC(乘加)阵列和低延迟本地内存紧耦合,借助专门的编译器(XLA)把模型数据流映射为高度优化的内存与计算流水线。TPU 更像“把数学直接做在硅片上”的设计,牺牲了一部分通用性换取极高的能效与规模化吞吐。 AMD:长期走 GPU 通用计算路线,但在近几年把目标细化为 HPC 与 AI 两大分支,提出 CDNA(AI/HPC 专用)和 RDNA(图形)两条路线。AMD 的策略是通过开放的软件栈(ROCm)和高性能互连(如 EPI/Infinity Fabric)来构建可扩展的加速平台,强调可组合性与多卡互联,以便在超级计算与云端竞争中与 NVIDIA 正面交锋。 寒武纪(Cambricon):定位更偏向于 NPU(Neural Processing Unit)与端云一体,产品线覆盖从终端 SoC 到云
00:00 / 03:08
连播
清屏
智能
倍速
点赞708
00:00 / 02:09
连播
清屏
智能
倍速
点赞747
00:00 / 02:43
连播
清屏
智能
倍速
点赞74
00:00 / 00:20
连播
清屏
智能
倍速
点赞57
00:00 / 01:21
连播
清屏
智能
倍速
点赞996