摩尔线程还能追吗?摩尔线程与英伟达,谷歌TPU,Amd寒武纪 摩尔线程还能追吗?摩尔线程与英伟达,谷歌TPU,Amd,寒武纪之间的差异化是什么? 过去十年,AI 与高性能计算的爆发催生了多种加速器设计路线:从通用 GPU(Graphics Processing Unit)到专用的 NPU/TPU,再到兼顾图形与通用计算的混合架构。摩尔线程(中国新兴 GPU 厂商)、寒武纪(以 NPU 为核心)、英伟达(GPU 的“通用+专用”路线)、谷歌 TPU(端到端为深度学习定制的 ASIC)以及 AMD(走通用 GPU + HPC/AI 专用扩展的路线)代表了五条典型的设计谱系。把它们放在一起比较,可以看出不同设计取舍如何影响性能、能效、生态与产业链风险。 英伟达(NVIDIA):从图形渲染起家,GPU 逐步被证明对矩阵乘加(GEMM)、张量计算极其适合,因此演化出强大的张量核(Tensor Cores)和丰富的混合精度支持,目标是覆盖从游戏、图形到深度学习训练与推理的广泛场景。NVIDIA 在数据中心做出了“GPU 即 AI 加速器”的赌注,并同时在软件层(CUDA、cuDNN、TensorRT、CUDA-X)构建了强生态。NVIDIA 的架构路线以通用计算单元 + 专用张量单元 + 高带宽互连(NVLink)为核心。 谷歌 TPU(Tensor Processing Unit):从一开始就是为深度学习的矩阵乘加与张量流(TensorFlow)量身定做的 ASIC。TPU 的关键是大规模的Systolic Array(脉动阵列),把 MAC(乘加)阵列和低延迟本地内存紧耦合,借助专门的编译器(XLA)把模型数据流映射为高度优化的内存与计算流水线。TPU 更像“把数学直接做在硅片上”的设计,牺牲了一部分通用性换取极高的能效与规模化吞吐。 AMD:长期走 GPU 通用计算路线,但在近几年把目标细化为 HPC 与 AI 两大分支,提出 CDNA(AI/HPC 专用)和 RDNA(图形)两条路线。AMD 的策略是通过开放的软件栈(ROCm)和高性能互连(如 EPI/Infinity Fabric)来构建可扩展的加速平台,强调可组合性与多卡互联,以便在超级计算与云端竞争中与 NVIDIA 正面交锋。 寒武纪(Cambricon):定位更偏向于 NPU(Neural Processing Unit)与端云一体,产品线覆盖从终端 SoC 到云
00:00 / 03:08
连播
清屏
智能
倍速
点赞714
00:00 / 01:21
连播
清屏
智能
倍速
点赞994
摩尔线程还有机会追吗? 摩尔线程还有机会追吗?英伟达、谷歌TPU、AMD、寒武纪的差异化路径解析 过去十年间,AI与高性能计算的飞速发展催生出多条加速器设计路线:从通用GPU,到专用NPU/TPU,再到兼顾图形与通用计算的混合架构。摩尔线程(中国新兴GPU厂商)、寒武纪(专注于NPU)、英伟达(通用与专用结合的GPU路线)、谷歌TPU(为深度学习定制的端到端ASIC)以及AMD(通用GPU + HPC/AI专用扩展路线)分别代表了五种典型的技术谱系。将它们放在一起对比,能够清晰地看到不同的设计取舍如何影响性能、能效、生态构建与产业链风险。 英伟达:生态驱动的通用加速平台 英伟达从图形渲染起步,其GPU架构逐渐被证明极其适合矩阵乘加与张量计算,因而演进出了强大的张量核心和丰富的混合精度支持,旨在覆盖从游戏、图形到深度学习训练与推理的广泛场景。英伟达在数据中心领域押注“GPU即AI加速器”,并通过软件层构建了强大的生态体系。其架构核心是通用计算单元、专用张量单元与高带宽互连技术的结合。 谷歌TPU:为TensorFlow定制的专用芯片 谷歌TPU自诞生之初就是为深度学习的矩阵乘加运算与TensorFlow框架量身打造的专用集成电路。其核心在于大规模的脉动阵列设计,将乘加阵列与低延迟本地内存紧密耦合,并借助专用编译器将模型数据流映射为高度优化的内存与计算流水线。这种设计可以理解为“将数学直接做在硅片上”,以牺牲部分通用性来换取极高的能效与规模化吞吐量。 AMD:开放路线与双架构并行 AMD长期遵循GPU通用计算路线,近年来则将目标细分为HPC与AI两大方向,推出了分别面向AI/HPC的CDNA架构与面向图形的RDNA架构。其策略是通过开放的软件栈和高性能互连技术来构建可扩展的加速平台,强调可组合性与多卡互联能力,旨在超级计算与云端市场与英伟达展开正面竞争。 寒武纪:聚焦NPU,端云一体 寒武纪的定位更偏向于神经网络处理器,采取端云一体的产品策略,其产品线覆盖从终端SoC到云端加速卡。 这几家厂商代表了从高度通用到完全专用,以及中间不同平衡点的技术光谱。它们的差异化不仅体现在硬件架构上,更深刻反映在软件生态、市场定位和对产业链的整合能力上。摩尔线程作为追赶者,其发展路径需要在性能追赶、生态构建与应用场景聚焦之间找到自己的独特平衡点。#摩尔线程 #英伟达 #AMD #寒武纪 #谷歌
00:00 / 03:31
连播
清屏
智能
倍速
点赞228
00:00 / 04:25
连播
清屏
智能
倍速
点赞243
00:00 / 08:17
连播
清屏
智能
倍速
点赞486
00:00 / 01:25
连播
清屏
智能
倍速
点赞1687
摩尔线程还能追吗?摩尔线程与英伟达,谷歌TPU,Amd,寒武纪之间的差异化是什么? 过去十年,AI 与高性能计算的爆发催生了多种加速器设计路线:从通用 GPU(Graphics Processing Unit)到专用的 NPU/TPU,再到兼顾图形与通用计算的混合架构。摩尔线程(中国新兴 GPU 厂商)、寒武纪(以 NPU 为核心)、英伟达(GPU 的“通用+专用”路线)、谷歌 TPU(端到端为深度学习定制的 ASIC)以及 AMD(走通用 GPU + HPC/AI 专用扩展的路线)代表了五条典型的设计谱系。把它们放在一起比较,可以看出不同设计取舍如何影响性能、能效、生态与产业链风险。 英伟达(NVIDIA):从图形渲染起家,GPU 逐步被证明对矩阵乘加(GEMM)、张量计算极其适合,因此演化出强大的张量核(Tensor Cores)和丰富的混合精度支持,目标是覆盖从游戏、图形到深度学习训练与推理的广泛场景。NVIDIA 在数据中心做出了“GPU 即 AI 加速器”的赌注,并同时在软件层(CUDA、cuDNN、TensorRT、CUDA-X)构建了强生态。NVIDIA 的架构路线以通用计算单元 + 专用张量单元 + 高带宽互连(NVLink)为核心。 谷歌 TPU(Tensor Processing Unit):从一开始就是为深度学习的矩阵乘加与张量流(TensorFlow)量身定做的 ASIC。TPU 的关键是大规模的Systolic Array(脉动阵列),把 MAC(乘加)阵列和低延迟本地内存紧耦合,借助专门的编译器(XLA)把模型数据流映射为高度优化的内存与计算流水线。TPU 更像“把数学直接做在硅片上”的设计,牺牲了一部分通用性换取极高的能效与规模化吞吐。 AMD:长期走 GPU 通用计算路线,但在近几年把目标细化为 HPC 与 AI 两大分支,提出 CDNA(AI/HPC 专用)和 RDNA(图形)两条路线。AMD 的策略是通过开放的软件栈(ROCm)和高性能互连(如 EPI/Infinity Fabric)来构建可扩展的加速平台,强调可组合性与多卡互联,以便在超级计算与云端竞争中与 NVIDIA 正面交锋。
00:00 / 04:24
连播
清屏
智能
倍速
点赞6
00:00 / 00:20
连播
清屏
智能
倍速
点赞57
00:00 / 01:13
连播
清屏
智能
倍速
点赞640
00:00 / 00:32
连播
清屏
智能
倍速
点赞910
00:00 / 04:21
连播
清屏
智能
倍速
点赞119