朋友们别再盯着盘面的小涨小跌纠结了,五月二十二号的升腾开发者大会,这里藏着整个算力行业接下来最大的前瞻机会。随着升腾新款芯片即将大规模量产,整个分销代理赛道 将会打开整整四百亿的全新增量市场,行业空间直接拉满。很多人不知道为什么现在分销渠道这么关键,因为后续升腾芯片出货量会达到百万颗级别,光靠官方自己的渠道根本铺不开,卖不完。所以接下来生态分销合作伙伴就是这次大会最大的看点之一。 目前市场上热度最高的三家企业,我客观真实,不带偏向的,给大家分清楚谁是真落地,谁只是市场猜测。首先是深圳华强,这一家是实打实的真合作方,长期做华为全系代理,资质齐全,合作时间久,渠道最成熟,是升腾官方认可的核心分销伙伴,确定性最高。 其次是神州数码,属于行业里体量最大的合作渠道,整机服务器出货规模遥遥领先,承接大单能力最强,行业地位非常稳固。 还有亚康股份,属于深度全品类合作,覆盖芯片服务器、算力服务全线业务,合作层级高,业务布局最全面。重点提醒大家,平时大家刷到的利通电子、宏景科技,目前没有任何官方公告,没有任何合作。实锤 这两家只是身处算力隧道,走势比较强势,属于市场逻辑猜测,不是官方认证合作方,大家千万不要火眉一弹,再回归整体行情逻辑。现在市场两大主线半导体和算力 半导体,目前估值已经偏高,性价比一般,而本轮的国产算力主线整体涨幅有限,后续的想象空间和机会远比大家想的要大。 这次深腾开发者大会核心就三点,架构升级、超节点技术突破、拓展生态合作伙伴。整场大会最大的红利风口就是渠道分销这一块。 本期内容全部基于公开行业信息,市场客观逻辑做资讯分享。行业有机会不等于行情必然上涨,所有走势存在不确定性,大家理性观看,独立判断。
粉丝2395获赞1.0万

所以关于升腾后期总代理一旦确定,这里面所带来的业务增量将远远大幅超过当年海狮所带来的业务增量。当前市场资金对国产替代这个方向存在着两个主线并行,一个是我们一直坚定看好的托肯算力方向,第二个就是国产半导体的替代方向。本周在两场的催化下,也就是 长兴和长江存储的前后催化之下,半导体产业链本周迎来了非常好的表现。由于半导体产业链方向存在的巨大的资金容量,所以这两天市场的资金 在半导体身上有一定的血血效应,所以这就造成了当下国产替代方向这两个细分呈现出轮动的表现性。当然,在前两天我的视频里也有重点强调,有关于涛肯算力的调整,并不意味着后期趋势的结束,我们将时针拨回之前利通和红警的表现上来看, 如果你坚守不住二到三月份利通电子的诊断洗礼,那他后面的两倍空间就跟你没有关系。同样的,我们在红景科技的身上也可以看到,如果你坚守不住三月份的调整,那么后期的这三倍空间也是跟你无缘。所以当我们确认有成长价值的方向的时候,不要在意短期的调整,我们要明白阶段性的调整是为了后期 更强的蓄势待发。那我们从估值的角度来看,当前的半导体相对于我们的 top 算力目前已经是贵的很离谱了,但半导体这边的核心设备从去年到今年基本上是两到三番的空间, 而我们当下的一些 top 工厂的核心品种目前也只停留在翻一番的节奏上,所以当前的你只要沉住气去更强的主生空间,才能够让你更加游刃有余。 当然了,当前的半导体方向也有某一些性价比高的细分方向,那今天就带大家前瞻一下关于这周五,也就是五月二十二号的一个升腾大会的机会。本次的鲲鹏升腾大会呢,主要是集中在三块方向,首先一个是关于升腾 gpu 和鲲鹏 cpu 上的架构的升级,第二个是关于华为升腾超节点技术的 提升。第三点就是我今天重点需要跟大家讲述的关于它华为生态合作方的一个机会。首先我们要明白一个道理,也就是当下 老美对于 h 两百的放开,我们是根本不看在眼里,这也从侧面意味着我们当下国产芯片的一个优势性,也就意味着后期我们以升腾九五零为代表的这些芯片能够大幅的 量产上市,那后期关于它的产量释放之后,华为升腾这里面就必须会引入分销商的这种机制。引入分销商的机制对华为升腾来说有三大优势,第一个就是能够化解才能 与覆盖的矛盾,面对后期百万颗的级别的出货量,如果仅仅靠华为指引,他是难以实现深度的渠道下沉, 那这时候分销商就能提供像类似于毛细血管级的渠道覆盖,在战略上能够兼顾大客户和散户的压力。第二个就是能够大幅缓解当前华为资金链上以及库存上的压力,因为当他引入分销商的时候,就能得到部分资金的回笼,对华为来说可以有效的承接 资金背后和库存的缓冲。第三点是分销商能够帮助深腾实现单卡的对外销售,加速整体的一个出海的过程。而这次的深腾大会,我们在他的日常行程里面看到了有关于深圳华强的影子,而且他这里面的一题名称也非常的明显,华强巨链,昆形深远, 赋能生态共赢。邀请的嘉宾是当前深圳华强半导体有限公司的副总经理,结合深圳华强,大家在二零二四年多少应该也有印象,他成为华为海思 最强代理之后,在盘面上的表现那是一飞冲天。所以针对本周五的升腾大会,我们需要重点关注有关于升腾后期的分销总代理的机会。明年升腾的总规模大概是在两千亿左右,据专业机构的预测,总代理环节明年将有 四百亿的增量收入。所以关于升腾后期总代理一旦确定,这里面所带来的业务增量将远远大幅超过当年海狮所带来的业务增量。近期给大家分享的机会大部分都有不错的表现,感谢各位点赞、关注、支持!


第一名,升腾 ai 算力。第二名,鲲鹏计算。第三名, ai 芯片。第四名,软件生态。第五名, pcb。 第六名, cpo。 第七名,散热电源。第八名,应用生态。

明天华为鲲鹏深腾开发者大会,会有两个新东西,一是超节点与领取互联技术,就是英伟达最渴望搞懂的东西。如何通过系统架构创新,突破单芯片性能瓶颈、超高宽带和超低时延,实现多芯片的高效协同。这个呢,是首次公开, 但是华为要联合开发者在全行业搞 ai agent, 从单纯的内容创作转向能够自主理解、规划并执行复杂任务的智能体。这是什么呢?就是华为要在各个行业养自己的小龙虾,这是 ai 生产力,是标准和模型的段位。

开发者可以免费获得升腾提供的先进算力了。由华为主办的一年一度的开发者盛会鲲鹏升腾开发者大会在北京开幕。会上,华为表示,升腾已在社区上线了一千张升腾卡,为每一位开发者提供初十一百卡时的免费算力,包括最新的九五零 pr。 基于全新的一站式开发平台,算力即取即用,开发环境一分钟就绪。在开发工具方面,升腾把四千多名工程师的经验沉淀成 skill, 帮助开发者缩短开发时间。此外, 升腾还有很多专项激励,首批激励基金达两千万,开发者在升腾社区领取并完成任务,就可以获得不同金额的奖励。开发者们还在等什么?赶快加入升腾社区吧!

提升矿场运输效率,助理访口、自动驾驶,加速制造质检进程, 实现智能定力分析 a i, 丰富工作和生活,让驾驶轻松充满乐趣。颠覆智能体工作方式, 在数字世界复刻空间,使旅行体验丰富多彩。化身我们的智能伙伴 升腾 ai, 与时代共进,让智能无所不在! 一代人有一代人的创新,一代人有一代人的远志, 升腾以向上的力量,与 ai 理想家一起做新时代的开创者。 向上共创 ai 普惠时代,以架构创新筑筑坚实底座, 以开源开发激发蓬勃力量,让技术平权,让 ai 普惠为世界提供新的选择。 向上共创 ai 自由时代全球开发者灵感在这里汇聚, ai 人才新星在这里冉冉升起, 万千伙伴在这里创造非凡价值。向上共创 ai 加时代,让交互深入人心,让智能驱动效率, 让风控规避风险,让智能拥有在体,让驾驶充满乐趣。 每个伟大的时代背后,皆是无数人共同的托举, 升腾与有志者一起坚定向上,与时代共升腾! 好的,然后大家好,然后欢迎来到鲲鹏升腾创享音乐直播间,我是升腾 agent 技术专家杨宏伟,今天直播的主题是 agent 升级, 然后智能高效,重塑 ai 开发体系,核心内容是探讨一下当前 agent 的 发展路径,对开发效率的提升以及 agent 工具的落地实践。然后今天我们也有幸邀请到上海人工智能实验室的专家以及两位升腾的专家一起探讨这些问题。 本次直播鼓励大家积极提问,我们会在评论区实时收集大家的问题,并请相关的专家进行解答。 好的,然后首先,呃请各位专家和线上的观众们打个招呼吧。啊,大家好,我是来自上海人工智能实验室 dplink 团队的赵朝兴。嗯,很高兴在这里和大家见面。 呃,大家好,我是冯彤,主要研究升腾蒜子自动生成技术,然后负责 cambote 的 设计开发。 大家好,我是升腾 masu 工具链团队的吴文杰,主要研究在训练推理蒜子场景下的自动化的调试调优。 嗯,再次欢迎各位专家的到场。然后这两年的话,大模型还有 agent 技术发展非常迅速,早已经不是简单的聊天对话 chatbot 这种形式,而是走进真实的业务场景。那我们就顺势针对 agent 的 发展趋势。呃,打开聊一下。 首先进入第一个话题,然后 agent 对 于开发者来说,然后最大的价值是什么呢?然后下面的话请咱们这个赵老师,然后给大家做一个分享。 好。呃,因为我是 deeplink 团队,然后之前是主要做算子开发的。 呃,之前在 agent 之前,我们用大模型可以辅助做一些算子开发的工作,比如让大模型先生成一版,然后我们人工的再进行修改。 但后来也就是去年,我们发现,呃可以基于 agent, 然后再做一些工程化的一些封装, 然后让它能够产生比直接调用大模型更大价值的这种这种形式。所以说我们就发现那个,对于这种,呃算子开发这种场景,我们就开发了 control swift 的 这么一个系统来,呃, 就是将这个固定的流程啊,明确的规则呀,然后抽象成了具体的步骤,然后,呃做了一个这么一个能够自动化生成这种生产环境直接使用的这种,呃,这种蒜子, 哎,对, ok。 然后蜂糖,呃,我这边其实也是主要做一些蒜子开发的一个工作,然后癌症 最大的价值来说就是降低了升腾,呃算子开发的一个学习门槛,然后新手的话使用对应的一些 skill, 算子生成的 skill 可以 快速生成一个可用的一个算子, 呃降低了就是生态适配的一个学习的成本,同时它对算子开发效率也有一个很大的一个提升。呃可以基于 skill 然后生成一个算子的初始版本,然后开发者可以基于初始版本更多地去关注性能优化, 对算子整体的,呃开发效率提升还是很大的。好的好,文杰 啊,我这边呢主要是研究那个在我们深腾做开发调试这块啊,所以呢,从以前我们跟模型的交互呢,更多是比如我们来问,模型来答, 但现在 agent 呢,更多是我们给一个目标, agent 能够基于这个目标做一个反馈式的一个自闭环的一个任务 啊。所以呢,在调试调优领域其实会存在大量的比如说这种重复性的消融实验,或者说流程确定性的步骤,这些是完全可以交给 agent 去做的。一方面呢能够啊提效,就是说对于一些 那个利用率的提升,另外一方面呢,就是说能大幅降低准入的一些门槛,能让更多的开发者深入到深腾的开发流程里来。嗯,好的,然后三位专家的话对于这个最大的价值做了一些分享。那么我们进入第二个话题, 对大模型本身其实他不懂行业的一些隐形的一些规则, 特别是我们代码实现了一些工程细节,然后 a 证呢,是如何承载固化开发者的一些经验和有一些工作流呢?然后下面的话还是请三位老师进行一个分享,然后咱们还是先从赵老师开始吧。 嗯,好,嗯,确实是这样子,因为我们在直接调用大模型的时候,有时候之前还会出现一些幻觉,然后包括我们自己的一些知识,然后大模型肯定也是不懂的。 所以说现在基于 agent 开发,我们大概有两个方面吧,一个方面是可以将一些知识以知识库的形式,然后由 agent 将这一个知识呃来 呃交付给大模型。另外一个是在工程控制上,我们现在基于 agent 也可以做一些呃控制流上面的一些一些工作,让大模型能够按照呃这种固定的这种流程,然后一步一步地去自己去做事情,大概是这样子, 嗯,好的,然后分团对我,我很我很同意赵老师的那个观点。 呃,目前的话,我们就主要是深度呃沉淀了,就是升腾微架构下的像蒜子的它令切分呃流水编排,然后访存优化等一些专家调优的经验,然后到蒜子的 skill 呃库里面, 然后帮助大模型来呃增强对升腾蒜子开发的一个理解。同时我们 呃也固化了,就是蒜子成熟的一个开发的流程,让让 edent 通过呃 呃设计,然后编码验证了这个固化的流程进行推进,防止 edent 进行一些自由发发挥,然后也保证生成结果的一个稳定性, 嗯, ok, 然后文件好,我这边我觉得主要是两两部分吧,因为呃 agent 承载工作流,承载经验跟工作流的话,我觉得主要就是呃模型与 与外部的几个交互。第一块呢,就是说不管我们提供这种 skill 也好,还是说 promote 也好, 其实呢本身就是我们固化的一个流程,或者说我们把我们在调试调优领域的一些经验做总结以后,通过这种呃跟 agent 交互的形式,把, 把通过这种 md 的 形式给到 agent。 另外一种呢,就是我们其实工具里面本身就会承载很多的呃这种调试调优的经验,那 agent 会通过 mcp 去调这种 function call 的 能力来执行,所以呢,我觉得主要就是这两块,嗯, ok, 好 的, 对,然后刚才的话就是我们还有还有三位专家其实一起讨论了 agent 的 一些发展趋势上面的一个话题, 然后其实我也了解到,然后咱们上海人工智能实验室,然后这边在 a 证的方面有了一些这种研究的一些成果,那么接下来的话就请赵老师然后给大家分享一下。好,赵老师你来行。好, 嗯,首先感谢华为提供这么一个平台,然后我在这里为大家分享一下我们实验室的一个最新的成果, 也就是说我们标题呃企为进化之光,也就是我们是基于进化算法然后构建的一个智能体,它能够自动的生成大模型的算子, 而且是具备生产环境可以直接使用的,基本上就完全呃可以取代,就是在大部分场景下可以取代这个人类专家的介入,可以直接生成, ok, 呃,首先介绍一下这个算子开发的现状吧。呃,因为我们是从使用者的角度来看待这个国内这个算子开发的现状,也就是说那芯片有多种多样,有 d、 s、 a 这种架构,有多种这种 呃架构形式,那各种呃架构都有特定的编程范式是吧?大家如果了解算子开发的人大概都知道这种那个编程范式,那所以呃对于这个这种 呃现状来说,那开发门槛是比较高的,那调优难度如果能写出那个就是性能属属于天花板级的这种算子,然后也是比较高的。 另外呢,在还有一点就是在一个厂商内部,它多个芯片待机之间也存在这种架构不兼容的这种问题,所以说,呃,针对这种现状,我们就开发了这么一个能够这个自动生成算子的这种叫做 konsole 的 这么一个系统。 ok, 那 使用大模型生成算子这个问题怎么定义呢?这个其实也很简单,呃,我们只要把需求告诉大模型,比如用自然语言来描述呃这个算子的需求,或者是你可以用拍套式代码来组合 呃这种乃异物的实现来,先把这个计算流程描述清楚,然后把这个东西交给大模型,之后大模型就可以生成一段代码,无论它大模型是能够生成一段代码的, 那后面就是评估精度,评估性能,这不是一个简单的这么一个那个问题定义, 那我们就呃前期,呃确实在之前,呃可以这样交给大模型,大模型生成一段还可以的代码,然后我们人类专家再可以基于这一版代码进行修改一下,确实可以提高一些那个开发的效率。但是后后面我们想让 我们更贪心,我们想让大模型做更多的工作,那大模型是不是能够直接就生成我们生产级可用的这种算子代码呢?所以说我们基于此构建了一个 control swift 的 这么一个系统,那这个系统是引入了一个进化算法, 所谓进化算法就是呃之前那种传统的进化算法是一样的这种思路,它内部有多个岛屿, 然后多个岛屿之间是进行独立的,这种进化也就是一轮一轮的进化,一轮一轮的调用大模型,让每个若干代在进,在进行岛屿之间这个精英个体的一个迁移,增强一个全体的搜索能力。 那呃在这个进化引擎内部还维护了一个精英档案,这个精英档案是呃,比如进化的当前阶段每一种,因为每一种算子代码它有一个结构,然后把这个结构抽象为特征,然后就可以形成一个网格化的档案。在这种呃代码结构这种特征下, 它的这个最好的性能是哪一个?然后呃使用精英档案可以保持这个解空间的一个多样化, 那评估引擎肯定也是必备的。也就是说呃大模型生成的算子,我们要对他进行评估,然后让他给出一些优化建议,然后这样循环的再次调用大模型,进行一轮一轮的迭代,一轮一轮的进化, 然后最后就输出的这个算子代码,我们就发现他呃可以呢达到很好的这种性能。 所以我们这个 ctrl swift 是 从代码生成到自动优化,它整个模拟了这个生物进化论,就实现了呃自我的这种编程革命,就开启了这种 ai 为 ai 写代码的这种全新时代, 因为它输出了这个这个进化过程中输出的这进化轨迹,我们发现它可以运用于 r l 训练来进一步增强这个大模型的这种算子代码生成的能力。 所以在后续的算子生成任务中,它这个代码大模型的能力提升了,那它就更容易来产生呃人类专家可能没有发现的这种优化的这种范式。另外它在生成的这种算子代码 代码的时候,这种优秀的算子代码,它是有这种优化的这种 pattern 在 的这种优化方法在的,我们把这优化方法 然后放到这个知识库里面,在以后的那个算子生成的任务中,他就会呃使用这个优化知识,可以使用更小的更少的轮次,然后来生成算子质量更优的代码。 所以说是大模型是负责这种呃天马行空的这种代码变异,然后进化算法来负责这种大浪淘沙式的选择,然后若干代之后,啊代码自己就达到了这种性能的天花板。 嗯,这个整介绍完整体架构之后,再呃简单介绍一下其他的这些组建,包括这个评估的智能体,因为呃在我们发现在一个算子耗时比较短的情况下,大概几十呃 呃微秒,这种情况下,呃算子测量的这种性能测量并不准,所以呃所以会开发了一些机制,然后来抑制这种测量的噪声,然后也发现大模型其实会偷懒,它可以呃也许会直接生成那个呃 这种 hack 的 方式来生成这种代码,所以我们还开发了一些静态代码分析的方式,然后还有动态运行式的分析,还有那个 ncu 路由栈的分析来对大模型生成的代码进行一个质量检验,属于这种情况。 ok, 那 呃刚才也讲到了这种 r l 后序面,也就是说大模型在这个进化过程中,也就是 control swift, 呃会输出呃一个进化轨迹,那进化轨迹自然就是一个 state action reward 这么一个 一个符合 r l 训练的这么一个素材,那这个进化轨迹用于 r l 训练,我们发现可以针对这个大模型的变身能力有很大的提升。可以看到,因为 colonel smith 是 呃我们实验室自己训练的这个模型, 呃主要用于这个算子代码生成,然后使使用这个呃呃轨迹进行 r l 训练之后,它这个大模型这个生成克诺的这种能力得到了一个很好的提升。克诺 smith 也是也是开放权重的大,欢迎大家也去那个可以试用。 嗯,呃取得了一些成果,也是,呃有一些实际的一些应用,呃,比如在公开数据集上,然后呃也取得了很好的结果。然后在比如在那个 i m deploy 推理框架里面, 呃生成了一个算子,可以使端的端呃性能提升百分之二。然后针对实验室的一些 afo science 蛋白质结构预测和分那个分子模拟这些场景的算子平均加速比可以达到四点一七倍。 呃,因为我们是做这个国产化相关, deeplink 团队整个是做国产化相关的,所以是呃,我们有两个途径来生成,呃,生,生成,呃那个生藤亲和的这种蒜子, 一个是我们直接呃直接生成,另外一个就是我们和呃生成团队来进行合作联创的一个一个另外一个 agent, 也就是说我们生成一个标准的 chongqing, 然后由这个 agent 再将标准的 chongqing 翻译成生成亲和的这种 chongqing, 所以这,这是一个这么一个代码迁移的一个工具。 ok, 呃,这个代码迁移的工具,呃不只是支持 triton, 也支持太阳能等其他的这种 dsl, 呃,它可以将呃 这种标准的这个表达,然后自动迭代,然后自动转换,转换为升腾亲和的这种那个表达形式来支持这种高效的这种迁移优化,平滑接入升腾生态。 呃,实验结果也表明这个迁移也是比较成功的。呃,这一百三十五个算子里面成功率会达到百分之百,然后平均性能也是在这里也有一个很好的一个效果。 ok, 那 client swift 在 其他场景也有一些落地,比如在为 i c 浪提供了一个,呃提了一个 pr, 呃来优化这个算子,它取得了四点七八倍的一个单算子加速,然后为 i n t d apply, 这个单算子是提升了一点三倍。 呃, client swift, 呃比较简洁,因为我们是做了一个产品,所以呃提供了一个页面, 可以直接在页面上输入呃用 top 组和算子来表达的一个呃 n e f 的 这种实现,然后呃后端可以选择升腾后端,呃就可以经过一段时间的进化,它就可以产生呃优化后的这种算子,所以,呃, 现在来表明就是这个产生这种优化后的算子基本上就可以具备生产环境,可以直接使用啊,不再需要人类专家再进行介入,当然也可以人类专家进一步分析,然后进一步调优,然后来帮助大模型生成更好的代码。 嗯, kernel swift 未来,呃会突破这种易购硬件的一个算子迁移,然后快速开发性能优化的一些技术瓶颈, 然后支撑芯片的开发,打造国产芯片的这种这种优势,然后那个突破国产 ai 芯片大规模落地的这些瓶颈,然后通过智能体开发与全电路的这种工具建设,实现开发效率与性能的这种双突破,这是我们未来的一些一些规划。 ok, 关于 control swift 我 大概就分享这么多。嗯,好的,然后那个感谢赵老师对于 control swift 的 相关的一些内容的分享。嗯,好,下面的话我们,呃就是有一些问题,然后首先的话我这边 然后看到刚刚您介绍的过程中有那个 control swift 当中,然后有一个算子生成的一个 i l 的 训练。呃,就是赵老师您能打开就是更详细的介绍一下 i l 这一块训练的一些效果吗?特别是指标方面的一些。 好,呃,刚才也介绍的 r r 训练是实现了这种 ai 为 ai 写代码的这种一个新的范式, 就是在 ctrl shift 最开始的时候,那我们可以使用一些开源模型,然后来进行算子代码的一些生成, 然后将这个算子代码生成这个轨迹保存下来,那这个轨迹中比如一代又一代的进化,那这一代就是一个 state, 然后下一代的这一个 prompt 就是 一个 reward, 然后下一代的结果 就是一个 action, 然后这么就会形成这个这个轨迹保存下来。后来我们就用于训练自己的这个模型, 训练出来的模型就发现比一些呃其他开源的开源或者 b 源的模型生成蒜子的那个质量更高,性能更好。嗯,所以这是呃 r l 训练在这个 control switch 中还是有非常发挥了非常重要的作用的。 嗯,对,是的,其实我们这边也能够看到一些其他的一些场景,其实 r l 对 于这种 a 字和端端端的训练,其实对于效果的提升还是非常明显的。 其实我们升腾这边目前的话也正在研究更通用的 agent 这样一个 inforce 框架,通,就是我们也是希望通过这种后训练的这种范式能够提升垂钓 agent 的 一些效果。好的,然后冯腾,你这边还有没有一些问题可以和赵老师交流啊?赵老师, kindle swift 目前是只支持 triton 吗? 因为 triton 是 一个呃 high level 相对友好的这种一种一种语言。呃, 我们是先在传递上做了一个这么样的一个系统,然后结果也比较好。另外呢,我们也在探索,然后来支持比如 a c, n c 这种语言来描述的这种算子,但是呃用 a c, n c 的 这个复杂度比较高 一些 a, c, n c 写的算子,然后华为的专家也比较的厉害,然后把一些算子也 这个优化的方式也是非常的好。那我们现在的一个进展就是我们可以生成 a c 的 这种算子代码,但是我们生成算子的代码的性能 比呃华为专家开发的这种算子性能还是有一定的差距,这一块我们也期待和华为能够呃共同合作,然后来提升这个算子的性能。 目前升腾其实也在做一些那个算子自动生成的一些探索,呃,我们推出了那个 cambote, 里面其实沉沉淀了很多呃专家对于算子调优的一些经验,呃,目前我们是支持 sony 还有 triton 它浪等一些编程语言的算子生成。 好的,然后再次感谢赵老师的一个精彩分享。呃,下面的话就由我然后给大家介绍一下升腾 a 正题课 ai 的 相关的一些全景的一些解读。 呃,首先,然后本次直播的话,然后由我和剩下的两位专家,然后给呃给各位开发者,然后带来了三个关键能力。 然后第一个是呃基础技能库这一块儿,然后我们给了一个这个 cambot 啊, cambot 的 话,它内部提供了非常多的非常丰富的一些升腾算子开发的一些 skill, 然后支持开发者能够快速地集成使用。 然后还有一块儿的话,就是中间这一块儿,然后有一个呃 a 帧 tik 的 一个讯推调优化框架,然后提供一个端到端的 a 帧后训练框架,然后这个框架 能够直接对于垂域的 agent 应用,然后进行端到端的后训练,呃优化的一些调优,然后提升垂域任务的成功率,然后加速 agent 能够在我们垂域场景下快速地做一个落地。 然后还有一块的话,就是最上面这一层,然后在 agent 垂域呃典型应用案例当中,然后我们给了一个 manage studio agent, 然后这个 agent 然后它包括了像智能问答,像性能调优,不仅局限在这两个方面,还有更多的一些极简应用、高效应用的一些 agent 应用实践, 然后这个这一些 agent 然后能够方便开发者,然后在生成上面进行适配和调优优化。 好的,然后下面的话,呃,由我快速给大家介绍一下。我们这个呃 aura 就是 agent 一个 i l 虚拟条优化框架, 然后首先这个框架,然后它的定位其实呃北向的,然后它呃支持适配,呃很多的这一些 agent 的 一些这种开发框架,然后能够把一些这种垂域典型的应用,然后接入到这样一个 啊 agent 就是 训练的一个系统里面来,然后它的下面其实也是呃使用了我们升腾的一些这种大模型训练推理的一些这种后端运行。这里面包括像 vm 蜂的,包括 s g 浪, 包括训练里面的有一些 max speed、 r l 啦,包括 v e l 等等的这一些这种经典的一些这种大模型训练的一些框架, 然后我们这个框架,然后在中间,然后提供了啊两大块的就是一些特性。第一块的话我们跟它叫基础特性, 这一块包括像 agent 服务的一个接入管理,包括这种讯推权重同步的一些这种管理,还有就是 agent 整个多轮长城的这种轨迹上下文记忆的一个管理,还有就是呃任务调度编排上面的一些管理, 然后除了这一个基础特性之外,然后我们还有一些这种高阶的呃一些特性, 这里面典型的有呃同步共卡的,包括这种异步迅推分离式的这些特性,还有就是呃像支持一些经典的 on policy 的 一些 rl 的 一些训练的一些 agent 算法, 还有的话就是针对大模型的这一个呃训练的一些呃 robert 加速这一块,其实我们这一边也沉淀了一些像混合批次调度一些相关的一些算法能力。 然后还有额外的一块是我们现在呃正在开发中,马上就可以呃,让开发者看到的是这种垂玉的微调数据合成相关的一些这种能力,包括一些这种呃算子生成类的这种垂玉的一些数据集。 对,然后这一块的话是我们整个二 r 框架的一些这种核心的特性,然后我们还有一个呃比较明显的一些这种优势,就是我们对于开源生态的这种兼容的油耗,然后我们南北向的这种节藕支持主流的这种 呃开源的啊训练推理框架,然后与 a 正科开发部署框架,然后我们这个框架提供的是 a 正科端道端训练的一些加速,还有在这种多轮超长上下文训练的稳定收敛相关的能力。 哎,听着这个训推框架,这个 l 这个框架很很可以啊,然后因为我们也是有很多上层的 这种需求,不知道这个后续的 excel 框架是否会开源,还有什么计划?嗯嗯,对。然后我们这个 ror 的 话,我们这个迅推调的一个优化框架,其实现在 prebel 的 版本的话已经开源了 啊,未来的话我们也会有更多的一些特性的一些规划,包括路由 mac。 接下来会讲到,然后我们已经进行持续的这些特性的迭代,未来的话我们会全面开源, 同时的话也欢迎呃咱们这个浦江实验室的赵老师这个团队未来能够在咱们这个升腾二 r 这个优化框架之上,然后进行一些呃,咱们算的升腾了,或者说其他的更通用场景的后续量的一些调优, 好好的。然后下面的话,呃,我们也有请另外两位升腾的专家,然后我们先让这个呃冯桐,然后介绍一下这个 cambod 好, 冯桐 好。呃, camote 的 话主要是为了提升呃看算子开发效率,然后提供了一系列的智能体, 然后目前的话 camote 是 支持多种算子编程能力,然后包括 ac, 然后 kataus 的 模板库 tray, 呃 tullon, 包括拍 pto 这些都是支持的。然后它整体是覆盖了呃整个的算子开发群流程,包括一个环境的配置, 呃算子的设计代码实现,然后算子测试,包括最后的文档编辑,然后整体它。呃呃安装也特别的方便,采用那个 plugin 方式安装,即插即用,只需要单条命令就可以安装完成。 欸, kano swift 和 cambote 好 像在这种功能上都是会生成算子, 那 kano swift 我 们是采用了这种进化的算法,然后比如用呃 elix 这种算法维持进行档案,然后有多岛屿的模型,然后也有一些知识点。呃,不知道 cambote 这边对于这种进化算法有没有一些考虑过? 呃 camote 的 话目前主要还是基于我们呃算子的专家经验,然后沉淀的一些 skill, 但是我们同时也在进行呃基于一些迭代进化的一些尝试,呃,后面我们也可以借鉴 kano swift 的 一些成功的经验。 然后 camot 的 话,它现在整体架构是一个分层结构啊,组合编排,然后是为了适配多场景的一个开发。在最底层的话是 skill 的 一个知识能力层,然后这这层包括一些原子的 skill, 包括一些那个 n, p, o 架构, 呃,整一些 skill, 然后他林设计的算子,他林设计的一些 skill, 然后还有呃圣 c, 然后包括 tritone, 他 还浪一些 api 最佳实践的一些 skill, 呃,还包含精度,然后运行时调试,然后性能验证的一些 skill, 然后电。中间层的话是 sub 二级的层, 呃,我们定义为角色的一个执行层,然后它包含,呃方案设计的 subtitle, 然后代码开发的 subtitle, 然后代码简式和性能调优的 subtitle。 最顶层的话,呃,我们定义的是应用编排层, 呃,这层主要提供就是下面呃中间层的一个角色的一个编排, 整个算子开发流程的一个编排。然后最顶层我们现在提供了 eson c control 直调的一个开发流程,然后 eson c 这另一算子也就 s, l, n 的, 呃开发流程,然后还有 triton, 呃, pi p, t, o, 呃,包括 kata labs 的 一个整体的一个算子的开发流程, 呃,这个是算子的一个整体的啊。 combo 一个整体的架构,呃,现在给大家演示一下,就是 combo 的 一个使用的呃过程, 它会先进行一个那个环境的检查,然后设计 event, 会进行一个算子的设计,然后设算子设计完成后会和开发 event 进行一个呃串讲,然后交流,就是 呃一起来交叉验证设计中存在的问题,然后进行相应的一个修改,然后修改完毕后,开发 event 会进行算子代码的一个生成, 扇子代码生成完成之后呢,我们还会有一个代码显示的一个 agent, 然后去检测代码,如果代码中存在一些问题,然后会返回给开发 agent 进行相应的一个修改, 然后最终扇子开发完成,然后编辑,嗯,编辑通过后会进行一个那个性能和精度的一个测试,测试完成后,然后会最终输出一个呃, 整体的一个报告,开发的报告啊,这个就是整个 camot 的 一个开发的流程。嗯, 好的,然后感谢冯腾的介绍。然后下面的话请这个文杰,然后给大家介绍一下咱们 man studio agent 相关的一些这种加固解读,还有实操的一个演示。好,我来为大家解介绍一下深腾的 man studio agent。 首先 man studio agent 是 一个非常好的宅体, msu agent 的 应用场景呢,主要是分两大块,第一块呢,就是说我们针对特定的一些开发流程,比如说,呃,可能在做训练开发或者做推理开发的时候,我们会涉及到一些精度调试,性能调优,模型量化的一些过程, 然后呢,这期间呢,可能会有一些算子的优化,或者算子开发的一些工作,这是一些单点的流程。然后另外一块呢,就是说我们会涉及到一些端到端的迁移,比如说我们从 hackinface 上下的一些模型,怎么在生成上端到端的跑起来, 这是主要的一个应用场景。另外呢, agent 本身其实就是一个协调的系统,它需要 知识库,然后基础设施还有资源的工程管理来做一起协同。所以我们整个 agent 呢,在上半部分呢,我们会以这种功能性的 sub agent 的 形式来提供。 然后呢资源管理这里会,对啊,我们能够接入的这种 l a m 的 api, 然后 agent m c p 等等去做管理。 知识库这里呢,我们会沉淀我们在深层上的一些调试调优的一些经验,以及我们在算子开发上的一些经验。然后基础设施这里呢,就是我们原来 m c d 构筑的一些啊,工具化的能力,这些呢,也可以不管是作为啊 m c p 化去调用,还是说能直接在 在那个 agent 里面去去调用,然后里面呢有一些我们承载的一些知识库都可以去给 agent 做使用。 然后右边这个图呢,我们从现状来讲,可能更多的用户都是一步一步地手动地去执行。那有了 agent 以后呢,我们其实是希望 agent 能够自动地去做这种流程化的编排,能明确比如说第一步应该干什么 上来,比如说我们要先去做一下模型的一个设计,我怎么去做这个啊,变形的一个策略,或者说我怎么样去部署。然后第二步呢,去做我们的设备开发,比如说我们这里可能会涉及到算子的调试调优,做模型的量化,投机推理的模型的开发等等。然后呢再进行调试调优, 我们希望说 agent 这个 m master agent 能够调用它自己的 sub agent, 能把这一步一步的流程全部给自动化串接下来啊,下面呢,我将通过一个呃量化的例子给大家简单介绍一下 master agent 是 怎么去运作的啊? 这里呢,我们先启动了量化的这个 agent, 然后呢告诉 agent 我 们需要做的事情就是调一个千万三三十二 b 的 模型,然后去做量化啊,精度损失呢要求是小于百分之一。 然后 agent 呢,它开始去思考做流程的一个编排,主要目前识别到它需要做两个阶段,第一阶段呢就是去做推理模型的适配。第二阶段呢就是去做量化的一个迭代。 推理模型的适配呢,主要是因为我们会涉及到一些新的结构,新的模型,所以呢我们会在里面会因为要做离群值的抑制啊等等的一些适配工作。 然后第二块呢,又分了三个迭代,就是三呃阶段二,又分了三个迭代,分别是进行方案的设计,怎么去做量化。 然后第二块呢就是模型具体的量化的一个过程。第三块呢就是去做测评,我们量化出来的结果,它最后的在数据集上的精度的表现是怎么样子的, 这些都是 agent 自己去主动执行,然后呢一步一步的去结,根据结果去做反馈, 我们可以看到它现在已经在阶段二的第三个迭代的部分了,在做精度的测评。 好,精度测评完了以后呢,他其实发现现在第一轮迭代完,就是精度是没有符合我们的目标的,所以呢他又开启了这个循环的过程,就是说继续去做方案的设计,量化跟测评的一个过程, 直到说要么达到我们的退出条件为止,或者说达到了目标为止。 然后这里呢,我们其实也是在量化里面呢,也是分了三个 sub agent 去执行的,就包括这种工具的 agent, 测评的 agent, 以及我们量化的这个专家的 agent, 就是 让每一个 agent 能够更加专注于自己的一个领域啊,避免这种多 skill 的 加载或者多 m c p 的 加载,能把它的这个呃上下文啊, 那个用完。然后呢?所以可以看到结果啊,最终三次三轮迭代完,最终的结果他是找到了一个最优的一个结果啊,精度已经达标了,就是这样一个案例给大家分享一下。 哎,这里有一个关键的问题啊,就是比如我们人类在做这个,比如说算子开发吧,我们会借用一些工具,然后比如来看指定流水图啊, 然后来看库布利用率, back 利用率,然后来判断这个算子还有没有优化空间,或者是下一步的一个优化方向。那我们 ctrl shift 在 做的时候,呃,也是,呃,因为工具 只能比如扇子流水图只能依赖于人类来分析,所以能给大模型的这种优化建议有限,不知道你们这边呃能不能就是会不会提供一些对大模型比较友好的这种优化方向的一些建议? 嗯,好的,赵老师。因为其实 madison studio 本身就是在做这种调优的建议,或者说我们期望说 aj 能干的事情,一个呢是自动化的,能够去帮我们去做一定的调优。另外呢就是说如果说自动化 不能完全自动化去优化的部分,我们也希望他能给出一些建议啊。这个我们在后面的 road map 里面可以去详细介绍一下。 嗯,好好的。然后呃,前面的话就是我们三位生成的专家已经介绍了各自的一些能力,然后下面的话我们也介绍一下,呃各自能力的一些这种规划 roadmap 相关的一些内容。 好的,然后下面请这个文件给我们介绍 marsuud 的 一些论文案。嗯,好,我们 marsuud agent 的 话在我们 q 二阶段呢,目前主要还是聚焦于原子能力的构建,就是因为我们本身其实 marsududu 有 很多这种啊, 已经已经成型的工具,那么我们会把它做 a 卷的话,能让它解决,比如说像模型刚才端到端的一个量化的一个能力啊,不需要人工去介入。另外还有一些像刚才赵老师提到的算子性能的一个采集分析,然后还有模型性能的一些优化建议,精度溢出精度的问题诊断等等。 然后在 q 三呢,我们会更多的去聚焦场景化的能力,主要是面向开箱场景,我们能去做一些并行策略的询优,然后以及提供开箱性能的一个优化跟建议。 然后 q 四呢,我们会继续去扩充场景化的能力,主要针对一些特别疑难的精度性能的定位的一些问题。 主要是像包括像刚才提到的,我们如果强化学习的精度有问题了,那我们怎么去结合 agent 能够把它快速定位?另外呢可能还有一些在长稳性能的抖动的问这个问题,我们目前也是希望 agent 能够发力,能去帮我们做快速提效的啊。嗯,好的。 然后,哎,冯桐,你这边对于 cambote 这一块有没有一些规划可以给大家讲一下。嗯,呃, cambote 的 话,今年后面主要是还是针对呃算子生成能力呃的提升的一些目标。然后 q 二的话我们 是支持 vector 类算子的一个生成,然后生成的算子性能达到零点六倍的手写。然后 q 三的话主要是做 cv 融合呃,包括 amount more, quantum more, 然后 attention 类的一些融合算子的一个生成,然后生成算子性能可以达到零点六倍的手写性能, 然后到 q 四,呃全年的目标就是要支撑全量算子的一个生成,然后最终生成算子的性能达到零点八倍的手写算子。嗯, ok, 好的。然后下面的话我这边然后介绍一下 aura 我 们这个迅推叉框架的一些就关键一些里程碑信息 啊。目前的话我们已经有了这个 preview 这个版本,这个版本的话已经具备了像 all policy 的 一个迅推共卡的这样一些特性,包括迅推分离的一些特性,以及一些这种混合皮脂调度的这种加速的一些特性。 然后在今年的 q 二,我们这边也规划了异步的 one step of policy 这样一个呃高阶的一个算法的一个支持。然后我们这边同步也规划了两个实验性质的特性,这边有黑盒的 a 政策接入,包括这一个 m o e 类模型的这一个路由的重放等等的一些这种特性。 然后在今年的下半年,然后我们这边也重点规划了像这个 farthink 权益部的这个噢 policy 的 相关的一些算法,特别是怎么样把这个精度做一些这种对齐,还有的话也支持这个 prefix r l 的 这一些呃树状的这种前缀的加速的一些算法,以及这种融合树搜索的 一些 r l 算法,还有就是我们这边也规划支持多模态 a 帧的一些 r l 算法,还有就是我们这边也规划支持多模态 a 帧的一些 a r 算法,还有就是我们这边也规划支持多模态 a 帧的一些 a r 算法,还有就是我们的这个 h e。 然后我们这边也会针对呃升腾的一些这种呃,就是不管是九五零还是我们现在呃已经发布的一些这种呃升腾的一些这种易购的一个算力,然后我们能够支持一个低比特的这个 i l 的 一个训练, 以及还有就是我们这边也规划了就是支持一个呃自吸梳投机的这样一个呃方法,也能够加速这个 a 证和 i l 的 这样一个训练。 然后下面的话我们也给了一个 alpha 框架的这样一个 gitcode 的 一个链,一个链接,然后也欢迎各位开发者然后访问这个开源代码方下载使用, 然后在使用过程中的话,如果遇到一些问题,还有一些新的一些特性需求,也欢迎随时提一束,然后在社区里面我们进行一个快速的一个反馈,一个交流。 好的,然后今天的呃我们这个几位专家的分享啊,就先到这里,下面的话我们进入这个自由互动的一个时间,然后线上的这个观众,然后有任何的想要交流的一些问题,都可以直接打到公屏上面,然后与线上的我们这些专家进行一个探讨交流。好的, ok, 咱们现在已经打上来了,是不是? 行?然后这边有第一个问题,然后呃,新手用 camot 开发算子,需要提前掌握很深的看的一些底层知识吗?还是跟着这个步,然后直接就可以上手? 哎,冯同,你这边给那个这位朋友,然后解释一下。嗯,呃, camot 使用 camot 的 话不需要掌握看的底层的一些知识,然后 camot 包含整个的算子的开发流程,包括呃你环境的安装,这个都是有对应的 skill 去完成, 就是新手也不需要去呃管理这个环境,安装这些这些事情,整体的话都是由 cambod 来完成的。然后 呃, cambod 的 安装的话,也是提供了插电式的安装方法,然后现在目前已经适配了像主流的呃, open code, 呃 tree 啊,然后 costo 这些,呃主流的一些开发的工具,然后可以直接使用,然后 呃,呃,对于算子的生成的话,你只需要输入呃自然语言的一些算子算法的一些描述,然后或者就是算子的一些公式,呃,或者提供比如说 touch 实现的一些那个精度标杆,然后 给到 cambot, 然后它就会对生成对应的一个算子,并最后进行一些精度啊性能的一些验证,然后呃, 呃,在 cambote 社区上,呃,有一我们也提供了 canlab, 就是 云上的一些开发的环境,开发者可以免费的去试用。 嗯,好的,然后我们看一下下一个问题。 好,然后这个问题是,呃架构当中,然后 m, a, p, e, l, s, 然后算法与岛屿模型,然后分别解决了什么样的问题,然后两者是,呃如何配合工作的? 哎。那个赵老师 ok, 嗯, ok。 这个是 kano swift 这个系统中一个核心的一个模块啊, 就是这个净化引擎内部,呃是分为多个岛屿的,然后多个岛屿进行一个独立的这种净化,然后定期再将岛屿之间做一个精英的一个交互,这样子是为了提高这个,呃, 这个,呃进化的这么一个效率,然后能够更更更高的,更快的来得到这个最优的这种个体。然后 mapys 是 一个精英档案,它回答了智能体是需要一份覆盖所有可能性 的一个地图,也就是说这个档案它是一个。如果以二维的方式来呃来比喻的话,它是一个网格嘛,也就是说每一个坐标就代表它生成的这个算子的这种特征下,呃,这个网格里面最优的这么一个个体, 那在多轮进化以后,这个网格会被填满。在这种架构下,这种代码结构下具有的个体是这样子,在另一种那个代码结构下具有的个体是那样子,这样对环境不确定性和任务多模态,这种呢就是会会这个很好的一个适应性, 所以说两者配合实现了这种规模化,然后易购化,然后鲁棒化的一个质量,一个多样化的一个生成, 主要是为了解决这种从单一的最优策略来迈向这种情景的自适应的这种策略所需要的一个核心的这个技术组合,也是我们 control swift 的 一个核心的一个一个技术点,大概是这样子,嗯, ok, 哎,我们再看一下其他的一些问题,好,然后这边有一个线上的观众问到,然后在升腾平台上面,然后进行 a、 n、 t、 i l 的 训练调优,然后现在都有哪些优势? 呃,对,然后这个问题的话,然后我就来回答一下。就首先的话就是呃 agent 一个 r l 这个场景,其实它是有很多这种特点的,包括像这种多轮交互,然后长城,然后就是上下文长度比较长,然后与工具之间进行一些这种动态的一个交互等等。这些特点。 其实我们这个 o r 的 这个开源大模型,以及典型的这个 agent 垂云应用的一些呃案例。 然后例如像我们比较常见的 third 类 agent, 包括 coding agent 以及这种运维场景的一些这种 agent, 其实这些 agent 在 我们这个二二框架上面都是经过实战验证的,然后我们能够做到一个开箱即用,方便易用,然后也可以减少大家,然后在训练过程中少踩一些坑。 当然针对这个升腾的这个翻底底座,包括这个特性,其实我们也做了一些这种呃调度性能上面的一些这种优化,我们也能够大幅缩短训练一个端到端的一个时长。同时其实我们在精度这一块也做了对齐验证,确保在整个训练过程中长稳稳定收敛 啊。后面的话,其实我刚才的材料里面其实也讲到后续的我们这个二二框架将会重点围绕着异步 of policy 以及低精度的这一些低比特的这种啊,易购的这种训练,以及投机推理的一些这种加速 啊等等的这一些,最终能够提升 agent 应用开发工程师还有咱们开发者的工作的一个效率。对,嗯,好的,我们再看一下其他的一些线上的一些问题。 好,对,然后这边有一个问题是 agent 生成代码的稳定性如何保障?呃,如果生成的代码存在呃语法或者性能不达标,那么接下来之后应该怎么处理呢?呃,这个我看一下是不是呃文结你这边,嗯, 这个要不赵老师可以啊,回答吧,哈哈,可以可以。呃,在我们 control swift 在 进行这种若干轮的这种进化的过程中啊,确实会 呃存在这种 agent 生成的代码什么稳定性的问题啊?然后还有错误,语法问题,性能不达标的这种问题都都会存在,因为不可能一下子就能够生成呃最优的结果,所以这是也是一个实践的一个一个 呃实践出来的一个结果。所以我们在呃,我们只能尽最大的努力,让 agent 每一轮迭的过程中 呃都会产生一个最好的结果,但不能说完全保障,然后在最后呃整个进化到最后,然后再选取一个呃精度肯定是达标,然后性能最好的这么一个个体。嗯,那在这个呃每一代进化过程中具体是怎么保障的呢?有有有多个方面吧。 一个方面是一个代码稳定性的问题,也就是说在单轮进化的过程中,我们会呃告诉他这一个 呃 api 的 一个使用方式,不让他自己自由发挥去猜测这个 api 的 使用方式,而是从我们的知识库里面来查找这个 api 的 输入应该是什么,输出应该是什么,根据我们的这个所所谓的一个手册来进行一个编程,而不是自由开发。 第二个是那个事后的一个反馈,也就是说他生成了这种蛋吧,然后我们拿去翻译的时候发现有翻译错误,那翻译错误信息再反馈给大模型让他去改,然后修正这个翻译的错误。 ok, 这是这是这两点,那性能不达标的问题就只能是呃呃有有多,也也是有多个方面吧。一个是 我们会有一些优化的 pattern, 比如我们现在生成的那个任务有呃有上千个任务,然后在呃 已经生成了有上千个算子,然后在这样生成的过程中,呃每一轮的一个优化的一个一个会沉淀下来,刚才讲到优化的这个优化经验或者优化 pattern 会沉淀下来,作为下一轮呃以后后续算子优化任务的一个一个一个鲜鲜艳知识, 那后续他会先读这个知识库里面相应的知识,然后这样子来保证后面的任务,然后能以较快的这种方式,就是较少的这种进化轮次来达到一个呃较好的效果。 大概是这样的。哦,我接着赵老师的再补充一下,就是说因为刚才也问到,就是说比如生成的代码存在语法错误或者性能不达标吗?因为其实刚才赵老师介绍的时候也有一点,就是我们也可以分布走,比如说我可以先自动生成一个 啊,可能功能或者精度性能没有那么完美的一个算子,然后呢我再用 agent 再继续去对它做啊进一步的优化。然后呢这里我们就像刚才说的,它其实是一个反馈闭环的一个机制,就是说比如说我们希望它的性能达到一个什么样的水平, 然后呢它不断地去寻找,不管是做胎龄也好,还是说怎么样去优化它的一个啊,算子的一个啊,搬运跟它的一个计算的一个逻辑啊, 来使它这个最终的一个性能能够向着我们预设的这个目标去走啊。所以它其实也是一个 agent 的 一个能够自动化的一个过程啊。嗯, ok, 好 的。然后我们再看一下其他的一个问题。 好的。然后这个问题是,呃作为新人能不能直接雇用老员工用 agent 沉淀下来的工作流,呃,这样是不是就能少踩很多坑? 呃,这块儿应该和 scale 有 一些关联性,呃要不相同,呃。对。其实我们目前做的些工作就是,呃就是像这个问题所描述的一样,就是把专家的一些那个经验,然后像算子开发的一些调优一些经验,然后沉淀成 scale, 然后呃,呃供那个让大模型去更更加的了解,然后生成的一个算子的开发,然后后面如果新手直接使用这个 skill, 然后用 agent 就 可以生成一个相当来说性能呃比较好的一个算子。 嗯,对。其实我觉得它可能不只是老员工的这个经验沉淀,对吧?因为我们在网上其实也能看到很多的 skill。 对 这些 skill 呢,一方面就可以大家可以直接拿来做使用。 另外呢我觉得可能随着将来模型的一些发展,我们现在在网上的这些 skill, 嗯,都有可能成为现在的就后续发展的这些模型的语料,嗯,有可能它直接就沉淀到模型本身里面去了。是的,它会内置到模型的一个知识里面。对, 呃包括,呃像我们自进化过程中,然后模型一些比较生成比较好的一些算子,它那个,呃它的一些总结,这部分其实也是可以沉淀成 skill 的, 然后对后续的一个算子的生成,呃效果会有所帮助。 对,其实刚刚那个问题的话,其实我也突然想到了,其实这个呃 scale 其实本身其实现在也有一些最新的一些技术在搞这个 scale i l, 呃,期待的话,其实后面的话,我们这个二 r 这个框架未来是不是也能够支持更多的这一些 scale i l 上面的一些能力? ok, 然后我们再看下一个问题,对,刚才那个问题是不是挺好的?对,就这个这一块应该是 uh 原子弹当中的两个组件,对不对? 我看一下,呃,这个是 come, 哦, come 是 吧?对对对。然后这个问题的话是应该是 performance 的 tuner, 包括 tester 这个 agent 能够帮我们优化到什么程度? 比如能够推理速度能够提升多少?有没有一些对比数据?好,那就请鹏鹏为大家做一个分享。嗯,这个的话像,呃经过调优之后的升腾的 vector 类一些算算子,呃目前的话是可以达到呃零点六,然后到一点零倍的一个手写的性能,然后 呃比如说针对一个特定的一个模型场景的一个 shape, 然后目前的生成效果,呃还是比较好的,呃,有些还是,有些甚至可以达到手写超越手写的极限。但是整体的话, 呃泛化性能,这个其实是一个比较大的一个挑战,就是多种 shape, 我, 呃同时性能都比较好,这种目前来说,呃还我们还在解决中。 嗯啊,不过针对特定的一个算子那个模型的一个 app 的 场景啊,目前来看的话已经达到一个可用的一个程度。 ok, 好 呀,然后现在这个线上问题是针对这个升腾 npu 的 一个硬件特性,这次的升级是在这个底层算子融合和分布式通信上做了哪一些的这个,呃性能的优化,从而支撑这个 a 阵上能够高效的一个运行。 呃,看这一块是不是是和算子这一块的吗?包括通信算子相关的。 呃,这个我觉得是这样子啊,大家也可以关注一下明天正式要开始的这个 kdc 啊,那上面会对,呃,比如说我们升级的分布式通信或者扇子的一些优化去做更详细的一个介绍。 可以啊,那就在咱们这个直播上就不限剧透了,我们再看下一个问题。好,然后如果缺乏哈密斯的一个约束,可能会带来一些怎样的一些潜在风险? 看一下这个问题,要不文杰你继续给大家做一个分享?好,好,呃,因为我们都知道 agent 它其实的核心价值更多是在它的一个呃自主的一个执执行能力, 那么哈尼斯的约束呢?其实就是让这种执行不会失控,或者说能够在我们的一个约束掌控范围之内啊。然后哈尼斯做了几个约束的机制吧,主要是我主要是可能几块吧 一块,就是他会有一些啊状态的管理,比如说我们避免一些重复的状态的一些执行,然后呢还有一些像权限的一些约束,比如说他能干哪些事情,哪些不能是超过他的一个权限, 然后呢还有一些去做这种啊流程性的叫验也好,或者说他最后的一个反那个 反馈的一个纠篇也好,就这些都是属于哈尼斯的一个约束的一个机制里面。我认为啊,然后如果说,呃没有这些约束,那么比如说我们没有状态的管理,或者说没有这种权限的约束,我觉得一方面会导致有一些呃状态是 它没法被记住以后会去重复的执行,有可能它会陷入到一些死循环里面去,然后呢会不断地去占用我们的资源,一方面是系统性的资源,比如说像我们的 cpu 啊,内存啊,另外呢就是会导致我们的 token 消耗的非常快啊。 然后呢另外比如说没有权限的约束,那么这里可能会导致一些比较危险的一些知心的行为,比如说我们系统上的一些文件会被删除、误删等等啊,这些行为对系统的伤害是不可控的啊。然后呢还有一些就是说 会导致一些啊行为跟我们目标的其实是啊偏离的他执行者,执行者可能不按我们的指令遵从去执行,然后呢会发生一些一些不可预测的行为,到最后呢我们去回过头去看模型到底执行了什么的时候呢?也可能说 没有办法去做具体的一个审计了啊,我觉得可能主要就这些吧。嗯,好的。呃,然后线上的伙伴还提供了 呃另外的问题,对,然后这一块是 a c n t r l 框架这一块,然后呃现在的话提供了一个 a c n t r l 这样一个框架,然后在其他的一些能力,特别是合成数据这一块,我们有没有一些方案? 呃,对,然后这一块的话,其实做这个大冒险,包括 a、 c、 n、 t、 r、 l 整个的这个训练这个过程当中,其实这个数据其实是非常非常重要的,然后我们其实也发现了这一块的一些这种需求。 然后特别的话,其实我在我的材料里面其实也提到了一块有一个叫垂玉呃轨迹数据合成的这样一个工具啊,这个工具就提供的就是训练数据的一个构建 啊。我们规划了这一部分的呃数据合成的方案,这里面包括了呃有一个 agent, 一个 rag 的, 然后这样一个复杂多条数据的这样一个数据集。 其实这一块的话我们是正在过程中,然后未来的话应该在呃几个月之内,然后去开发者朋友们就可以看到这个特性。其实我们现在还给了另外一个。呃,在我们蜂的社区里面有一个蜂的 c 算子生成的这样一个微调数据集,就大家可以访问我们的 kto 的 这个社区,其实可以找到这个数据集。 然后未来的话就是这一些数据集,包括一些合成的方案,我们都将以开源的形式提供给开发者,然后希望开发者能够通过 fft, 包括 i、 l 等后续量的方式能够端到端的提升。呃,我们的这样一个呃训,就是应用效果的一个性能,嗯, ok, 我 们再来看下一个问题。 ok, 然后这边是在 a 阵体的升级过程中,为了打破这一个单体大模型的这样一个性能的瓶颈, 我们这个底层框架上面如何设计多智能体之间的一个协调,实现真正的这样一个智能高效?是否引入像 autot 阵啦,包括 mate, gbt 等等的这种分布式任务的一个编码能力? 呃,看一下这一块儿是不是更偏向啊 agent 的 一个架构,特别是 marty agent 这一块儿, 哎,我记得文杰是不是在咱们 studio 就 marty studio agent 里面是有这样一个设计的一些架构元素在里面的,呃,你可以给这个可以简单分享一下。嗯,可以简单分享一下,就是说, 呃,因为在后续,比如说我们其实会面临像现在的大圆模型,它的上下纹长度是比较有限制的。嗯,那不管是如果说只有一个智能体,我们把所有的 skill 跟 mcp 喂给这个智能体的话,经常会产生这种,比如说不管是幻觉也好,还是说 错误的调用跟错误的一个啊指令遵从啊。所以呢,我们会设计这种多 agent 的 一个协同,嗯,让 本身的主任务有一个主 agent, 嗯,这个主 agent 呢,他可能干的更多的是一个路由或者分发的一个 agent。 其实呢,这个有点像我们呃大源模型里面的这个 me, 就是 让专家 呃,让那个路由专家去专注于自己的一个,呃,就是领域啊,我所以我们可以把 sub agent 让他能够更专注于某一个领域,为给他的 skill 或者说他的一个工具调用都是 这个纯域的。然后呢,这个路由的 agent 呢,它会去因为本身就是渐进式的去读取这些啊, reference 也好,或者说 skill 也好,所以呢,让这个路由的 agent 它去跟底下的 sub agent 去做通信,然后 sub agent 呢去记录它本 领域的一些上下文,而 agent 那 这个主 agent 本身呢?它只记录它这个流程编排上的这个,呃,上下文啊。 嗯,好的。然后,呃,对,然后又有一个新的问题进来,然后这位开发商比较关注的是 kano swift 是 不是只能用于 token 生成, 还是它的适用范围有多广啊?那么我们还是请赵老师来给我们分享一下。嗯, ok。 kano swift 我 们是先做了 token 算子的一个生成,但是它不局限于只能生成 token。 呃,因为它这个框架具有通用性,它并没有指定语言,所以原则上只要定义清楚这个问题,并给出这种评判标准,然后 control switch 都可以进行自主进化来给出一个解决方案。 那我们现在正在做的是为多后多芯片后端,然后生成这种呃类 c 语言的一个算子,包括 ac, 然后还可以生成泰尔浪这种多 dsl 的 这种算子正在做。嗯, ok, 好。 然后对,看还有没有其他的一些相关的问题, 是不是我们的时间现在也不知不觉已经过去一个小时了,那么我们再找最后的一个问题。好,然后咱们就把这个问题吧。然后这个问题是用 a 整数生成的算子,然后性能跟人工金条的差距到底有多大?到底能不能直接上生产? 好,然后这个问题请请冯同再给大家做一个分享。嗯,这个其实就像我上个之前那个问题回答的差不多,就是在目前在那个固定的一个模型场景中,然后二战呢,生成算子的一个性能表现 还是比较可观的,然后性能区间也可以达到人工金条手写算子的呃零点六,然后到零点六倍以上, 不过像跨场景的一个泛化能力,呃目前还是不足的,但是在实际的一个开发的过程中,呃也可以帮助我们提升很大的一个效率。研发人员其实可以呃基于二阵子,然后生成一个算子的一个成果,然后进行一个二次的优化, 然后进行呃和适配的一个修改,然后这可以显著的那个呃缩短我们的开发周期,呃也是一方面提升了一个整体的一个开发的效率, 嗯, ok, 好 的。然后不知不觉的话就是我们这个直播已经持续了一个多小时了,然后最后的话就是还是感谢直播间的小伙伴们的陪伴,还有积极的提问。然后我们今天的呃这样一个主题的直播, agent 升级,就 agent 一个升级智能高效重塑 ai 开发体系 主题分享,然后到此就结束了,然后我们整个鲲鹏和升腾创享乐的这样一个系列的直播活动,然后我们也是最后一场,然后今天到此结束,然后欢迎各位呃开发者朋友们,然后在明天和后天就是二十二号和二十三号这两天, 然后鲲鹏生腾开发者大会还将继续在北京的中关村国际创新中心,然后进行一个线下的这样一个举办,然后欢迎各位开发者朋友们,然后能够到现场交流互动,最后谢谢大家,再见。


ai 开发卷风了的时代,比的就是技术和效率。由华为主办的年度技术盛典鲲鹏升腾开发者大会二零二六将于五月二十二至二十三日在北京中关村国际创新中心召开。本次大会将通过线上线下多种方式,帮助开发者学习和使用鲲鹏升腾软硬件技术、平台和工具,提升自主开发技术和 ai 创新能力。 大会将举办两场峰会、三十多场分论坛,听业内知名专家带来前沿技术分享,和众多开发者们一起探讨基于鲲鹏升腾的开发实践。 此外,现场还有超两千平米的展区,不仅能近距离看到升腾超节点、鲲鹏超节点领取等明星产品,还能参与互动,赢取惊喜好礼,又有干货又好玩,还在等什么?现在报名还有机会,期待与你相聚北京,和开发者们一起解锁 ai 开发新工具!


参加华为的鲲鹏升腾开发者大会,这是大会的标志,先到这里签到领号牌,号牌和餐券是这样的,会场里面是这样的,中午提供三种套餐, 在这里排队领午饭,边上还能拿薯条吃。套餐 a 是 这样的,打开里面是这样的,牛肉汉堡是这样的,套餐 b 是 这样的,老师不吃,我把老师的给吃了。 建议年轻强壮的小伙子还是选套餐 a, 要是不饿的话,可以选择其他套餐,我是下着雨在小亭子里吃的。这是会场的地图, 这里是会场分布,楼下可以扫码扭盲盒扭出来的球是这样的,我抽到的是,谢谢惠顾,有点可惜,这里是水吧,饮料自己选,这里是他们的宣传标语。这个发际线高高,感觉应该是真的。会场里还有比赛分场, 然后我就到这里休息了一会,喝了一杯人工咖啡,给我做了一杯拿铁。这是大会的设想声明, 大会感觉和农村大集摆摊差不多,都是把自己的东西在摊上摆一摆。大会六点多基本上就结束了,然后我就要坐地铁回去了。

这里面就是升腾的九五零 p r 对 标,你们知道我身后的这台升腾三八四超节点在全球卖了多少套吗?我视频结尾告诉你们, 先给大家讲一个概念,偷看经济算力,落到产业被用起来产生的生产力,现在已经是一套经济体系,那未来拼的就是谁能把这台大家伙产生的偷看落地的更深,转化的更好,成本更低。那除了这台,大家伙先带你们看点没有见过的小东西, 这就是升腾马上要发布的 atlantis 三五零加速卡,这里面是升腾的九五零 pr, 它的特点就是大 算力,在 f p 四下能够做到一点五六匹,在 f p 八下也能有八百 t。 更关键的是看这里通过领取互联可以把四卡连起来,单片的内存已经达到了一百一十二 g, 四片的话就可以扩展到四百四十八 g 的 大 内存。目前呢是升腾来提供这个三五零的标卡,合作伙伴集成以后就可以非常的适用于这种推荐算法。多模态冲吧,朋友们对标谁呢? 背背背背!来给大家看一点超节点的细节, n p o n p o c p o 通过零取互联直连,这就是它能够像一台机器一样工作的原理。那这里面的散热是通过冷板式液冷,百分之三十靠风冷, 上面 n p u, 下面也是 n p u, 中间是冷板式液冷,这是一个三明治的形态,那它的单卡吞吐在训练情况下是业界的三倍,在推力情况下是业界的四 自卑。不要以为 top 肯经济只是大厂游戏,看这一排哦,这里全是华为跟伙伴一起打造的基于不同场景和行业的算力一体机,我们叫它小而美,它里面已经集成了像底层的算力模型,甚至有的已经有集成软件,所以中小企业拿到都是可以开箱即用的。比如这一台 opencloud 的 一体机, 你们关心三八四超级点卖了多少套,但是我最关心的是他到底在哪些大客户上面用起来了,用的效果怎么样?来,我不是要给大家讲 ppt, 看这一张图其实很清晰,最底层我们不管从计算上运用到超级点,还是银行很关注的存储还是网络,都有底层的保障,以后你 才能够长出像平台和工具链,以及数据和知识平台。基于这些,你训练出了你的金融大模型,以后才能长出各种应用。 先说 toc, 掉用量最大的手机,银行每天上亿人次的调用,银行现在最关心的风控策略怎么样用 ai 去让银行的风控和合规风险降低。 现在银行的业务其实也需要提升,用 ai 去做智能陪练,帮客户经理去提升他的专业能力,这就是金融大模型在我们银行领域的全场景的解决方案。除了那些大产业,那怎么样让 ai 渗透到更多的中小企业呢? 作为商业市场,和他们的伙伴一起打造了一套十加九十五加 n 的 解决方案,沿着十个主流的行业去找到商业场景,打造了九十五个有价值的场景方案。这些场景下面还有很多子场景,就是要让 ai 真的 渗透到根儿上,这里面底层的支撑就包含了咱们的算力、 网络和存力,全部都在落地了,这是伙伴同太乙的一个计算服务器,看里边啊,有两个鲲鹏模组和八张深层三百 a r 的 n、 p、 u 现在已经应用在了像政府科研包括一些交通领域,已经卖起来了。 这是深圳科斯科技打造的一套海陆空全域 ai 大 模型无人集群系统,就是把无人船、无人车、无人狗和无人机全部集群到一个系统平台上去,做实时的任务编排,更多的是应用在一些应急领域, 它底层的算力支撑来自深腾,那这就是博华联合华为一起打造的一台设备预测性维护一体 机,听起来名字很拗口,但它做的事情真的是非常有价值的,它相当于给气轮机、燃气机泵类的这种设备安装了一个 ai 医生,给它带上了二十四小时的监护一样,提前能够预测会不会有一些故障,这样就能够给打 大型的,不管是油气矿山还是大型的设备工厂,能够减少因为设备性故障导致的停机带来的损失,很有用国内的头部,而且它是完全基于鲲鹏和深层的算力去做预测和提醒。 你们知道我平时开车最焦虑的是什么吗?就是你走到一个路口,明明发现没什么车,红绿灯为什么那么长?终于有方案了,这是海信网科跟华为联合打造的城市交通信控大模型,他们有专业的交通领域的垂直的数据,包括一些行业的知识库,训练了一个交通大模型,集成到了一个 ai 一 体机里面, 这里面用的就是深腾的钻力,那这个一体机给到我们的交警,交警就可以部署到当地去疏通整个网络,那目前在北京的朝阳,包括丰台都已经用起来了,提升了这一片区的交通体验。正好 我也在朝阳区,我真的发现了越来越多跟大家生活很贴近的场景应用。天虹基于生淘训练的智慧零售的 ai 大 模型叫百灵鸟,它们解决的就是零售场景,去帮助大型的商超、购物中心去做它们的营销策划。商品运营层面,你的哪些商品可能成为爆品, 应该怎么去做增减,都会给你一些更智能的提醒,帮助零售行业线上线下智能提效。其实我之前听过一句话,华为的技术不能只在华为人的手里,必须要下放到伙伴的手里,才能让 ai 真正的落地。 就是要把华为的平台、工具、技术,甚至人才、专家全面的去跟伙伴融合,才能够助力我们的 ai 落到真正的生产离层。 除了这些头部的中型的企业,其实中国还有五千八百万家小微企业,那这些企业他们虽然没有钱,没有技术,也没有专业的 it 部门, 但是他们是很有活力的,他们是我们中国经济最毛细血管的一层。这一层的智能化转型,华为昆凌也给到了他们的解决方案,四加十加 n 找到四个核心场景,给出了十套可以开箱即用、好用易用的解决方案,让智能真正地落入到 一层。那深腾已经在互联网金融,包括我们看到商业市场那么多的客户上用起来了,怎么让它越用越好用呢?对标抠打,华为的 can 在 软件层其实也做了非常多的优化和创新,那华为的 can 从去年年底就全面的开源了,针对 不同层级的开发者的需求,都可以做到更简单更易用。比如说像模型开发层,他们打包了融合算子和通算融合的这种能力,插件化的可以在模型开发上面去 加速和调用。而在蒜子开发层,很多的开发者都有定制蒜子的能力,他们的蒜子库也是全面开源的,基于蒜子工程能力也能做到简单 易用。你们要做性能调优的时候,可适化的性能调优一目了然。只有当整个生态的开发者感受到了好用易用,你的装机量起来了,你的行业应用起来了,那这个飞轮效应才会转动起来。 刚才我看到一个老师问那些学生说,哎,你们知道库达吗?发现没有人举手,这说明什么?连库达都在学生层面,还有很多人没有接触到,那国产算力是有机会的,我们就是要抓生态,从这群孩子们抓起。看了这么多的应用案例,你们还会关心升腾三八四超级点到底卖了多少套吗?看我的嘴型, 这已经不重要了,今天掏肯经济的黄金时代已经来了,那国产算力的优势到底在哪里?不止有电力,我们的技术加行业加应用的融合能力,以及我们的伙伴和客户的共生共长的关系,这才是我们真正的优势。一句话, 把 ai 用起来的能力就是我们的核心优势,那选择伙伴加华为,让你的企业轻松数智化。

五月二十二日,鲲鹏生腾开发者大会二零二六正式启幕。华为表示,在 agentai 时代,通算加智算需要协同,鲲鹏通算超节点将构建新一代 it 基础设施底座。当前 a 阵的智能体工作流中, cpu 工具调用食盐占比可达百分之九十点六,吞吐瓶颈占十百分之五十到百分之九十。 高病发 c p u 能耗高达百分之四十四,会产生大量异步分支常驻流任务,而这些恰落于 c p u 优势区。由此, c p u 从辅助配件升格为独立核算核心, c p u g p u 配比骤变至一比一到一比二,已成为 agent 落地的核心瓶颈与关键支点。 面对超高并发、超低实言、超大内存、安全可信四大核心挑战,鲲鹏给出了系统性答案。以通算超节点为核心,通过领取互联协议,实现全域内存统一编制。超低实言通信沙箱、百毫秒启动、秒级签并发, ai 记忆开销降低百分之五十。硬件及机密计算筑牢安全防线。从架构到场景,鲲鹏通过软硬协调助牢安全防线。从架构到场景,鲲鹏通过软硬协调、多实际痛点,凭硬实力成为最佳选择。