很多人都有同款疑惑,明明有 d p k 三点二卡的免费网页版可以直接用,为啥还要费劲配置 api, 花钱调用?今天先把什么是 api、 api 调用为啥要付费讲透, 再解开放着免费不用选付费的谜团,全是干货,一看就懂。一、什么是 api? 通俗大白话解释, a p i 全称应用程序编程接口,可以把它理解成 ai 模型的专用通道。我们平时用的网页版, a p p 版大模型是给普通用户的聊天窗口,只能手动打字、提问等回复, 仅现在浏览器 a p p 里使用,没法和其他工具联动。 a p i 则是给程序软件工具开的专属对接入口, 相当于给 ai 模型装了个通用插头,能让 cutcut、 python 编程软件、办公插件等各类工具直接和大模型打通连接,自动传输数据,获取回复, 全程不用手动操作网页。举个直白例子,免费网页版大模型等于线下门店,你得亲自到店排队,跟店员沟通买东西。 a p i 等于专属配送通道,商家直接通过通道给你送货,不用到店 还能批量下单,定制需求,适配各种使用场景。二、为什么调用 a p i 要付费?一、算力成本不一样。 免费版是海量用户共用服务器,高峰会限流、排队卡断。 a p i 是 专属优先算力,每一次调用都占用独立 g p u 宽带和电力,计算成本更高。二、 功能权限天差地别。免费版仅限个人闲聊,有次数长度限制,禁止商用。 a p i 开放全部专业能力, 支持代码调试、批量处理、商用授权还有稳定服务保障。三、使用场景完全不同,免费版撑死满足日常轻度使用。 a p i 是 面向工作编程自动化的生产级工具,服务价值远高于免费版, 自然要爱使用付费。三、放着免费大模型不用,为啥要付费调用? a p i 拿 d p v 三点二 flat 举例, 答案其实很现实,免费版真的扛不住专业需求。一、免费版限制多,耽误干活。 免费网页版由每日对话上限长度限制,高峰还卡顿断联,写代码做批量创作时动不动额度用光 路中断,没法满足高频工作需求。 a p i 无字数限制,想英文不会中途掉线,工作流不中断。二、免费版接不了专业工具, cut cut 编程 ide 这些干活工具只支持 a p i 对 接。免费网页版是独立聊天界面,根本没法和这些工具打通。想在编辑器里直接用 ai 辅助编程,只能靠 a p i, 免费版做不到。 三、性能加和规性差巨大。 a p i 版大多是增强版,代码推理,逻辑计算能力比免费版更强。 a p i 支持商用授权,工作盈利都合规。 免费版严禁商用,一旦违规直接封号,职场商用场景不敢用。总结一下,免费网页版个人闲聊情度适用 零成本,但受限多,仅限个人娱乐。付费 api, 专业生产工具集成高频商用,花钱买稳定效率和专属权限,不是免费的不好,而是付费的 api 更香。 但如果日常使用免费版, dipic 豆包就很香,按需使用不纠结。希望这个视频对你有帮助。
粉丝88获赞616

兄弟们,你有没有发现啊,打开豆包或者 deepsafe 网页的时候呢,有个位置啊,总写着 a p f, 它是啥?干什么的?举个例子啊,你想喝奶茶,你只要在奶茶店里跟店员说我要一杯珍珠奶茶,少冰三分糖。店员呢,就把需求传给后厨,后厨做好呢,再把奶茶递回来。大魔仙, a p i 就是 这个店员, 它是你和大模型通信的通道。软件呢,把你的问题通过 a p i 发送给大模型,大模型处理完呢,再把答案通过 a p i 返回给软件。那 a p i 里的那么多参数,嗯,是什么意思啊?

你的 ai 应用依赖大冒险 api, 那 如果接口挂了或超时,你怎么保证服务可用呢?那你等他恢复呗,这种事情他又不是天天有,你挂两个小时,你老板电话响两个小时,然后呢? 嗯,那我就跟用户说系统正在维护中,请稍后再试。你一个 ai 应用核心能力就是调用大模型,模型没了,你就申请一句请稍后,你觉得合适不? 那我自己跑一个本地模型给它顶上去呗。你本地跑什么模型?多大的显存?这里银值多少你算过吗? 我电脑十六 g 内存,跑一个七 b 的 应该行吧?七 b 模型并发十个请求你试试用户体验,直接从两秒干到二十秒。你确定这是顶上吗?不是雪雪上一个加加霜吗? 那我就重启一下 ap, 重启的话能解决百分之九十的问题。人家服务器都挂了,你重启什么东西啊? 那我多注册几个 a p r k。 嗯,这个不行的话就换下一个。同我跟你讲,比如说同一个供应链挂了换 k, 你 觉得有用吗?供应商和比如说供应商和供应商之间的接口、格式、模型能力都不一样,你代码里面印编码的一个模一个模型的应用你切得过去吗? 那我一开始就多几个多接几个供应商呢?这个还倒算,还还算一句人话,但是多过,比如说多供应商切换不同模型的 pro map 的 格式和输出风格不一样,用户体验不一又不一致,怎么办呢?那我不能学苹果一样让用户也适应适应吗?你这不是扯淡吗?

当 api 价格便宜到离谱的时候,你以为是他的渠道牛,其实很可能他根本就没有打算长期做,每天揭露一个 api 黑幕。今天要说的是,低价 api 为什么敢卖的这么离谱? 你是不是经常在群里面看到这句话,五毛钱一刀,一块钱一刀,比官方便宜几十倍,模型随便调用,先别着急上头,这里面的水比你想象的深。第一个套路就是低价吸引充值, 他把前期的价格压的特别低,让你感觉自己捡到便宜了,你一看,反正这么便宜,先充个几百几千块钱,甚至直接开始接入团队使用。 但问题是,这种价格如果长期连成本都覆盖不了,他靠什么活呢?很多平台不是靠正常的利润活着,而是先靠低价把用户和余额吸引进来,等用户多了,余额多了,后面要么涨价,要么限速,要么干脆直接就跑路了。 你以为你买的是 api 服务,其实你很有可能是在给别人垫资金池。第二个套路是先补贴后收割, 刚开始特别好用,速度也还行,价格也便宜,让你感觉这个平台真香。但是等你项目接进去了,提示词调好了,业务也开始跑了,他价格一涨,你钱都充进去了,只能不得不用了。接口慢了,你只能等模型换了,你还不一定看的出来,因为你已经被他捆绑住了。 第三个套路就是用便宜模型贴牌,高端的模型,你以为自己调用的是某个满血的模型,但后台到底是不是那个模型,你根本看不到,短时间测试几次,你感觉好像也能用,但真的拿去跑业务,尤其是进行批量生产, 智能客服代码调试这种场景,效果一不稳定,返工的成本立马就上来了。所以说 a p i 并不是越便宜越好, 合理的折扣可以有正规的渠道,也可以有价格优势,但是如果便宜到完全不符合尝试,就一定要多问一句,他靠什么赚钱?他的来源能不能说的清楚?出了问题谁来负责?能不能签合同?能不能开票? 特别是如果你要做项目,做产品,跑客户的,千万不要只看单价。关注我以后每天揭露一个 api 方面的真实内幕。

刚刚在群里看到一条消息啊,有一个朋友做海外 ai 模型的中转站被立案调查了,据说要判刑, 兄弟们,风浪越大鱼越贵啊,以后使用海外模型啊,可能要涨价了啊。今天呢,我们就讲讲什么是中转站,哎,中转站到底是怎么一个模型,为什么这么多人在搞这个?而且最近也特别火一个词,叫 a p n 转售, token 转售,还有好多人用这个东西呢,赚钱还赚差价, 对,它到底是怎么一回事?那么今天呢,刚好这一块我还很熟啊,给大家捋捋啊,首先呢,你看海外主要三家模型啊,最好的就是 arabic, open ai 和 jvm, 对, 那么它们呢,分别啊,首先它们都有自营的 app, 自营的网页啊,自营的 api, 对, 以及呢,它们同时为了更好的服务些大客户啊,它们同时在云场也有对应的这个 api 啊,就 a w s 和微软的 ar 啊,都有这个。 那么国内的话,同时也有一些代理商啊,那么这个渠道当然是最稳的啊,甚至 r 这一块呢, 在国内的用户都可以开发票啊,这个多好呀,是吧,那所以呢,你看,因为众所周知的原因,我们国内使用这几个海外的模型,人家是不给你用的,哪怕你能解决网络的问题,但是你呢, 没有信用卡,没有手机号,甚至还要你身份证刷脸识别,那你一看你中国人就不给你用了吗?对,所以呢, 这个渠道当然是比较好的,对吧?国内代理,这个我跟大家说过了,国内甚至有一些上市公司,你都可以通过他们的这个代理商用到这海外最好的模型,当然这个是最稳的,是吧? 哎,那这个中转站到底是怎么回事呢啊?给大家讲讲啊,这个和国内的情况也差不多啊,国内现在质朴,人家已经不卖这个定远计划了。为什么呢?我给大家举个例子啊,看, 以那个卡的模型为例啊,他的一百美金的这个订阅啊,一个月用下来,实际上你大概可以用到一千多以上的,这个头壳消耗,你看算算,一千一百十分之一的成本,对啊,这个大家谁不想用啊,那便宜太多了是吧?这 因为这个云炒的 api, 它都是一比一的啊,用一千美金你就得付七千人民币啊,对吧?那么所以呢,有人就想到了,哎,那我能不能我自己个人订阅,反正我在海外有手机号,有信用卡,甚至有人有人的这个护照,是吧?好,我呢, 把这些订阅呢转化到服务器上面,变成一个 api, 然后呢,谁想用付钱就可以用了,我是十分之一的成本,但我呢,哎,我给你再打点折,打个三折,五折,我还能赚个三倍,五倍,是不是? 对,所以有人就搞这个了,所以呢,你看现在什么人搞这东西搞最好呢?大家知道最近 b 圈的一帮人进来了啊,什么孙某某等等,是吧, 为什么他们能搞这个事呢?哎,他们原来在 b 圈玩金融的是吧,身份信用卡,什么手机号呢,都很多,所以呢,不要紧,封一个号再来一个,封一个号再来一个,所以他们现在这一块是玩的最好的,但是我觉得这些事是好事,是吧, 那原来呢,因为啊,我们国内呢,大家都得学习海外的魔性,这个大家都懂的,是吧?所以呢,这块其实我一直听说管的不是很严哈,甚至我们那些 ai 公司也要学习吧。你管严了怎么弄呢?这个成本这么低,是吧?这个人家不让你用的都是好东西,对吧? 但现在,哎,突然听说这个事要现在严管,这就不知道了,难道以后会怎么样?这个就不清楚了。

哎呀,圈啊,刮来了阵阵寒风, oppo 旗下的骚软彻底凉了。可不是什么战略收束啊,是直接认输退场。创始人在内部会议上说的明明白白,关掉 app, 关掉 ipi, 砍掉掐掉 g p p 的 视频功能,美其名曰团队啊,转去做机器人研究,说白了就是视频这条路啊,彻底玩不动了。连锁反应马上来了,迪士尼直接终止合作, 十亿投资作废,两百多个 ip 授权全部收费,果断切割,降低损失。有人问 open i r 为啥自断臂膀,核心就俩字,缺钱。收入二上线的五个月下载量暴跌百分之四十五,天天烧算力不赚钱,同行根本不答应。更关键的是啊,视频生成就是个死局, ipo 钱断币止血是唯一的选择。这是有人问的,那我们的心脏是能去做的住,但是根本不用。 存和骚扰根本不是一个玩法,骚扰是独立的 app, 自己找用户找流量,谁当时欠债豆包减一米,抖音几十亿的流量直接问,真正该慌的是可离,没有这些没有流量,没有护城河的。也许啊,骚扰的今天就是他们的明天。

前几天发布了一个一个一个博德的视频,我发现流浪流量还挺高的。 嗯,好多人可能想用 qd x 的 话,因为国内的好多大模型不支持 qd x 的 response 的 那个 api, 然后 cc switch 好 像也不行,我不知道是我没更新还是说更新了也不行,然后我就找到了这个 cc 就 ecoboost 这个这个东西, 然后就从这去下载下来,下载下来就和正常的软件安装一样,然后一步一步去安装好就就行了。 这是安装好的一个界面,然后在这个模型中心你就可以去添加添加国内的一些大模型,这儿有 deepsea, 有 字节的火山,有阿里的千万, 还有智普 mini max, 嗯,还有小米的,这些都有,然后这是我添加了火字节的火山引擎, 添加完之后呢,在这个应用管理这就可以看到,就是它你所有装的这些 a 阵的或者 c r 的 这些东西,它都会自动去识别。比如说我选到这个 c r 扣的这,然后我装的有卡拉扣的和 codex open code, 然后你就选中,选中酷狗 x, 然后这在右边选中这个你配置好的大模型,然后点启动应用就可以了,这样你就可以使用使用酷狗 x 了。

我们这里讲的不是 set token 技巧,而是直接把 token 赶到零这工具它可以把我们 ibisc, g r m 或者 kimi 等等是国内所主流的 一些网页上用的大模型都给它转换成标准的 api 的 形式,转换的是标准的 open ai 的 格式,所以目前所有的正体都能接入这个 api, windows、 mac 和 linux 的 系统它都支持。如果大家有需要的话可以在评论区留言,有用过的兄弟反馈,它的上下文只能做一轮的回答,其实是可以设置的啊,这里在我们左侧的这个 绘图管理里面有最大消息数和最大的 token 数,这都可以自定义,包括我用久了之后怕它的那个上下文窗口会超出。这里的话可以做一个 历史记录的摘要。这里我们打开 client 来做一个验证。首先我们把网页转过来的 a p i 给它接进去, a p i 的 形式和 url 照到我这里填就可以了。 a p i key 的 话在我们刚才的工具里面给它复制过来粘贴,这下面还有个 mod id。 这里我们也是打开刚才的工具, 把模型管理里面我们自己选择一个,这里为了防止他输入的时候大小写出错,所以说我就直接复制,然后过来直接粘贴保存就可以了。然后我们让他打一个百度试一下,当然这个 client 里面他已经接了一些 m c p, 这里面相当于有些工具看到他已经成功给我们打开了百度网页。我们再测试一下关于工具的功能, 让他在百度中给我们搜索一下 nba 的 今日赛况。这需要补充说明的就是他这里的搜索跟我们用 kimi 用 dsco 在 官网上搜索的 不一样,因为这个我是指定让他在某一个搜索引擎里面去进行搜索,很快我们看到他已经帮我们搜索好了,而且总结概述也是已经做好了。然后我们再问了一下哪只队赢了,如果只有一轮上下文的话,那这个问题他肯定是回答不上了,但是他是成功的回答出来。经过这一轮工具的调用,上下文的验证之后,我们看到我们所使用的金额还是零。

首先我说下大模型,模型呢,这种对话是人工智能的大脑有了这些大模型,我们问他们,他们才能够回答, 进行思考,然后回答我们的问题。然后我说一下 api, api 更像是这些大模型的接口,包括是豆包,还有这些 dbc, 还有 dbc, 还有我们刚才说的龙虾啊,还有可乐扣的 这些,必须要接入大模型才能够运转起来,不然的话我们输入什么他们是不会动的。现在网上都称为应该是梁文峰,都称他为梁圣,为什么呢? 因为他让大模型使用的价格很低。对于国外一些大模型,我也忘了他们国外大模型名字叫什么,反正很贵,就是现在有个词 top 肯也叫词源,这就是用来计算产生了多少内容,然后花了多少钱的这些衡量单位吧。 就是滔凯嘛,国外的这种大模型呢,可能是一百万个字,八十美金。然后我们国内呢,他的大模型呢,可能一百万,滔凯 八十块钱,五一的时候呢,他还打折了,好像是零点一折,就是说生成相同这种规格的文本,他只要花八块钱, deepsea v 四 pro 他花八块钱,然后国外的那些大模型花八十美金,差距就是非常大,就是大模型的价格,使用价格打下来,才能够让我们这些普通人或是啊学生党有机会去使用这些体验,这些人工智能为我们这些生活呢,能够提供一些便利。

a r 火起来之后,我们耳边经常会听到很多新的名词,比如像大模型、 算力、 token、 api、 中短 codex、 codes、 龙虾、 scale、 o p c a r 短句, 这些新的名词到底是干什么用的?他有什么作用?在 ar 这个生态圈里面,他处于什么样的位置?对于我们所有人,我们的机会在哪里?我这里用一张图来去解答一下。 ai 的 行业分为上游、中游、下游、上游,我们就简单的理解为大模型和算力, 大模型通过算力让自己变得更加聪明,更加智能,大模型通过算力生产更多的 token, 更快的响应客户需求,他们两者之间是相互成就,相互补充。我们这里可以重点看一下算力的机会。随着 i a r 的 需求越来越多,那么对于算力这个市场,他在上下游推动了很多产业的发展,包括像服务器, 包括像芯片,包括像路由,包括像存储,包括像贷款,包括像光模块,包括像制冷,包括像工程,以及人员的生产和消耗,它带来的是一系列的行业能力的提升。 那么大模型和算力结合之后,它产出的是什么?那产出的就是 tok, tok 你 就把它理解为流量的计量工具。大模型和算力我们是无法直接使用的, 它需要一个使用的工具或者一个场景,那么就衍生出了智能体加 scale。 智能体是什么?我们刚才说的 codex 是 智能体, code 是 智能体,龙虾是智能体,包括我们用的豆包是智能体, 可林是智能体,吉梦是智能体。为什么需要智能体?因为用户关注的是解决问题的能力,它需要的是把 ai 的 技术融入到应用场景,能够快速上手并能够解决问题,这就是智能体的定义。 有了智能体之后,他就需要很多的技能, api 中转本质上也是智能体,他本质上是解决的是多模型的 api 的 调用 和支付的统一。那我们为什么现在 api 中转变成很多骗局的代名词?主要是因为在 ai 发展的早期,平台有 bug, 政策上也有 bug。 那 么有智能体之后,他最关键的能力是什么?他最关键的能力就是他的技能,就他的工作流就是 chaos。 什么是 chaos? 我 举一个简单的例子,你是一个视频的博主, 你想通过智能体来自动的去发布视频,让这个智能体成为你的员工,那么你就需要给他一个技能,做一个 skills。 那 这个 skills 应该是怎么写? 一、每天几点钟去到抖音提取最热的十条新闻。第二个,将这十条新闻重新拆解,精简成一句话。第三,整理成一个文档。第四,将这个文档上传到剪映。 第五,有剪映生成一个什么类型的视频内容。第六,将生成的内容上传到某某账号。这就是一个简单的 skill, 是 可以用中文去描述的,不需要有任何的编程语言。这时候我们发现智能体加 skill 才是解决问题的真正的核心能力。 现在市面上好的智能体是稀缺资源,我们说龙虾出来之后全世界沸腾了, 靠袋子出来时候全世界也沸腾了,扣子出来的时候全网也沸腾了。为什么?因为我们缺少智能体, 缺少好用的智能体,缺少针对某个行业的智能体, ar 能不能好用,能不能让智能体真正实现自产自销, sky 就 起到了决定的作用。对于我们的企业,对于我们的 opc 的 团体, 智能体加 spa 将是一个巨大的市场,这个市场根本不缺客户,也不怕销售,只要你的产品是有价值的, 然后到下游,下游就是我们要去应用这个 ar 能力,那对于普通人来说, ar 就是 把你变成一个六边形的战士,原来你什么都不会,但是有了 ar 的 加持之后,你就成为全能战士。 你不是设计师,但是你有 ai, 你 就能够变成设计师。你不会拍电影,有了 ai 之后你就成为导演,你不是作家,有了 ai 之后,你就能写小说,所有被 ai 能力加持的人 可以将这个能力卖出去,比如说你去写小说,去发表,你生存短剧,去发表,你开发 excel, 你 去卖, 你为电商公司生成产品图片,你去销售。另外一个是给自己的能力做加持, 你原来写段代码需要三天时间,但是有了 ai, 你 可能三分钟就解决了这个问题。你原来做一张图需要一天的时间,那么你有 ai, 十秒钟就能解决这个问题。 ai 能够让所有人的效率得到火箭式的提升。 第三个,根据智能体,你创造出更多的分身,提升你更大的价值,所以对于普通的用户来说是能力的提升。 那么这个能力可以分为三个部分,一个是卖这个能力,一个是自己用这个能力, 第三个是辅助这个能力。最后一个,什么是 opc? opc 的 本质是在 ar 能力加持之后,让每个人的效率得到了极大的提升, 原来三十个人做的事情,现在可能五个人就能解决。 o p c 表达的是这种能力得到极致体现之后而形成的一人公司,但是一人公司这个概念对于绝大多数人是非常难的,只有万中无一的天才 才能够真正的成为一人公司,因为它又需要懂产品,又要懂技术,又要懂销售,还要懂用户,并能够非常好的执行下去。 所以 o p c 对 于我们普通人来说,它能够带来的是更加轻量化的创业模式。看好你哦。

我发现 supreme ai 这道面试题,好多小伙伴都达不到点上, supreme ai 是 什么,在大模型开发里起什么作用,它的定位价值,还有它到底解决了咱们开发中的什么痛点,为什么不直接调用 api, 非要用它呢? 担心面试时讲不清 spring ai 的 价值。简历上的技术点显得空洞的同学,我已经把大握的高频面试题、大模型相关技术场景题全部整理进面试核机里了,每个知识点都配了详细的解析思路,只要你是我的粉丝,扣八八八打包带走。 做过大模型应用的小伙伴都懂,开发时要对接各种大模型,还有本地部署的模型,每家的调用格式、参数要求都不一样,换一个模型就得改一整套业务代码,费时又费力。 而 spring ai 最核心的价值,就是帮我们解决了这个易购对接的难题。它在所有不同的 ai 服务向量数据库之上,勾选出了一套统一的接口,把底层的差异全部屏蔽掉,不用再反复试备不同的 api。 spring ai 提供了几个关键抽象, 第一个是叉的 clint, 统一封装了所有对话模型的调用,不管你底层用的是哪家大模型,调用的 api 格式都完全一样。 第二个是 propembering mode, 专门统一处理文本嵌入的请求,不用再适配不同模型的嵌入接口。第三个呢是 datastool, 把各种向量数据库的操作都统一了, c、 r、 u d 操作,一套代码走到底。还有 document reader 和 document writer, 负责文档的读取和封框,简化文档处理流程。 简单说,切换大模型或是向量数据库时,你只需要改改配置文件,业务代码完全不用动,这就是和咱们平时用 j d、 b c 一 样,不管底层是马斯口还是 orange 代码呢,都不用改。 spring ai 就是 大模型领域的 j d、 b c, 一个完整的大模型应用就是业务代码加 spring ai 加各类 ai 服务。 spring ai 帮我们统一处理对话,调用模型管理对话历史流势响应这些琐事,不用我们再重复造轮子了。 不过也客观说一句, spring ai 目前还在迭代更新中,部分高级的功能不如独立框架完善,而且还没适配所有的大模型,国内有些大模型还需要等社区进一步适配。这些面试时呢,可以提一嘴,显得你对它有实际的了解,不是只会被概念。

做 api 供应这门生意能不能赚钱,跟你卖的便不便宜没有半点关系。真正决定你赚不赚,能赚多久的,是另外一件事。先回答最多人问的,现在入场还来得及吗?完全来得及,不是因为它有多暴力,是因为它有一个少见的特点,用户一旦用顺了,一个接口几乎不会换。你让一个正跑着业务的人去换供应商, 除非你出事了,他都懒得动。所以这门生意的钱不再拉新,那一下在后面一次次的自动续费里,越往后越省力。但我见过太多的人一进来就把劲使错了,天天比谁的价格低,谁又接了个新模型,去哪淘更便宜的货, 价格战谁都打得起,今天你便宜,明天就有人比你更便宜,最后一起没利润拼价格是这行的第一个坑。真正决定你能不能活下来的,是上游稳不稳,这件事比你想的难的多,自己直连官方价格没优势,还得自己扛限流扛封号扛接口,半夜改版 就找便宜的渠道,今天能用,明天说挂就挂,等于拿你的用户去赔他的稳定。你到最后发现你不是在做生意,是成了一堆 a p i 的 运维。 这门生意真正的门道是把上游稳定,这一摊最难最累最容易翻车的,交给已经做好有余的人去考。 你只管你最该管的找用户做服务,把客户处成老熟人。我不跟你保证这行稳赚,谁跟你说稳赚,你都该躲远点,上游一定会出问题,这是天性,能做的不是你保证不出事, 出事时有人替你顶在前面,别直接断在你用户脸上。如果你也想做,又不想一个人跟上游死磕,评论区扣六六六,我把怎么起步怎么对接给你说清楚。这行在洗牌,留得下来的从来不是喊的最小,卖的最便宜的,是最能让用户断不了的那一个。

你们有没有被 ai 测试工具坑到怀疑人生的经历?前阵子老板的一句话,要全面落地 ai 测试,降本增效。我当时心里美滋滋的,心想不就调用几个大模型 a p i 吗? 结果一做技术选行人直接傻了。测试对接 ai, 首选肯定是各类 ai 用力生成和缺陷分析工具。其他主流的 ai 测试平台,最低要求都得是 python 三点九以上, 还要对接各种云服务和 a p i。 可我们那跑了五年的老测试体系,上万条手工用力,几百套自动化脚本,全是基于 python 三点六写的,还有一堆老版本的 clynm 杰米特插件。这哪是接入 ai, 分 明是把整个测试体系推倒重建。 说实话,一开始我特别抗拒这件事,传统自动化、多香、稳定成熟,网上资料一搜一大把,团队所有人闭着眼睛都能写。 但是为了跟上 ai 时代,没办法,必须得转型。整整折腾了一个月,我踩了四个知名大坑,今天全部分享给大家。如果你担心简历上的东西讲不出来,我已经把面试经常问到的技术站场景题都整理好了,只要你是我的粉丝,留三个六打包带走。第一坑,一上传数据就报警,合规红线踩满。 原来是 ai 工具默认会把上传的代码、接口、文档和测试数据用于模型训练,直接触发了公司的数据安全红线,差点被安全部通报。解决办法,优先选择私有化部署的 ai 测试工具,所有敏感数据全部脱敏处理, 只给 ai 提供必要的自断信息。第二坑,工具集成地狱,接入 ai 就 得升级整个测试工具列可新版本的测试管理平台把旧版 a p i 全废了, 全区几百个自动化任务的回调地址全要改,还有老的坚肯擦肩不兼容,改得我像个考古的。如果遇到这种情况,大家可以先梳理工具依赖,换成适配的版本,再逐步迁移任务,别白忙活。第三坑,生成的用力全是垃圾,我直接把需求文档扔给 ai, 以为能一键生成全覆盖用力, 结果生成的百分之八十都是无效用力,要么逻辑错误,要么完全脱离业务覆盖率,还不如手工写的。后来反复调教提示词,结合业务规则库,才把有效率提到百分之六十,这波算是交了学费。第四坑,团队能力断层代码能跑,工具能通。 结果老测试不会用 ai 提示词,新测试只会用 ai, 不 会写自动化脚本,没人能审核 ai 输出的用力和缺陷报告。后来专门搞了两周的内部培训,建立了 ai 输出审核机制,才慢慢走上正轨。最后给大家五条避坑指南,先做数据安全评估、边缘业务试水、 提示词模板标准化,留足人工审核时间,做好新旧体系并行。这次转型虽说是被盗逼的,但不仅用上了 ai, 还把整个测试体系梳理了一遍,整体效率提升了百分之四十。你们公司开始用 ai 测试了吗?都踩过什么坑?

模型中转站还有没有机会?我觉得啊,机会蛮大的,我认为现在才属于早期啊,我的理由如下,大家听听看。 当然了,前提是合规啊。首先第一个就是企业 ai 成本管控,企业多模型接入是趋势,核心刚需呢是用量统计啊,费用管控部门的损耗分析、无效利用优化啊等等。他打造一个 ai 的 成本驾驶舱,就是把技术问题转化为业务管理问题。 第二个是什么呢?就是多模型这个迁移适配有多数企业当前的模型绑定固化,后续呢,会面临成本啊,稳定性、效果、痛点等等。然后提供多模型的迁移啊,智能路由啊,一键切换服务,这这个这个是市场需求是非常明确的啊,这是刚需。第三个就是场景化, a 智能解决方案, 不局限于售卖 a p i, 聚焦落地业务场景,比如说外贸获客啊,智能客服啊,销售跟进、文案生成等等等等。客户他的核心需求是就业务结果这个流程的方案和落地实践, 并非单纯的托管调用,所以很多中转站他往这些方向去发展。第四个就是 ai 应用托管运维,传统企业他没有技术运维能力,他的需求集中在是一键部署啊,稳定运行啊,全程监控啊,数据月报啊等等。那么这些呢,是适合做年费制的托管服务的。 第五关就是模型评测与选型咨询,比如说模型品品类,这个持续增增多啊,然后企业不懂产品场景适配啊,他针对的不同的部门,比如代码啊,文啊,客服等等识别等等,这些场景他做专业的选型评测 啊,那么就具备独立咨询的价值。第六个就全链路的这个工具集成模板,呃,模型网关只是基础,比如说它要联动飞出啊,企微、 c r m r、 p a 等等等这些这些工具啊,它要输出标准化的业务流程包,就降低用户的使用门槛。 第七个就是一键模型切换加上下文管理,要打造通用模型,一键路由切换的功能,就配套个人绘画与上下文管理,就满足轻量化高效使用需求。就是中转站一定要要朝着上面几个我认为的方向发展啊,那么他的市场机会就很大。

今天咱们这一期内容呢,来聊一聊最近这个国内的大语言模型,在技术上面评测上面包括商业化上面遇到的一些比较难的问题啊,还有就是现在和国外顶尖的模型相比, 到底还有哪些比较明显的短板?没错,这确实是最近行业里特别受关注的一个话题,那我们就开始吧。咱们先来说说就是这个大模型的评测体系, 这个评测在整个模型的开发过程当中到底有多重要?然后现在大家都用什么方法来评测,才能选出那个综合能力最强的模型版本?其实这个评测他在整个大模型的开发里面占的比重是非常大的,就是你训练一个模型 可能有三分之一的时间,五分之一的算力都是花在评测上的,而且他一开始就是以一个工具级的形式存在的, 就是你每训出一个新的版本,你就要用这个工具集去评估一下它各项能力怎么样。听起来好像这个评测就像是一个非常严格的筛选机制,那它具体是怎么帮我们去挑选这个最优的模型呢?是这样的, 就是因为你在训练的过程当中会产生很多很多的版本,可能有的版本代码能力特别强,有的版本是做 agent 任务特别强, 那评测系统就是会给每一个版本一个综合的一个版本去发布。 所以你像我们现在看到的 g、 p、 t 四,它其实在内部已经经过了很多很多轮这样的评测,可能它的某一些单向能力不是所有版本里面最强的,但是它整体的表现是最均衡的, 所以它会被选中。原来是这样,那现在这个行业里面,大家在评测一个大模型的时候,具体会从哪些能力领域,哪些数据集和哪些评测方法来进行。其实整个评测体系的设计还是挺系统的,就是首先你要把模型的能力分成很多的领域,比如说语言知识 推理、数学代码、工具调用,还有 agent 等等。然后每一个领域下面又会有好几个不同的数据集去测试。 所以就说这些数据集既有大家都能用的公开的数据集,也有公司自己私有的是吗?是的,就是数据集这块其实分三大类,嗯,第一大类就是像 m、 m、 l、 u 这种公开的学术数据集,现在可能已经有几百甚至上千个。 然后第二大类就是公司内部自己积累的一些私有数据集,这里面其实有很多是模型在以前的版本里面做错的一些题,或者是说一些非常容易出错的经典的问题,比如说九点一和九点九哪个大这种。 还有一些是用户在使用我们的产品的时候,给我们点踩了的数据,我们把它清洗一下,然后也加进去,这部分数据可能没有那么均衡,但是它对于解决用户实际遇到的问题是特别有帮助的。那第三类呢,就是我们的业务场景数据, 这部分数据其实就是真实的用户在使用我们的产品的时候反馈回来的一些数据,他可能结构没那么好,但是他对于我们去衡量这个模型在实际业务当中的表现是非常重要的。那这些评测数据具体是怎么用的呢?然后在主观评测上面,现在行业里面一般都有哪些比较常用的方法? 其实评测数据主要还是用来做客观的量化的评估的,就是所有的模型在发布之前,除了要通过这些客观的测试之外,还要经过人工的主观评测。 那这个人工的主观评测呢?以前可能就是找一些高校的实习生来做,现在越来越多的是让公司内部的业务团队直接参与, 看来这个主观评测还是挺受重视的。那具体都有哪些比较有趣的评测方式呢?比如说有一种方式叫模型竞技场,就是让评估人员在不知道哪个回答是哪个模型给出的情况下,直接去对比这些模型的输出,然后给它们进行排序, 这样就可以得到每一个模型在不同的能力维度上面,比如说代码、知识等等,这些维度上面的胜率是多少。那这个胜率也是一个非常重要的参考,就是我们要不要上线这个模型,那这些不同的评测结果, 比如说公开数据集上的得分,私有数据集上的得分,还有主观评测的结果,他们在模型发布的决策过程当中,分别起到什么样的作用呢?这个其实是很有讲究的,就是模型发布的时候,大家一般都会挑几个在核心的公开数据集上面特别出彩的分数拿出来宣传, 然后也会顺便展示一些在其他非核心的数据集上面的高分,就是为了突出自己的这个独特的优势嘛。 但是真正决定这个模型能不能上线的,很多时候反而是那些私有数据集和业务数据集上面的评测结果,以及主观评测的结果, 这些东西都是作为内部的一个门槛,就是只有过了这些门槛,模型才会被允许发布。明白了,那现在这个大模型的评测机构,他们的独立性到底是一个什么情况?然后在现实的操作当中,他们会遇到哪些来自于人员流动或者说利益关系的一些挑战?其实这个独立性都是相对的。 就比如说像 open compass, 它算是在这个圈子里面比较独立的了,但是你要说它完全跟这个行业没有任何瓜葛,其实也很难。因为这个圈子本身就很小,人员流动又特别频繁,今天在评测机构,明天可能就去了某个大厂,然后天可能又换回来了, 所以这种频繁的流动就很难让一个评测机构能够长期的保持一个完全第三方的视角。这样啊, 听起来这个人员的交织就已经让这个独立性变得很有挑战了,那利益关系这方面呢?会不会也让这个局面变得更加复杂?当然会了,就比如说像 hugin face, 他 其实本身既做模型开发,然后又运营排行榜,那他就必须跟各个开源的模型厂商去合作, 这种合作关系就很难说他是完全独立的。而且包括像一些评测机构和模型厂商之间,其实也经常会有一些互动,比如说某个公司要发布一个新的模型了,可能会提前跟评测机构打招呼,说能不能帮我在你们的测试集上面先跑一跑, 然后评测机构可能就会在不透露题目的前提下,给你一些反馈,说你这个模型哪里还可以再提升一下, 那这种沟通其实也会让双方的联系变得更加紧密。确实,那跟消费电子或者汽车行业的商业评测比起来,大模型的评测行业在独立性上面有什么特别的地方吗? 就是大模型的评测其实比消费电子、汽车这些传统行业的商业评测要规范很多,但是你要说完全独立,这个在现实当中是几乎不可能的。 像 open compass, 它背后是一托于上海人工智能实验室, 虽然说实验室本身是非盈利的,但是具体到每一次的评测要做到绝对的公平公正,其实也是非常难的。哎,那现在到了二零二五年的下半年了嘛,国内这些主流的大模型厂商, 他们的战略方向还有他们的优势领域都出现了哪些分化?这个分化其实从二零二五年的下半年就已经很明显了,尤其是一些初创的公司,像 kimi 还有 mini, 包括智浦 a, 它们都面临着非常大的商业化的压力。 那他们在战略上面的选择就变得非常的关键,因为这些选择直接决定了他们最终能够做出什么样的产品。看来这个行业已经告别了那种大家都拼综合能力的阶段了。那这些厂商现在都在压住哪些方向呢?比如字节跳动,他们就是在二零二六年的春节前,就把他们所有的资源都投入到了 c 端的应用上面, 他们就是要做这种大模型原生的 app。 然后智普 a 一 呢,他就是专注于 coding, 他 们把 cloud code 作为他们的主要的对标对象,想要用更低的价格去做一个更稳定的替代品。 另外还有 kim, 他 就是走的通用 agent 的 路线。而 mini max 呢,因为他们靠海螺应用赚了不少钱,所以他们现在就把大部分的精力都投入到了多模态上面,他们对这种单纯的堆叠模型的参数是非常谨慎的。 最后阿里的谦问呢,他就是走的这种多尺寸模型的开源,然后他的团队分布在很多很多的细分领域,所以他的每一次的迭代都是一个比较综合的,比较均衡的推进。明白了, 那现在这个国内的大模型在不同的细分领域里面,比如代码能力、 agent 能力、 c 段用户体验、多模态等等,这些领域里面谁是目前的领军者? 呃,如果不看刚刚发布的 deepsafe v 四的话,目前代码能力最强呢,肯定是智普 a 一。 然后 agent 能力最强呢,也是智普 a 一 和 kimi, 因为它们的代码底子非常的扎实,现在很多的 agent 的 应用其实底层还是依赖于 cloud code 或者是 codex, 很少有用通用的 a j 的 框架呢。听起来好像这个代码能力还是很多高端应用的一个敲门砖啊。确实是这样。然后 c 端用户体验这块的话,豆包做的还是不错的,因为它集成了网页搜索和工具调用功能非常的全面。 如果说看综合能力,开源生态还有全尺寸模型的覆盖的话,还是千万最强,它在各种评测榜单上面的成绩也都非常亮眼,而且它开源这块起步也很早。 最后在多模态和生成能力这块的话, mini max 是 处于一个领先的位置的。我还想知道现在国内这些大模型在代码和 agent 这两个方向上面的实际市场需求到底有多大?然后他们的调用量和综合能力的评测分数之间有没有什么明显的差别? 呃,现在市场上的情况就是,虽然说千问和豆包他们在综合能力的评测上面分数都很高,但是他们的 api 调用量其实是很一般的。 对,因为现在真正驱动这个调用量呢,其实是代码和 agent 这两个能力。所以说就是评测分数高,并不一定意味着在实际的使用场景当中会更受欢迎。 就是这样,因为代码相关的调用量已经超过了百分之五十一,而且很多看似不是编程的一些应用场景,其实它的背后也是需要代码能力的,比如说一些日常办公的自动化。 所以这就是为什么单纯的靠综合能力的排名,已经没有办法反映出真实的市场格局了。了解了,那我们下面的这个话题呢,就是要聚焦在这个内外大模型的技术差距上面。 因为很多人都说啊,这个国内的厂商虽然在拼命的追赶,但是和国外的这些顶尖的模型相比,差距其实还在拉大。对,这个其实业内的看法还是挺一致的,大家普遍认为现在这个差距比二零二五年年初的时候还要明显,无论是用户体验还是核心技术 都能感觉到这个距离。那在用户体验上面,这个差距主要是体现在哪些场景里面?然后这些挑剔的用户,他们现在都是在用哪些产品?最明显的就是代码生成和 agent 应用这两个场景。像国外的那个 cloud code 和 cloud opus 搭配起来用的话,它可以一步到位地帮你把任务执行完,中间基本不会卡壳儿。 但如果把 opus 换成现在国内的任何一个模型,你可能在使用的过程当中会卡顿个三四次,而且你也不知道什么时候会出错, 整个的流畅度和效率就会差很多。听起来这个差距对于高频的开发者来说,应该是非常难以接受的。没错没错,所以那些真正懂技术的用户,他们首选肯定还是 cloud code 加 cloud opens 或者说 gpt 五系列搭配 codex。 只有当他们觉得封号风险太高,或者说价格实在是太贵了,他们才会去考虑其他的方案。而且有一些企业用户干脆就是直接去买那个阿卓 open ai 的 服务,因为他们觉得这个服务更稳定,哪怕价格高一些。 那这个核心技术上面的差距,为什么大家会经常被这个模型的名字搞得一头雾水?因为现在国内的一些厂商,比如说智普 a, 他 们会说自己的模型能力已经达到了 cloud opus 四点五, 然后 mini max 他 们会说自己的模型已经达到了 cloud sonnet 四点六。那这种说法其实就很容易让外界混淆,搞不清楚这个 opus 和 sonnet 到底哪个强,四点五和四点六到底有多大的差别。原来命名还可以影响大家对技术水平的判断,那业内是怎么去看待这个版本之间的实际差距的呢? 店内普遍认为这个 cloud 四点六相对于四点五来说是一个巨大的进步,他们甚至觉得四点六应该叫做五点零,对他们两个之间的差距至少是半年以上的研发投入。 所以就算国内的模型真的追上了 opus 四点五,那也只是刚刚摸到了能用的门槛,尤其是考虑到价格优势的时候, 这跟国外模型在近两三个月内实现的最后一公里任务解决能力的巨大突破形成了鲜明对比。 国外顶尖模型已经能够高效地完成端到端任务,而国内模型在这方面仍有显著差距。 ok, 然后我们来具体地说一下这个 deepsea v 四这个模型它在代码能力、长文本处理和工具调用这几个方面到底表现怎么样? 然后跟这个 gbt 四点五 terble 相比,它到底有没有达到大家的期望? deepsea v 四的话,它在短文本的代码能力上面和 gbt 四点五 terble 是 不相上下的,然后在长文本上面的处理能力还要更强一些, 它的工具调用和 agent 的 能力也是可圈可点的。看来这个模型确实有点东西啊。那现在大家实际在评估它的时候,还会看传统的那些评测分数吗?现在大家更多的是直接把新模型的 api 接到真实的业务流程里面,比如说让它自动地去收集信息, 或者是说去 hackin face 上面去抓取最新的论文,然后做分析。大家会把它和 gpt 四点零或者 gpt 四点五 turbo 一 起跑同样的任务, 就直接看谁干的又好又快,这种直接放到实际场景里面去硬碰硬的这种测试,确实比单纯的看分数要更有说服力。没错没错,这现在大家的标准其实非常简单实用,就是这个模型能干这个活我就用,干不了我就不用,哪怕你分数再高也没用。 所以综合来看的话, deepsea v 四它的整体表现已经很接近 gpt 四点五 turbo 了。好的,那我还想问一下,就是 deepsea v 四它的这个幻觉率,大家都说好像比其他的一些主流的模型要高一些,这个是真的吗? 然后这个背后的原因到底是不是因为它激活的专家数量变少了?这 deepsea v 四它的幻觉率确实不低,就是它在日常的使用体验上面是要比豆包稍微差一点的。 但是这个高幻觉率其实跟他所谓的节省成本,减少激活专家的数量是没有什么直接关系的。那现在这个主流的大模型在激活参数量上面都是一个什么样的水平呢?现在国内的大模型在激活的参数量上面其实都差不多, 就是早期的时候这个猫 e 的 模型,它的激活权重比例一般是一比八,然后 deepsea 它们一度是把这个系统工程做得非常极致的,现在大家普遍都把这个激活量降下来了,比如说千问,他们有的模型甚至做到了四十比一,那一般都是二十几比一这样的一个水平,海外的也不会低于二十比一, 所以这个激活量其实已经不是导致幻觉的主要原因了。明白了,那 deepsea v 四它这个专家数量增加到三百八十四是为了提升模型能力吗?这个倒不是,它增加到三百八十四,其实更多的是考虑到要适配我们国产的这个芯片的架构。 比如说华为的这个三百八十四核心的集群,它是可以做到每一张卡正好部署一个专家,所以这样的话它可以最大限度地去提高硬件的利用效率。这其实是一个配数的问题, 就是他跟模型的算法本身,或者说跟模型的能力没有什么直接的关系。懂了,那我们接下来就把话题深入到这个国产的超节点和互联技术这一块。 我特别想知道就是在二零二六年,这个国产的超节点,他的出货和市场节奏到底是一个什么样的情况?然后各个厂商在技术路线上面都有哪些比较明显的区别?出货量的话我现在还没有一个具体的数据,但是整体的趋势就是国产的超节点他是非常贴合这个市场需求的,大家都在加快布局。 像很多公司其实从二零二五年就已经开始大规模的去部署了,他们有的是基于 j b 二零零和 n v r 七二的这个方案,也有的是在推自己自研的一些技术, 那就是说这个互联的方案上面是不是不同的厂商,他们的选择也会差别很大。对,确实是这样,就比如说阿里云,他们在二零二五年的云器大会上面发布了这个盘九服务器,它是一个一百二十八卡的机柜,然后是两个六十四卡的互联域,现在已经在他们内部使用了。 那其他的像木兮和华为他们的这个互联架构也不一样,而且这个电互联和光互联他们都有在做, 那现在行业里面就是对于光互联是不是一定要用?包括这个互联规模到底是多大是最优的,大家都还没有一个统一的答案。 虽然说更大规模的互联是一个趋势,但是这个性价比是大家一直在权衡的。而且如果不用光互联的话,基本上单机柜做到一百二十八卡就已经是天花板了。 阿里云的这个方案在业界已经算是非常领先的了。那这个全光互联方案它在推进的过程当中最大的障碍是什么?其实全光互联它最大的问题有两个,一个就是价格太贵了,你想就是一张计算卡,你如果要配上四个八百 g 的 光模块的话,这一张卡就要多花一万多块钱, 那整个集群的成本就会飙升,这个价格确实挺吓人的。那除了这个成本之外,是不是还有技术上面的挑战?是的,可能性也是一个大问题,就是光模块它的故障率要比传统的电互联高很多, 那你在这个 gpu 本身就已经很容易出问题的情况下,再叠加上光模块的故障,整个系统的稳定性就会变得非常难以保证。 而且一旦出现故障,你要在一个比如说三百八十四卡这么庞大的集群里面去做容灾和恢复,这个难度是非常高的, 所以目前只有极少数的大厂才有能力去尝试这种方案。好,那华为的这个三百八十四级群互联方案, 它在架构上面有什么特点?然后它和这个业界常用的一些像 n v link 这种方案相比在效率上面,性价比上面,还有未来的眼界上面会有哪些优劣?华为的这个三百八十四级群,它是一个八乘八乘八的拓扑结构,那它这种组网方式其实并不是全互联的, 所以它的这个互联效率其实是比较有限的,跟这个 n v link 的 全互联交换机组网相比的话,还是有比较大的差距的。看来这个拓普结构的选择确实会直接影响到整体的性能表现。那现在就是说这个三百八十四级群和一百二十八级群相比,到底有没有决定性的优势?其实业内也没有一个统一的结论, 那店户联的话,他这两年的性价比还是不错的,但是如果你的模型规模继续往上扩展,比如说扩展到四 t、 八 t 甚至十 t, 那 店户联就会遇到这个单柜容量的瓶颈,他很难去跨机柜扩展。 虽然说未来可能会有多机柜协调的方案,但是现在这个问题还是没有被彻底解决掉。如果说现在国产的芯片在工艺和这个单卡算力上面都落后的情况下,他们在技术路线的选择上面还有哪些突破口?其实国产芯片现在唯一的出路就是往大规模互联去走, 就是你要在机间的互联上面做到超大规模,同时在芯片内部你要做多代的封装,就像华为它现在已经做到了双代,未来可能还要上四代, 就是通过这种增加芯片的面积,然后增强这个互联,把算力堆叠上去。因为我们在单卡的性能上面确实是没有办法跟英伟达或者说 t p u 去比的,那就是说在这个工艺受限的情况下, 只能靠这种大规模的互联和多贷的方案去追赶了。没错,那现在国内的这些厂商大部分都是用台积电或者三星的这种成熟制成去留片,所以工耗和稳定性还可以,而且走这个 a s s c 的 路线的话,也会省掉很多生态适配的麻烦。 但是现在业界对于国产芯片的性能和性价比还是普遍的不太满意,所以这个也是为什么他们在互联和多代的集成上面投入是特别大的。明白了,那我们下一个主题是大模型的后端工程优化, 我想知道就是这个行业在提升模型推理效率上面有哪些比较常用的方法?然后 deepsea v 三在这方面有哪些让人惊艳的地方?其实现在大家会专门有一个团队,就叫 ai infra, 就是专门来做训练和推理的极致优化,然后通过他们的优化的话,很多模型在 token 的 输出效率上面都是可以有上百倍的提升的。 所以就是说你提升一倍其实是一个很常见的事情,尤其是你这个模型还没有被充分优化过的时候,听起来好像这个工程优化真的可以释放出巨大的潜力啊。确实是这样,那 deepsea v 三的话,它就是因为在 ai inforce 上面做了非常极致的优化, 当时他一发布的时候,就因为这个工程上的突破,让整个业内都非常的震惊。好的,那 deepsea v 四现在把这个 a p i 的 价格压得这么低,它这个策略能够持续吗? 然后背后是不是隐藏着一些服务质量和成本之间的矛盾? gifc 的 这个定价确实比其他的厂商要便宜很多,可能是人家的二分之一或者三分之一。而且他们这个低价不是说短期的促销,他们是很有可能长期去坚持的,因为他们现在的这个价格还没有触到他们的成本底线, 而且他们的模型的吞吐量还在不断的提升,优化手段也在不断的改进,所以他们的成本空间其实还可以继续往下走。那这么低的价格,在保证高病发和高吞吐量的同时,他们怎么去保证这个服务的质量呢? 其实这里面有一个很大的难点,就是你一旦想要提高这个吞吐量,想要让更多的用户同时使用,那你这个服务的体验就很容易下滑, 就会出现比如说响应很慢,或者说干脆就没有办法输出内容。这种情况其实在其他的厂商,包括在 deepsea v 三刚上线的时候都出现过,就是服务直接就崩溃了。看来低价和高可用确实很难两全啊。对,那如果说你要追求高的 sl a 就是 服务等级协议,那你的成本肯定是要上去的。 所以像一些大的云厂商,他们的有 sla 保障的 api 价格就会很高。现在市面上大家看到的那些面向个人开发者,或者说面向 c 端的这种低价的 api, 其实他们是不承诺你,并发 不承诺你 t p o t 或者说 t t f t 这些核心指标的,它们只承诺你每一千个 token 多少钱,那这种服务虽然便宜,但是你是没有办法用到关键业务上的。如果你要真的是企业级的合作,签了 b to b 的 协议,那你可能要花几倍的价钱,但是你可以保证你的服务是稳定的。 那这也是现在云厂商和 ai 公司他们主要的赚钱的方式,其实那些公开的低价的 api, 他 们可能根本就不赚钱。 ok, 那 deepstack v 四,它这个三层注意力机制的架构,它到底是怎么设计的? 然后它为什么可以帮助模型更好地去处理长文本? deepstack v 四,它的这个三层注意力机制,它的主要的目的就是为了增强模型对长上下文的理解。 那它主要是通过两种方式来实现的,一个是它会对这个上下文进行压缩,另外一个是它引入了类似于划窗的机制,就是它可以让模型能够更好地捕捉远距离的信息之间的依赖关系。那这种架构是不是解决了传统的 transform 在 处理长文本的时候会遗忘前面内容的问题? 是的,是的,因为传统的 transformer, 它是会随着这个文本长度的增加,注意力会逐渐地消散,就是它会越来越忽略掉远处的信息。但是 deepsea v 四,它这个三层注意力机制,它会对这些远距离的注意力进行一个单独的总结, 所以它其实是缓解了这个问题,对它的这个长文本的理解能力是要比像 g o m 这种模型要好的,那它在一些涉及到长文本的代码任务上面,应该也是会有比较明显的提升的。 哎,那这个模型他在处理长上下文的时候,他的这个能力到底是受什么因素的影响?其实这个长上下文的能力,他不光是靠模型的结构,他很大程度上还是受制于你的训练数据。 就是现在主流的大模型在预训练的时候,其实用到的文本长度大多都是在四千左右,就是很少有特别长的文本。 所以这就是为什么所有的模型其实在四千以内的上下文,它的表现都是最好的,也就是说这个模型天生就更擅长处理短一点的文本。那如果我想要他理解更长的内容 该怎么办呢?如果要支持更长的上下文的话,模型是需要额外用这个长文去继续训练的,就是用比如三十二 k 或者说二百五十六 k 的 这种长文本的数据集去接着训练, 但是这种长文本的数据集它的规模往往都只有几千到几万条,远远小于一训练的那个数据量。所以模型其实在长文本上面的这个泛化能力还是比较有限的。那 deepsea 的 这个架构虽然说缓解了这个问题,但是它并没有从根本上解决。 那这个 kvatch 的 压缩技术,现在主流的模型用的都是哪些?然后 deepsea v 四它的这个 hca 压缩跟升腾芯片的这个显存的限制有没有什么直接的联系?现在大家用的比较多的 kvatch 压缩,像 mini max 它们是用的 a、 b、 f attention, 它的这个压缩比可以做到七比一。 那 deepsea v 四的这个 hca 压缩其实也是差不多的水平,就是百分之十几的这个压缩比例,所以这已经是一个行业的标配了,大家都在用类似的压缩率,听起来这个压缩技术其实和具体的硬件平台关系不大, 对 k vatch 压缩其实它是一个通用的做法,它并不是说专门为了升腾芯片的显存限制去设计的, 而且其实国产芯片的显存虽然说绝对值都不大,但是因为它的算力也不高,所以它的算力和显存的配比其实是和 a 一 百是差不多的,甚至跟 h 一 百比的话,显存还是相对充裕的。 好的,那 deepsea v 四它的这个幻觉率偏高,主要是因为什么?这个幻觉率其实跟它的这个三层注意力架构关系不大,主要的原因还是在于训练数据的配比, 就是 deepsea 微四,它在训练的时候减少了语言类知识的比例,然后加大了推理和代码相关的这种数据,那这种调整可能就会导致模型在生成文本的时候,事实性的错误会变多 哦,所以就说模型在知识的准确性和推理能力之间做了一个取舍没错。而且还有就是这个模型可能发布的比较赶,所以它没有经过非常充分的打磨,导致它在一些细节上面 和大家的期待还是有一些差距的。明白明白,那接下来咱们要说的就是这个国内大模型未来的竞争格局,以及大家在这个 coding 和 agent 这两个方向上面会不会越来越像。未来的话,其实大家肯定都会把自己的资源集中在 coding 和 agent 这两个方向上面,因为大家都是商业公司嘛, 大家最终的目的都是要卖 token, 那 你要想让用户去消耗更多的 token, 你 提升 coding 和 agent 的 能力是最直接的,你单纯的去降低幻觉,或者说去提升其他的一些能力,其实是没有办法带来这么大规模的 token 的 消耗的。 所以大家最后都会走到差不多的一条技术路线上面来嘛。基本上是这样的,因为大家都是用类似的手段,比如说 r、 l、 h f 加上模型蒸馏或者 g、 p、 t 四, 那这些东西都是可以快速的拉平大家的技术水平的。所以可能在未来的三到六个月之内,大家在 coding 能力上面就会非常的接近, 那大家就会出现这种所谓的分久必合,就是大家的核心能力会越来越像第一梯队的这些厂商,他们之间的差距会越来越小。 那就是说国内的这些厂商,他们在创新上面是不是就很难去超越海外的这些巨头了?是的,因为国内的这些公司大部分都是在跟随,就是跟着海外的这些像 codex、 copilot、 gbt 这些大模型走,那真正能够引领行业方向的还是要看海外有没有新的突破, 国内的话就是很难去做到这种颠覆性的创新。那现在海外的这些模型厂商,比如说像 cloud, 他 们在采取了这些封号、视频认证等等这些反争流的手段之后,我们国内的这些公司在技术上面还有什么办法可以继续去获取数据吗? 这些反争流和反爬虫的手段,其实从技术本质上来讲的话,是没有办法彻底的阻挡数据的抓取的,因为这个东西就跟网络安全一样,就是一个攻防的博弈, 就你有政策,我有对策,总会有办法绕过去的。就包括腾讯,他们有非常强的反爬虫的体系,但是其实你要去抓他们的公众号的内容,也不是说做不到, 所以说技术上面其实一直都是有手段的,关键就在于敢不敢用。没错,真正限制大家的其实是法律风险。那现在因为中美之间的这种脱钩嘛,所以海外的这些公司,对于中国的这些企业,他们的法律与威慑力也是有限的。 虽然说你日常使用的时候可能会遇到封号,但是其实在数据层面的话,大家都是通过一些海外的渠道多层白手套的这种方式去操作,你想要完全的封堵是很难的, 所以这些东西其实都是防君子不防小人,就是他可能对于北美本地的一些公司是有法律效应的,但是对于中国的一些厂商来讲,它的效果就没有那么好了, 所以大家还是会继续的去想办法追赶,那核心还是要看这些前沿的模型有没有出现新的突破。好的,那 现在在 ai 算力基础设施这一块, gpu 和 cpu 的 配比,现在国内的这些云厂商是怎么来权衡的?然后在这个 agent 这种应用越来越多的情况下,这个配比会发生什么样的变化? 其实 gpu 服务器里面的 cpu 的 配比这几年基本没有什么大的变化,甚至还有所下降,因为虽然说在 agent 这种场景下面,确实会因为需要频繁地调用沙箱环境,会消耗更多的 vcpu, 但是整体的这个 cpu 的 缺货情况,或者说消耗的速度 并没有外界想象的那么夸张,主流的云厂商,无论是阿里云的无影还是火山引擎,它们都是可以满足这种需求的,也就是说这个 agent 的 爆发并没有让 cpu 成为一个真正的瓶颈。 所以现在各大云厂商都是把采购 cpu 作为一个常规的事情在做,但是它并没有上升到说我一定要自研的这样的一个优先级上面,因为现在的资源调配还是可以应对这种灵活的调用的, 除非你是说我要一直保持一个非常高的常驻的体验,那可能会需要更多的资源,但是大部分的场景下面这个消耗都是可控的。那我们国内的这些厂商在自研 c p u 的 时候,会遇到哪些技术上面的,或者说生态上面的比较棘手的问题?自研 c p u 其实是一个非常难的事情, 你像阿里云的平头哥,包括华为他们都尝试过,但是最终的成果都很有限。比如说倚天,它是基于 arm 架构的,那它在服务器上面就会遇到性能和兼容性的问题,现在也已经暂停了,虽然说可能会转去做 r s s v, 但是 r s s v 的 生态目前也不是很完善,所以未来也很难说。听起来好像这个指令级的生态真的是一个很难迈过去的坎儿。是的, 那如果说我们能够研发出 x 八六的 c p u, 那 当然是一个巨大的突破,但是这个难度可能比我们去研发 g p u 还要更高, 所以现在 c p u 它的这个投入产出比是非常不划算的,而且你也可以很容易地买到,所以大部分的厂商都是只投入非常少的资源去做一些尝试, 他们不会把它作为一个核心的战略,反而是内存这一块可能更值得投入去优化了解了。那随着这个 c x l 技术让内存池化成为了可能,那这个对于 h b m 和 d r a m 未来的使用的格局会 带来什么样的变化? sl 的 这个内存池化技术出来之后呢?其实并不会减少 h b m 的 用量, 因为 hbm 它的这个高带宽对于模型推理的速度和用户体验是起到一个决定性的作用,所以 hbm 的 需求是不会减少的。那 dm 的 需求是不是会因为这种磁化技术而大幅增加呢? m 的 话,因为它可以通过磁化然后挂到这个高速的互联网络上面, 虽然说它的这个响应速度没有 hbm 那 么快,但是它可以让我们的这个显卡可以服务更多的用户,所以整体的这个 dm 的 用量肯定是会上升的。 但是 hbm 的 用量并不会下降,因为它们两个其实在存储颗粒上面是没有本质区别的,只是接口协议不一样,所以对于厂商来讲的话,它只是在能源分配上面做一个调整。哦,那就是说这个 nandflash, 它在这个 kvatch 这个场景下面,未来会有一个什么样的应用的机会? 就现在其实也有一些尝试是把这个 nand 通过三 d 堆叠的方式,然后用到这个 kvatch 里面,那它主要是想要去跟这个 ddr 和 ssd 去竞争嘛。那如果说真的能够做到这个近计算的存储,就是可以把那些不怎么访问的数据直接放到这个 nand 里面,而不是放到这个 ssd 里面。 那理论上它的这个读取速度是会比传统的方向要快的。听起来好像是一个挺有潜力的方向,但是在实际使用当中会有什么限制吗?最大的问题就是它的这个灵活性不够,然后它的这个写入次数是很有限的,所以它更适合去做一些只读的或者说读多写少的这种场景。 然后再加上现在云端的这个生态对它的支持也不是很完善,所以大家更多的还是处于一个观望的状态,就是等这个技术再成熟一些。明白了, 那就是说 agent 和 coding 这种应用场景对 kvatch 的 存储需求和传统的 chat 场景相比有什么不一样的地方? agent 和 coding, 它的这个 kvatch 的 存储需求的结构是很不一样的, 就同样生成一千个 token, 它所需要的 kvatch 的 存储空间是要远远小于 chat 的, 可能至少要小一个数量级。 这么说的话就是 agent 在 运行的过程当中,它会频繁地丢弃掉很多中间的结果。是的,因为 agent 它在执行一个复杂任务的时候,会产生大量的临时的 k v cash, 但是这些其实大部分都是中间的计算结果,它对于最终的这个任务其实是没有用的,所以它会不断地通过 summary 的 方式把它压缩,然后丢掉。比如说我可能这个 agent 整个运行下来消耗了一亿 token, 但是我真正需要保存的 k v cash 可能就只有一百万, 它会比 chat 那 种一直要存着所有的历史对话,直到达到上限要高效很多。现在这个无论是国内还是国外,大家在做这个 agent 应用的时候,都是怎么去管理这个 kv cache 的? 现在大家其实在 memory 这块的设计已经非常成熟了,就是它会有这种短中长多层次的 summary 机制, 所以虽然说 agent 它会大量的消耗 token, 但是它的这个 kv cache 的 存储比例是要远远低于 chat 场景的。 ok, 那 现在就是从这个云服务商的角度来看的话,在 gpu、 cpu 存储和光互联这些 ai 算力的关键的组建当中,现在最紧缺的是哪些?然后这些资源在 kpx 的 支出里面的占比未来会怎么变?现在其实最缺的就是 gpu 和 drm, 就 这两个是最缺的,但是它们缺的原因是不太一样的。 gpu 的 话主要是因为我们买不到最新的英伟达的 gb 二零零、 gb 三零零, 那我们国内的这些厂商,他们只能用自研的或者说国产的一些芯片去顶这个推理的需求,但是这些芯片的效率和潜能都是有限的, 所以就导致我们的这个算力一直都是很紧张的。甚至有一些大厂已经开始在考虑说要把海外淘汰下来的 h 一 百二手卡拿回来用,这个二手卡都已经开始上场了,看来这个 gpu 的 供应确实是很紧张啊。对, 然后 d r m 的 话,它的紧缺其实更多的是一个周期性的供需失衡,就是这个行业以前也经历过很多次这样的波动, 那现在价格高了,大家就会破产,等到后面儿产量上来了,需求平稳了,价格自然就会下来。那现在其实国内的这些大厂也都是通过一些方式,比如说控股东心去提前的锁定这些产能, 所以说这个 d r a m 的 紧缺是一个短期的问题,而 g p u 的 紧缺是一个长期的结构性的挑战。可以这么说,那从 k p x 的 角度来看的话,就是二零二六年,因为 d r a m 的 价格涨得比较厉害,所以它的这个支出占比是会有一个明显的提升的, 甚至有可能存储厂商的利润会超过因为的,但是长期来看的话, g p u 依然还是会占据最大的一块支出。好吧, 那今天我们聊了这么多关于大模型的评测,然后国内的技术差距,再到算力的基础设施,大家应该能够对这个行业的现状和未来的走向有一个比较清晰的认识了。好了,那这就是这期播课的全部内容了,然后感谢大家的收听,我们下期再见,拜拜!拜拜。

很多小伙伴混淆了大模型算法开发和大模型应用开发的一个区别。首先,大模型应用开发说白了跟大模型的架构啊,算法测底层基本上没有什么关系。大多数做应用开发的小伙伴无非是两种,一种是公司做的比较专业, 他也有一些显卡,有 gpu, 那 么你需要针对于这个公司的垂直数据,对你的大模型进行一些微调, sft 加 r l h f 强化学习。 还有更多的公司,说白了大模型在他们的眼里就是个 a p i, 没有显卡,很多公司也不愿意出这个钱,甚至找这方面的开发人才对他这个大模型进行微调。那怎么办呢?干脆我就直接调大模型 a p i 就 完了。那么还有一种是 什么呢?所谓的大模型的算法开发,它是要归结到算法工作室里边的,它是一个比较高大上的工作岗位,存在于这些 ai 独角兽啊,互联网大厂啊,它的薪资也很高,而它的工作内容就一半负责优化算法,甚至搭建新的模型,改一些模型的架构和底层。 一半呢,做开发,你需要把这个 ai 能力具体的模型练出来,整个这个 agent 链条跑通,甚至公司可能只是需要更优的一个模型,你把这个模型练出来,部署上去,跟应用开发的小伙伴对接啊,这是严格的角度解释了这两个岗位的重大的一个区别。