五月三十一日深夜,一条 api 文档更新,让技术圈集体愣了一下。 deepsea v 四 pro 宣布永久降价,直接打到原价的四分之一,不是限时促销,不是阶梯折扣,就是白纸黑字,从此就是这个价。很多开发者反应过来, 之前那波限时原价自己还真赶上了。笑归笑,大家真正好奇的是,这种降法凭什么还能玩得下去?核心底气来自两层。第一层,算力测的一次静默升级, v 四 pro 从训练到推理,全面绑定 f p 四精度, 而更适配这套路线的升腾,九百五十完成了大规模交付。原生 f p 四算力发挥出来,等效利用率冲到百分之八十二点五,远超此前 h 两百上的表现。带宽对贸易模型的通信瓶颈格外友好, 同样的钱买到的是多倍的实际计算量,单偷看成本应声而落。第二层,缓存架构抠出来的巨大空间, deepsea 的 上下文缓存不及这清热数据,在 hbm 温数据自动落到 nvm 一 盘上,冷数据还能压缩持久化,命中率高得惊人。真实文本类百分之九十二点七,代码类百分之九十八点四。 大部分请求只需计算增量部分真实算力需求彻底变了,第三方数据已经出来。 高频缓存场景下, v 四 pro 每百万 token 综合成本约四块钱, gpt 四 o 同样场景要烧掉近六十八块。差距不是缩小,是直接被撵到了他人的零头。已经有头部企业把客服系统切过去, 月账单直降七成多,首次延迟反而还少了一半。消息传开,压力瞬间转移,文新的阶梯报价开始吹风通一内部邮件传出要重效成本模型 降价,眼看要变成一轮洗牌。最后说句实话, v 四 pro 现在被全球开发者顶着用,靠的不是免费送 token, 是 硬跑出来的成本优势。把算力做成水电这件事有人真的在做,也别忘了底下撑着的是一块加速成熟的国产算力土壤。
粉丝2540获赞8252

今天盘后,腾讯云扔出了一颗足以改变行业格局的炸弹。明天零点起, deepsea v 四系列模型全面降价,最高降幅达到了惊人的百分之九十七点五。 现在全网都在刷打骨折白菜价。但我可以负责任的说,百分之九十的人都只看懂了表面的热闹,根本没看透这件事真正的含金量。今天我不喊口号,只讲别人,不会告诉你的底层逻辑, 降价的背后,其实是 ai 下半场的发令枪。先给大家算笔最直观的账,看看这次降价有多狠。旗舰版 v 四 pro 输入输出价直降百分之七十五 至零点零零三元每千 token, 六元每千 token。 两款模型的缓存命中价统一降至零二十五元每千 token。 其中 v 四 pro 降幅九十七百分之五, vc flash 降幅百分之九十一千 token, 约合七八百汉字,意味着现在写一篇一千字文章成本不到一厘钱, 缓存命中场景下,一百万次调用仅需二点五元。而且腾讯云明确说了,本次调整只降价格,服务能力完全不变。 降价后,腾讯云的价格已经和 deepsea 官方完全对齐,用户通过腾讯云调用,不再需要支付任何溢价。很多人会问,这么降价难道不亏本吗? 我告诉大家,这次降价真不是赔本赚吆喝,而是 deepsea 技术实力的硬气体现。 deepsea v 四是四月二十四日刚发布的新一代旗舰,一点六万亿参数的混合专家架构是它的核心杀器, 总参数虽大,但每次推理仅激活四百九十亿参数,好比一千六百人的团队,只派四十九个最专业的人干活儿,能力不减,成本骤降。 正是这种架构创新,让它的推理成本比前代降百分之七十三,显存占用减百分之九十。所以五月二十二日就把 v 四 pro 从限时促销改成了永久降价。 腾讯云这次只是同步官方定价,更深层的逻辑是抢智能体时代的地盘。黄仁勋刚在台北, gtc 明确 ai 已进入智能体阶段,而 deepsea v 的 agent 能力是目前开源模型里最强的,甚至超过 colossund。 四点五, 腾讯云用近乎零门槛开放这款模型,本质就是抢开发者,占智能体开发平台的入口。 好了,重点来了,这次史诗级降价,对我们国内产业链来说,到底意味着什么?哪些板块会真正受益?第一方向,上游算力底座。很多人会说,模型降价了,是不是算力需求就减少了?大错特错, 恰恰相反,价格暴跌会带来掉用量的指数级爆发。以前一个 ai 客服系统月度 a p i 成本可能要几万块,很多中小企业用不起,现在呢? 成本直接降到了原来的几十分之一,甚至上百分之一。原来用不起的企业,现在都能用了,原来不敢大规模用的,现在可以放开用了。这就好比当年,电价下降,直接催生了家用电器的需求天花板。 而所有的 ai 应用最终都要跑在算力上,所以算力服务器、光模块、夜冷散热、 ai 芯片这些上游环节,会是最直接、最确定的受益者。 而且大家要注意,这次降价主要降的是推理成本,推理算力的需求会率先爆发,那些在推理芯片和推理服务器领域有优势的公司,会最先吃到这波红利。 第二个方向, ai 智能体应用。智能体是什么?通俗点说,就是能自主帮你完成复杂任务的 ai 小 助手。以前智能体之所以难以普及,最大的瓶颈就是成本太高,现在这个瓶颈被彻底打破了。 成本降到几乎为零之后,智能体会像雨后春笋一样涌现出来,金融、政务、工业、医疗、教育,几乎所有行业都会被智能体重构。 那些已经在垂直领域布局智能体应用,并且有真实客户和订单的公司,会迎来业绩的爆发式增长。特别是那些面向中小企业的 sas 类公司,他们可以把智能体能力嵌入到自己的产品中,大幅提升产品的价值和竞争力,同时几乎不增加什么成本,这种公司的业绩弹性会非常大。 第三个方向,端测 ai 硬件。当云端大模型的成本降到足够低之后, ai 会从云端走向终端。 ai 手机、 ai pc、 ai 眼镜这些端测设备会和云端大模型形成完美的协调。 端测负责处理简单的、实时的任务,云端负责处理复杂的、需要大量知识的任务,这种端云协调的模式会成为未来 ai 的 主流形态。 所以端测 ai 芯片、 aipc 产业链、 arvr、 光学硬件这些方向也会迎来业绩增量。最后说几句掏心窝子的话,当然我也要提醒大家,任何利好都有两面性。这次降价对中游的大模型厂商来说,其实是压力大于利好, 因为价格战会进一步压缩他们的利润空间,那些没有核心技术只会烧钱的公司会被加速淘汰。 ai 行业已经彻底告别了炒概念的时代,现在进入了拼业绩、拼落地的新阶段,那些只有故事没有业绩的概念股,最终都会被打回原形。所以要尽可能聚焦那些有真实订单、有硬核技术、业绩能兑现的公司。

呃, hello, 观众朋友们大家好,我是神奇的录音。那么相信朋友们等了很久了,这个 deepsea v 四出来这么长时间了,也没有一个好的本地的部署的方案, 然后大家也想在 windows 下能不能便捷的操作一下呀?我们能不能用上这个这么好的东西啊,尤其是现在这个内存又降价,这个东西又便宜 deepsea v 四呢?现在网上这个模型呢, api 的 价格可能后续又比较贵,那现在有没有更好一点的解决方案能在本地跑 v 四和 pro 呢?那么今天呢,我们终于是拿出了这个方案,你没看错啊,最低仅需幺幺九九九元,你就能在本地部署 deepsea v 四与 pro, 注意,这都是满血版的, 那么视频开始前有需要的话,请看一下我们这个右下角啊,然后呢,这里边就给大家看一下我们这个给大家今天带来的这三套方案吧,这些东西叫左边这两套啊,如果大家是我们这个老朋友的话,熟悉这个东西叫 k n 一, 那现在它为什么变成 k n 一 点一了呢?是因为我们对它进行了一次小幅的改动更新,那这个更新呢,不影响它这个性能, 我们只是优化了它的这个性价比。那左边是幺幺九九九元,是一百二十八 g 的 内存,中间是幺三九九九元,是二百五十六 g, 右边是五百一十二 g, 是 二五九九元。这三套都能跑 deepsea v 四, 但是朋友们知道,呃,这个 deepsea 除了 v 四普通版以外,它有一个 pro 版,那么我们可以看到一百二十八 g 呢,它只能跑普通版本的,那么 deepsea v 四 pro 呢? 是的,你没看错,中间二百五十六个 g, 幺三九九元,你就可以在本地跑了,然后右边是二五九九元,你就能跑质量更好的 v 四 pro, 那 么他们的速度呢?都差不多十一到十四,头尾每秒的这样的一个速度,在本地就能完美的运行 deepsea 的 最新的模型, 这里可以给大家看一下实际演示,这是我们幺三九九九元的机器跑 deepsea 微四的速度,十二 t 十二点五 t 左右。 那么我们图除了这个随机部署 deepsea v 四 pro 这个模型以外,我们还会随机附赠图形化的 open cloud, 然后我们自己训练的悟空这个大模型。这个如果啊大家不知道这是什么新朋友的话,可以看到往期我们视频当中会有解释。 还有我们附赠一个跟随 openclaw 使用的数据保护工具,一旦你的龙虾误删除了你机上的任何一个文件,通过这个数据保护可以方便的去找回,那么我们图形化的 openclaw 就是 这样的一个界面,大家可以看一下,非常方便。 那么我们重点介绍一下啊,这个 deep 四 v 四 pro 是 怎么实现的?我们首发实现了 windows 系统下的支持, 无需使用 linux, 全部都进行 windows 下进行操作,这个是目前全网范围内的首发,就是在 windows 系统下提供了 deepsea v 四与 v 四 pro 的 支持。第二, 我们根据 deepsea v 四官方技术指南的白皮书,结合华为的 s i n q 量化方法,成功地把 deepsea v 四 pro 运行在了二百五十六 g 的 运行内存下,且二百五十六 g 这个量化度我们做到了八点二以下, 大概是七点五到七点九,随着任务的你的测试级的不同,他的困惑度啊可能会不一样,但是平均都是在八点二以下的。 五百一十二 g 那 款机器的困惑度可以小于零点三,就是一个几乎无损的状态,并且我们还有纯显存部署的方案这套机器呢,大家再等一等,我们会直接发布这套机器啊,最低可能两万元,一万多块钱 就能实现二十五 t 每秒的速度,就是纯显存部署 deepsea v 四的方案,这个大家可以期待一下,如果就是大家,呃,但是这套机器我先跟大家说,可能会开发的时间比较久一些,目前还不知道什么时候能出来。如果大家觉得就是十多 tokens 每秒,这个速度还可以 在本地,因为我们这所有的机器,目前 k n e 这几款,它的推理时的功耗是二百八十八左右,也就是说,呃,它的费用是要比线上的 a p i 低了大概百分之七十左右。 呃,如果是算上 v 四 pro 的 api 的 话,那更是它的价格,如果算进电费的话,只有线上推理的百分之十都不到这样的一个价格。所以说,如果大家觉得这个速度可以在性价比每生成一个 token 的 性价比这一块,这个机器上是完全没有问题的。 那么我们这里重点讲一下这个 snq 量化是什么。首先这个大家要知道哈,如果你们就是没有了解 snq 是 什么,你们去搜这样的一篇文献, 在网上搜就行了, s m q 一 种这个低精度的,这个给低精度本地模型的一个不需要校准的一个量化的一个方式。这翻译过来大概就是这样,你搜这个,这个这一大串英文就可以了,它就会告诉你这个东西是什么,然后这东西是华为研发出来的, 它的特点是呢,无需校准数据,就直接可以对模型进行量化了,并且可以大幅降低模型的显存需求。 并且呢它与比如说常用那些量化工具包相比,除了无需校准以外,还有一个比较好的一点,就是它可以大幅降低量化引起的浑厚度提升,但是是是模型架构不同而定的,什么意思呢?不同的模型被量化以后的结果不一样。那么这次 deepsea v 四 pro 呢? 我感觉是 deepsea 跟华为的官方做了深度的优化,它非常的适合用 s n q 进行量化。 那么呃,它量化的结果刚才已经向大家这个展示了,我们就不赘述了,那么我们这里说呢,它其实也可以 兼容常见的一些格式,比如说什么千问呀,还有什么呃, g u f 格式,它反转成 g u f, 这都是支持的。华为已经放出了相关完整的这个工具包,在 github 上买,这个有兴趣啊,大家可以搜一搜,我觉得这个技术挺好的,可能未来国产的一些大模型也会适配这个技术, 那么呢,有没有更加有性价比,或者是啊一些其他的方案呢?这里也给大家展示一下。这是我们 k n 三的机型,那么 k n 三呢?现在降价了,他不是这个价格啊,不是一万三和两万块钱,这个你们去问啊,看右下角,你们去问一下他现在是什么价格会比这个便宜很多。 这个两套机器的速度,还有这个运行内存都标注出来了,有需要的话可以看一下这两款机器全部都支持 v 四 pro, 然后呢,有没有更有性价比的机器朋友们,那当然也有,我们还有 k n 三点五这两套机器,但是值得一提的是,这两套机器目前 v 四 pro 的 这个知识还没有完全做好,我们只是现在先给大家这个画出一个这个 呃,我们这个路线图,那么未来在一周之内,这两套机器的这个部署就会做好。那么如果追求性价比在五千元、八千元左右的这个机器的这个朋友们,想要这一个价位的机器,那么你们可以看看这两款机器,它这个速度是四到七 top, 什么这个稍稍慢一点 啊,他们满载的推理功放二百瓦左右,反正就是怎么算都是比线上 a p i 要便宜的。这是我们今天这个带来的 deepsea v 四本地部署,注意,我们是 windows 系统下,我们永远 不会对普通用户的机器上预装 linux, 永远也不会让小白就学怎么用 linux, 我 们起步直接装的就是 windows 十一,并且我们保证这个速度是过关的,我们的质量也是过关的。 同时我们还会随机附赠 opencloud, 还有我们自己训练的一些大模型,还有一些未来这个模型的这个支持和更新,这个都是都 free of charge, 如果你们购买了机器的话,我们是免费赠送的, 是终身提供的软件这个帮助与更新的知识。那么如果大家觉得我们这个做的好的话,给我们一箭三连吧,这期视频呢,我们多更了一些,呃,主要原因还是 deepsea v 四本地 windows 的 支持稍稍有点难做,但是也还好。 再一个就是我本人感冒了,出不了视频,录不了视频这个,所以拖了大概有一周多,那么现在呢?呃,赶了一个五一的这个末期那,呃,可能明天大家就要就是结束五一的假期,然后回到自己的这个工作与生活当中,也希望大家呢, 呃,在看这个 deepsea 的 v 四这个 pro, 我 们出了一些这样的好的机器,为大家可能带来一些工作上啊,包括生活上的一些新想法,或者让他们成为你工作上的一个新的一个助手,来减轻你平时工作上的一些麻烦啊,或者是把一些东西做成自动化的, 成为你的好助手啊,也是能让你平时减轻工作负担的一个重要的一个途径吧。我觉得现在 ai 对 我们最大的意义。 然后呢,如果未来 deepsea 还有这个 g l m 啊,还有 kimi 啊,他们有进一步的更新,我们也会进一步的这个 放出支持的视频。那么大家都知道现在有一个叫 kimi k 二点六,那么这个模型是什么情况呢?我们下周的视频会跟大家说一下这个模型呢,呃,它不是那么的十全十美,但是我们还是会做一期它这个视频,这是我们下周可能会要做的这个东西大家可以跟进一下就行了。 那本期视频就到这里,喜欢我们的频道就点点关注,然后有需要的话还是看一下右下角啊,这个给我们一键三连,那本期视频就到这里了,谢谢朋友们。

很多朋友问跑 dp 四的配置是怎么样的呢?这里我们已经部署好了一个 f b 八的 dp 四,我们选用的显卡是 三张 h, 一 百九十六 g, 这里可以看到基本上已经用满了,大概占用了两百七十 g 的 选存,也就是如果你有两百七十 g 的 选存,基本上就可以跑这个模 型,这个是单个对话下的速度,基本上是一百二十五个 token 每秒。我们来看一下并发数据,我们可以看到在一百二十八个并发下,可以达到峰值的 token 数量是两千 五百个左右每秒,然后首次延迟是一秒钟左右,还是比较可以的。最后是一些其他的测试数据,如果大家对这个模型有兴趣,或者有其他模型需要搭建,我们可以一起聊聊。

d p c 个 v 四,我们用四张 pro 六千跑通了,效果确实很顶,但有些客户说太贵了,我们找到了更便宜的替代方案,用四卡 pro 五千七十二 g, 这局我们 pro 五千七十二 g 的 显卡,这台机器我们一共搭载了四张,今天实测给你看,我们直接上四卡 pro 五千七十二 g 单卡七十二 g 显存,四卡合计二百八十八 g 显存。 我们模型跑的是 d p c 个 v 四 flash, 上下为十六 k, 从一并发一路压到六十四并发,看看它的极限在哪里,我们直接看数据单使用。九十三偷看每秒, 跟 pro 六千单人体感几乎无区别。十六人并发三十二点六 toky 每秒,正常对话没有问题。三十二并发二十一点四 toky 每秒,这就变慢了,手投跟超五秒,排队感很强。六十四并发十三点五 toky 每秒。我们可以得出结论,四卡 pro 五千七十二级 跑的 pc v 四 flash, 单人体验极速跟 pro 六千几乎一样,十六并发以内流畅使用,超过十六并发延迟会明显上升,体验也在下降。像这个配置的机器,三十人左右团队日常使用都没有问题,日常办公不可能三十个人同时高强度的调用, 实际并发疯值一般在十到十六之间,这个期间内斯卡 pro 五千七十二级方案很稳,它的成本只有 pro 六千的百分之六十,但却可以发挥它百分之八十的性能。如果你的企业也在考虑大模型本部不知道怎么配,可以来找我聊聊。

大模型价格战直接打穿地板了,腾讯云啊刚刚官宣, deepsea v 四系列模型最高降价百分之九十七点五,而且呢是永久降价,模型能力一点没有缩水。 六月三日零点起,腾讯云智能体平台正式调价 deepsea v 四 pro 的 输入输出价格,直接砍百分之七十五,最夸张的是,缓存命中价从原来的一块钱一百万字降到了零点零二五元,一百万字降幅啊,整整是百分之九十七点五啊, 能给大家算一笔账就知道有多离谱了。现在调用一百万次的重复内容只需要两分五厘,比 gpt 五点五同档位便宜七百倍,甚至呢,比国内最便宜的入门级小模型还要便宜十倍以上。 其实半个月之前呢, d p c 有 官方就先炸了,直接把 v 四 pro 永久降价到原来的四分之一,而腾讯云之前的价格呢,比官方贵了整整四倍。那么这次啊,腾讯云直接的一步到位了,全面和官方同价,也是第一个大规模跟进的头部云厂商。另外呢,还有小米前几天也宣布密陌 v 二点五最高降价百分之九十九, 那现在的大模型行业已经从技术比拼彻底的变成了成本肉搏战了,这波降价呢,对普通开发商和中小企业来说,绝对是天大的好事,原来一个月几千块钱的 ai 成本,现在可能要降到几百块,甚至更少了, ai 创意的门槛呢,几乎被打没了。但是对于行业来说呢,洗牌呀,也会加速,没有算力和技术成本优势的小厂商很快呢就会被淘汰掉。那么大家觉得大模型价格还能再降吗?评论区里聊一聊吧!

一分钟看懂 deepsea v 四 pro 为什么把 ai 调用费打到四分之一。二零二六年五月三十一日后,他继续按原价四分之一执行 大模型,按 tokyo 收费,输入输出缓存命中价格不同。官方定价页显示, v 四 pro 每百万输出 tokyo 约零点八七美元, 企业用 ai 客服代码文档都会反复调用模型。多份研报提到, v 四系列以适配华为、升腾等国产算力, 适配要跑顺框架算子和显存调度不是贴标签,价格战背后是模型推理和硬件一起降本,成本降下来,小团队更敢把 ai 做进产品, 但能力、稳定性、隐私和合规还要继续评估。关注我,每天一分钟,了解更多热点知识!

今天盘后,腾讯云扔出了一颗足以改变行业格局的炸弹。明天零点起, deepsea v 四系列模型全面降价,最高降幅达到了惊人的百分之九十七点五。 现在全网都在刷打骨折白菜价。但我可以负责任地说,百分之九十的人都只看懂了表面的热闹,根本没看透这件事真正的含金量。今天我不喊口号,只讲别人,不会告诉你的底层逻辑, 降价的背后,其实是 ai 下半场的发令枪。先给大家算笔最直观的账,看看这次降价有多狠。旗舰版 v 四 pro 输入输出价值降百分之七十五 至零点零零三元每千 token, 六元每千 token。 两款模型的缓存命中价统一降至零二十五元每千 token。 其中 v 四 pro 降幅九十七百分之五, vc flash 降幅百分之九十一千 token, 约合七八百汉字,意味着现在写一篇一千字文章成本不到一厘钱, 缓存命中场景下,一百万次调用仅需二点五元。而且腾讯云明确说了,本次调整只降价格,服务能力完全不变。 降价后,腾讯云的价格已经和 deepsea 官方完全对齐,用户通过腾讯云调用,不再需要支付任何溢价。很多人会问,这么降价难道不亏本吗? 我告诉大家,这次降价真不是赔本赚吆喝,而是 deepsea 技术实力的硬气体现。 deepsea v 四是四月二十四日刚发布的新一代旗舰,一点六万亿参数的混合专家架构是它的核心杀器, 总参数虽大,但每次推理仅激活四百九十亿参数,好比一千六百人的团队,只派四十九个最专业的人干活,能力不减,成本骤降。 正是这种架构创新,让它的推理成本比前代降百分之七十三,显存占用减百分之九十。所以五月二十二日就把 v 四 pro 从限时促销改成了永久降价。 腾讯云这次只是同步官方定价,更深层的逻辑是抢智能体时代的地盘。黄仁勋刚在台北 gtc 明确 ai 已进入智能体阶段,而 deepsea v 的 agent 能力是目前开源模型里最强的,甚至超过 cloudsonnet。 四点五, 腾讯云用近乎零门槛开放这款模型,本质就是抢开发者,占智能体开发平台的入口。 好了,重点来了,这次史诗级降价,对我们国内产业链来说,到底意味着什么?哪些板块会真正受益?第一方向,上游算力底座。很多人会说,模型降价了,是不是算力需求就减少了?大错特错, 恰恰相反,价格暴跌会带来掉用量的指数级爆发。以前一个 ai 客服系统月度 a p i 成本可能要几万块,很多中小企业用不起,现在呢? 成本直接降到了原来的几十分之一,甚至上百分之一。原来用不起的企业,现在都能用了,原来不敢大规模用的,现在可以放开用了。这就好比当年电价下降,直接催生了家用电器的需求天花板, 而所有的 ai 应用最终都要跑在算力上,所以算力服务器、光模块、夜冷散热、 ai 芯片这些上游环节,会是最直接、最确定的受益者。 而且大家要注意,这次降价主要降的是推理成本,推理算力的需求会率先爆发,那些在推理芯片和推理服务器领域有优势的公司,会最先吃到这波红利。 第二个方向, ai 智能体应用。智能体是什么?通俗点说,就是能自主帮你完成复杂任务的 ai 小 助手。以前智能体之所以难以普及,最大的瓶颈就是成本太高,现在这个瓶颈被彻底打破了。 成本降到几乎为零之后,智能体会像雨后春笋一样涌现出来,金融、政务、工业、医疗、教育,几乎所有行业都会被智能体重构。 那些已经在垂直领域布局智能体应用,并且有真实客户和订单的公司,会迎来业绩的爆发式增长。特别是那些面向中小企业的 sas 类公司,他们可以把智能体能力嵌入到自己的产品中,大幅提升产品的价值和竞争力,同时几乎不增加什么成本,这种公司的业绩弹性会非常大。 第三个方向,端测 ai 硬件。当云端大模型的成本降到足够低之后, ai 会从云端走向终端。 ai 手机、 ai pc、 ai 眼镜这些端测设备会和云端大模型形成完美的协调。 端测负责处理简单的、实时的任务,云端负责处理复杂的、需要大量知识的任务,这种端云协调的模式会成为未来 ai 的 主流形态。 所以端测、 ai 芯片、 aipc 产业链、 arvr、 光学硬件这些方向也会迎来业绩增量。最后说几句掏心窝子的话,当然我也要提醒大家,任何利好都有两面性。这次降价对中游的大模型厂商来说,其实是压力大于利好, 因为价格战会进一步压缩他们的利润空间,那些没有核心技术只会烧钱的公司会被加速淘汰。 ai 行业已经彻底告别了炒概念的时代,现在进入了拼业绩、拼落地的新阶段,那些只有故事没有业绩的概念股,最终都会被打回原形。所以要尽可能聚焦那些有真实订单、有硬核技术、业绩能兑现的公司。

在百度、智普等多家头部厂商接连上调算力与 api 定价、全球高端 ai 存储成本持续走高的行业大环境下,腾讯云官宣全线下调 deepseek v 四全品类 api 售价, 最高降幅直达百分之九十七。叠加此前 deepseek 官方敲定 v 四 pro 接口永久降价百分之七十五,缓存命中场景下单百万 token 输入仅需零点零二五元, 换算下来百万字幅调用成本不足三分钱,一举刷新国产大模型商用调用底价。很多人将这次史诗级降价简单归为恶性价格内卷,却忽略一个核心事实,超低定价的底层支撑,是一整套从模型架构、推理工程到算力适配的全链路技术突破。 没有硬核技术打底,任何厂商都扛不住持续亏本式降价。一、技术破局,三大底层革新 从根源砍掉七成以上推理成本, deepsea v 四能实现近乎腰斩。在腰斩的定价核心不在于资本烧钱补贴,而是依靠某混合专家架构稀疏注意力优化、 k v cash 工程改造三大技术落地, 从模型内核压缩、算力损耗第一、某混合专家架构重构参数效率, v 四 pro 总参数量达一点六万亿, 但采用动态激活专家机制,常规推理仅激活四十九币有效参数。并且传统稠密大模型全参数参与运算的低效模式,常温本场景算力消耗降至稠密同规格模型的百分之二十七,既保住百万 tucker 超长上下文能力, 又规避海量无用参数空号显存于算力,这是成本下降最核心的架构根基。传统稠密大模型想要兼顾性能,必须全量加载权重、 显存占用,推理功耗居高不下,定价天然难以下探,而某路线直接改写参数成本逻辑。第二,稀疏注意力加 flesh attention 三优化,破解长文本算力魔咒。传统 transformer 全注意力复杂度为 o n, 上下文越长,算力成本指数飙升,也是过往长文本大模型 a p i 定价居高不下的关键。 v 四自研分组稀疏注意力,仅对关键 token 做关联计算,搭配迭代优化的 flash attention 三引擎, 百万上下文场景 k v cash 缓存占用压缩至原规格百分之十,长文本调用编辑成本大幅走低,也是本次高降幅集中在长文本产品线的技术原因。第三,全链路量化加国产化算力深度适配, 推动 aut 感知权重量化技术,模型权重从 f p 三二原声格式无损压缩至 int 四,精度 存储占用缩减百分之七十五。同时, v 四全系列深度兼容国产生腾海光推理芯片,摆脱高端进口 gpu 与 hbm 显存绑定带来的硬件溢价,硬件采购与机房部署成本显著回落,让云测规模化部署的单位硬件折旧成本持续下行。 腾讯云依靠自身海量服务器集群,进一步通过分布式调度冷热数据分层缓存提升算力利用率, 用量越大,但 token 分 摊成本越低,最终实现百分之九十七的极限降价空间。二、商业逻辑重构,从售卖算力 token 转向生态变现的新模式,零点零二五元百万 token 的 定价,单靠 api 调用本身很难实现盈利。 deepseek 与腾讯云的定价策略,标志国产大模型商业模式彻底切换,放弃靠调用费赚钱,以极致低价抢占开发者流量,靠生态行业落地 agent 定制化服务实现盈利闭环。 过往大模型商业模式是按 token 计价赚算利,差价,厂商定价铆定硬件成本算利,涨价就同步上调 api 售价。如今低价 api 变成引流基础设施、海量个人开发者、中小 s a a s 企业、垂直行业服务商以及低门槛接入 v 四模型, 快速孵化 ai 应用行业智能体。后续厂商通过私有化部署、企业定制微调行业解决方案、智能体集群搭建赚取高附加值利润。从行业数据佐 证,降价落地后, deepsea 全系模型在 openroute 全球聚合平台周调用 token 量环比暴涨百分之六十六。国产模型全球调用占比持续攀升,低价换规模,规模反哺优化迭代形成正向循环。 小米 mini 紧随其后,最高降价百分之九十九,本质也是复刻这套技术加生态打法,国产大模型告别靠 a p i 差价生存的旧时代。三、行业拐点内卷倒逼技术优胜劣汰, ai 普惠落地进入加速期,本次定价破防,正是终结国产大模行为参数论的野蛮生长阶段。行业内卷从比拼融资、堆砌超大参数, 转向比拼架构优化推理工程落地能力的技术内卷,加速行业初清。一方面,依赖高价算力、无自研架构优化能力、 只会堆餐数量的中小模型厂商,生存空间被急速压缩,没有底层技术优化能力,就无法跟进低价,要么转型垂直细分场景,要么被市场淘汰。另一方面,超低调用成本直接降低 ai 创业门槛, 小团队、传统实体企业无需高额算力预算就能低成本接入顶尖能力的通用大模型, 催生 ai 加工业、 ai 加农业、 ai 加本地生活的海量落地项目。 ai 从互联网大厂专属技术下沉为中小企业数字化标配工具。 放眼全球,对标同性能档位的 gpt 科尔的系列模型定价是 deepsea v 四的数十至上百倍。国产依靠架构创新与全链路工程优化,在商用定价层面形成碾压性成本优势, 持续拉动国产大模型出海,抢占全球开发者市场。二零二六年,国产大模型在海外 a p i 平台调用占比已突破百分之六十,低价普惠加技术领先,成为国产 ai 出海的核心竞争力。 四、未来预判 a p i 持续探底,分层化定价成行业常态短期来看, deepseek 与腾讯云的降价锚点会道逼阿里字节。百度持续优化推理技术,下调主力模型定价,未来通用基础大模型 a p i 会持续向离级定价靠拢, 基础调用趋近免费行业利润将全面向垂直微调、多模态定制、私有化部署具深智能体开发等高附加值业务。集中中长期大模型定价体系将分层通用基础大模型走普惠低价路线,充当行业数字基建垂直行业专用模型、 超高精度私有化定制模行为,持合理议价,形成基础免费、普惠定制、付费盈利的成熟产业格局。结余百分之九十七点五的降价从来不是非理性内卷, 是国产 ai 技术沉淀到临界点的必然结果。从高价实验室技术到几分钱百万, tucker 的 普惠基建 deepsea v 四的定价改革,宣告中国大模型走完野蛮生长期,正式进入靠技术效率驱动产业落地的全新周期,全行业 ai 普惠的时代已然到来。

很多人用 ai 只认准顶配,觉得评价开源模型不好用,真的是这样吗?今天聊聊国产开源旗舰 deepsea v 四到底能不能平替 g p t。 它采用万亿参数 l h 架构,深度适配国产算力 v 四 pro 拥有一百万超长上下文长篇文档合同,可一次性处理代码能力更是领跑全球开源模型。 而且 mit 协议开源支持本地部署,使用成本远低于 g p t。 不 过它也有短版,仅支持纯文本,没有多模态能力,高阶数学复杂智能体任务也略逊一筹。 总结下来,办公处理长文本、写代码选它完全够用。值得注意的是,我们平台两大模型定价比官方更实惠,大幅降低使用成本,个人和团队都能放心用,有需要的朋友可以试试。

deepsea 官方确认, vc pro api 价格五月三十一日正式调整为原价四分之一百万, token 输入零点零二五元,输出六元,但有个坑,缓存未命中,价格是命中的一百二十倍, 降价了,但用量暴涨十倍,账单可能不降反升。小米 miimo 也跟着降百分之九十九百万, token, 输入零点零二五元。现在的问题是价格越低,用量越大,成本控制越难。企业要做的是优化 token 使用效率,不是无脑屯。你们公司每月 token 账单多少,我帮你分析有没有优化空间。

deepsea 的 降价,意味着 ai 正在从产品变成我们生活中的基础设施。这几天, deepsea 悄悄干了一件事,把价格直接砍了百分之七十五,不是九折,不是八折,是直接砍到了四分之一。 vsco 它们最强的模型现在输入三块钱一百万, toon 输出六块,原价是十二块, 你跟 ai 聊一整天都花不了几块钱,如果还嫌贵, v 四 flash 一 块钱,一百万, tokyo 一 块钱啊。更狠的是,如果你重复问类似的问题,命中了缓存,那么价格就变成了两分钱一百万, tokyo 一 瓶矿泉水都比这个贵一百倍。 但是我今天不想跟你聊 deepsea 的 商业定价策略,我想聊一个更大的事, tucker 正在从奢侈品变成自来水。我想起两年前用拆 jpt 的 时候,一个月二十美元的会员动不动就用完了,用 api 更是贵的要死, 问个问题都要在心里先打好草稿,生怕浪费一次对话机会。那时候,滔肯是什么?是奢侈品,你得精打细算,你得想清楚再问。一年前呢,各家都开始降价,但我还是有意识的控制用量。滔肯是日用品,不算贵,但我心里得有数。 现在呢,最低两分钱一百万,滔肯你一天正常用,可能连几毛钱都花不了。滔肯变成了什么呢?自来水?你打开水龙头的时候会心疼水费吗?不会,你甚至不会意识到你在花钱。 这就是正在发生的事。这件事对你,对我们普通人意味着什么呢?以前你可能觉得 ai 是 程序员的工具,是大公司的玩具,因为贵啊, 用一次 a p i 调用就是钱在烧。但当 tucker 便宜到这个程度,你完全可以选择让 ai 帮你读一本完整的书,然后给你讲重点。可以让 ai 帮你把一周的工作邮件全部整理归类,可以让 ai 陪你的孩子一对一练英语口语。一下午 成本呢?几毛钱?以前这个场景为什么没有爆发?不是技术不行,是太贵了。你不会拿矿泉水洗车,但你会拿自来水洗。 当成本低到用户不需要思考值不值的时候,用法才会爆炸式涌现。一个现实的类比,就能帮你理解这件事有多大。我 还记得二零一五年前,流量是十块钱一百 m b, 在 外面看个视频,心都在滴血。那时候有抖音吗?没有。 有直播带货吗?没有。有短视频创业吗?当然也没有。不是因为技术不存在,是因为流量太贵了,贵到这些商业模式根本跑不通。后来运营商打价格战,流量从十块一百 m b 变成了几十块无限量。然后呢, 抖音来了,快手来了,直播电商也来了,整个移动互联网完全炸开。现在涛肯正在走同样的路,当调用 ai 的 成本趋近于零,会冒出来一大批我们今天根本想象不到的产品和用法,就像二零一五年没人能预测抖音一样,今天我们也预测不了涛肯降价会催生出什么。 但有一件事是确定的,当一种资源便宜到像自来水,它就不再是产品,而是基础设施,电是基础设施,网也是基础设施。现在轮到智能了,而在这个基础上,新的机会才会不断出现。记住这次 deepsea 的 定价,未来回头看,可能这就是 ai 真正平民化的起点。

今天, ai 行业迎来里程碑,腾讯云正式宣布, deepsea v 四系列大模型大幅降价,最高降幅达百分之九十七点五,六月三日零点生效。具体看, v 四 pro 推理输入从零点零一二元每千 tokens 降至零点零零三元,输出从零点零二四元降至零点零零六元, 缓存命中,从零点零零一元降到零点零零零零二五元,降幅百分之九十七点五。 v 四 flash 缓存命中,从零点零零零二元降至零点零零零零二元,降幅百分之九十。关键是 服务能力完全不变,价格和官方持平,没有异价,这对开发者、创业者、中小企业来说,就是降本增效的超级福利。

哇,这个 deepsea v 四 pro 实在是太强了,我真的强烈推荐你们用,我给你们演示一下子。我们用 v 四来启动一个 ai 系统,启动中,正在进行自检,正在检查热点面板。 你们看,他调出了一个全球热点追踪系统,你们看这个过程完全没有加速,反应很快,而且所有的操作都是正常,没有报错。启动之后他一直在检查,在质检他的系统, 还能够打开视频。最近发现一个好玩的,国外的小博制作的一个专属资讯,他刚刚在检查他的视频模式,然后检查完之后他就关闭了。可以看到右上角这里他显示都已经检查通过了。我们来看看他到底能干些什么。你看看今天的抖音热点,看看有哪些好玩的。 抖音今天重头戏基本是硬新闻,轻松一点的有个尼克斯三比零骑士, nba 季后赛尼克斯横扫骑士,还有个男生变帅简直易如反掌。大概是穿搭改造类的内容, 要说好玩的话,就这俩还算轻松。要不要我把那个变帅的视频拉出来看看?关掉吧。 嗯,你找一个小樱说关于伊朗经济的视频。 嗨,来,朋友们,今天我们来聊一个神秘而又混乱的经济体。你老了。

一二三四五六七八八张 r t 叉 pro 六千的显卡,有了它,什么 ai 搞不定?这呢,是我们给一家互联网公司搭建的本地部署方案,客户呢,主要用来部署最新的 deepsea v 四 flash, 并且要有五十家的病房,要求七乘以二十四小时的稳定跑满。根据这个需求呢,我们还是给他搭配了老朋友 冷静的 l t 四二幺四 g 杠八 a 服务器。显卡呢,配置了总共八张的 r t 叉 pro 六千,总显存达到了七百六十八 g b, 用这张卡,单卡呢就能塞下一百二十八 k 的 上下文,不管是全参数的微调 v 四 flash 都没有问题。 接下来呢,我们再看 cpu, 配备的呢是双路 amd 的 epyc 九三七五 f, 总共呢是六十四核心和一百二十八线长数据域处理,代码分词、自定义、算子变异,这些活全靠这颗高频的多核处理器来解决。 这套一百五十万的顶级配置啊,还适合于各种不同的行业场景,除了前面所说的训练大模型,还能在影视行业实时渲染八 k 的 电影, 医疗行业的三 d 医疗影像分割,金融行业的量化风控等等,其性能和效率甚至可以超过多台的普通服务器。如果呢,你想要具体的配置,可以随时滴滴我专业解决方案找懂,经专业部署更省心,下期再见,拜拜!

今天开始用 deepsea 微视 pro, 整体使用下来的感受还是蛮不错的, 我主要是用在一些对话式开发场景上面,就是直接在屌电框里面给他定一个简单的任务,获得一个比较明确的需求,就不需要让他去猜猜任务,然后一个一个执行之类的一个比较简单的需求,这一些他都是可以写的比较到位的 啊。可能有一些小问题,比如说我让他去开一个软件,然后他实际上没有开, 他就跟我说他已经把这个软件打开了,这种在提示词上面给一些兼容就好了,就比如说让他打开一个软件,并且给出这个软件的进程 id, 他 就会做的比较到位。就有点像这个两三个月之前的一些模型的一个海外模型的一些效果吧, 只要给他一些监这 point, 就是 停止这一块,给他一些监督,他就会做的比较好。然后我还没有在长任务上面去试用这个模型,整体使用下来,我感觉他的这个模型相当于 模型的能力,相当于 g p t 五点三 codex 到 g p t 五点四之间的水平嘛。 啊,基本上是可以做我的主力模型了,可能会用的比较痛苦一点,因为如果要说能平替的话,应该是最好接近五点四的水平,但也够用,毕竟这模型足够便宜嘛 啊。然后期待 deepsea 的 下一次更新吧,应该就可以更到五点四到五点五的水平,这样我们就可以去平替海外的一些大模型了。好吧, deepsea 加油,再见。

今天这台是本地部署非常火的 deepsea 微四 flash 工作室,因为客户预算有限,所以我们推荐的配置是两张四零九零四十八 gb 版,总显存九十六 gb, 刚好可以跑 deepsea 微四 flash。 英特尔二量化入门模型, cpu 是两块志强八四八幺 c 处理器,一百二十八 g d 五 r e c c 服务器,内存用技嘉 m s 七三杠 h b e 双 u 服务器主板。 这台 deepsea 微四工作站可用于大批量处理海量文档、金融量化分析、政务处理等场景,欢迎有同样需求的小伙伴来找我们操作页。

deepsea 预计 v 四点一将在六月发布,补齐图像和音频理解,补上 v 四只能纯文本的短板,听起来像常规补全,但拆开成本结构,事情没那么简单。 v 四 pro 运行成本比 gpt 五点四 mini 低百分之五十三,技术代差收窄到八个月,数学和软件工程国产第一一个成本只有对手一半的模式。现在要把感知补齐, deepsea 是 在极致性价比的底座上加感知。多模态不是加分项,是攻进企业市场的入场券。企业不需要最强的模型,需要够用便宜能接近工作流的。 deepsea 的 逻辑不是拼谁更聪明,是五折价格八成能力再用多模态补上最后两成场子缺口。六月如果价格不变,不是追赶,是重新定价。

big c v s pro 很 香对吧?但你不装 skills, 相当于买了台法拉利,只开市区,还没上过高速。我最近把全网翻了个遍,删了三十多个 skills 网站,最后能用的就三个。第一个,全网最大的 skills 仓库,一百五十二万个开源 skills 什么概念?你脑子里能想到的需求它全有,但大归大, 问题是质量参差不齐。上次我找个翻译 skill, 试了五个才找到能用的。适合什么人,你知道自己要什么,愿意自己挑,自己试的来。这就对了,不适合什么人,想即装即用,不想折腾的往下看。第二个, skill store 精品店,这个不一样, 里面的 skills 都经过审核,安装流程规范,不用担心踩雷,数量没那么多,但每个都能用。我最近几个主力 skills 全是从这装的。第三个 排行榜网站纯抄作业专用。你要是不知道装什么好,别纠结,直接上来看榜单,热度排序,质量评分,用户评价全列好了,我每周上来扫一眼榜单,看到感兴趣的直接装。最适合什么时候用,没想法的时候上来溜一圈,灵 感就有了。视频配套 skills 都准备好了,可以看一下,挑一个装上再走,不然明天又忘了二零二六年让 skills 给你打工。

今天这条消息,就是 ai 应用大爆发前的最后一个信号弹。腾讯云刚刚官宣,从明天零点起, deepsea b 四系列模型最高降价百分之九十七点五,直接打到原价的百分之二点五,能力完全不变,价格几乎归零。 所有人都以为是价格战,其实这是万亿市场的开门钥匙。很多人看到这条消息,第一反应,完了,大模型价格战打疯了, ai 概念要凉了。 但我必须告诉你,恰恰相反,这种看似自杀式的降价,根本不是立空,而是彻底打开了整个 ai 应用生态的爆发窗口。行业投资逻辑正在发生根本性重构。先讲最核心的问题, 腾讯云为什么敢降到这个地步,还能保证服务不缩水?根本不是赔本赚吆喝,是底层推理算力成本真的被打下来了。尤其是国产算力卡的适配突破,比如含五 g 的 云端智能芯片,针对 deepsea 这类大模型做了深度优化, 推理效率提升三倍以上,成本直接砍到了原来的十分之一。当调用一次,模型的成本从几毛钱降到几厘钱,几乎可以忽略不计的时候,开发者的所有门槛就都消失了。 这就像当年移动流量从五块钱三十米降到一块钱一 g, 直接催生了抖音、快手的全民时代。现在, ai 应用即将迎来属于自己的短视频时刻。这笔账其实很好算,虽然单价降了百分之五,但用户量和调用次数会变成之前的百倍、千倍。总用量是指数级爆炸的,对底层算力的总需求不但不会减少,反而会迎来井喷式增长。 第一个也是最确定的利好方向, ai 推理算力底座。这就是最经典的卖铲子逻辑,淘金的人越多,卖铲子的赚的越稳。 韩五 g, 国产推理芯片绝对龙头,是这次 deepsea 大 模型降价背后的核心算力支撑,承载了腾讯云超低价、高并发的推理需求光环。新网, 腾讯云最大的 i d c 合作伙伴之一,北京、上海核心区域机柜全部满负荷运行,算力用量激增,会直接带动机柜租金和上架率提升。数据港深度绑定阿里和腾讯定制化数据中心和上架率极强。 第二个价格弹性最大的方向,垂直领域, ai 应用与智能体。过去有太多好创意,死在了成本上。 做一个 ai 导购,每次对话花五毛,根本不敢大规模推广。做一个企业智能助理,年费几万,只有头部客户用得起。现在成本几乎归零,这些商业模型瞬间就跑通了,尤其是已经跟腾讯深度绑定的公司,会最先吃到这波红利, 值得买。手握海量消费数据,正在开发购物决策智能体。原来每次对话成本五毛,现在不到一分, ai 导购毛利率直接从百分之二十飙升到百分之九十。 泛微网络,腾讯是第二大股东, oa 协同办公龙头, ai 智能体接入企业微信后,原来只有大客户用得起的智能审批流程助理,现在中小企业也能轻松买单,市场空间直接扩大十倍。 东华软件,腾讯云长期战略伙伴,在医疗政务领域深耕二十年,最难的行业数据和流程壁垒已经建好,现在模型成本归零,手里的项目能快速转化成可盈利的 ai 产品。 第三个容易被忽略的方向,腾讯云,生态服务商大模型降价后要铺量,要服务千千万万的开发者和中小企业。腾讯云不可能自己干所有事,必须依靠合作伙伴 神州数码、腾讯云全国总代理和顶级 a s p 服务商。大模型产品放量,它的分销和增值服务业务会水涨船高,赚的是最稳的流水钱。托尔斯, 国内大数据龙头,跟腾讯云在鱼情金融、风控领域深度合作,模型调用成本下降,对它来说就是原材料降价,手里的海量数据能加工成更赚钱的 ai 产品,利率率会大幅提升。 最后,必须讲透风险,这种极致降价会加速行业洗牌,那些只会拿开源模型套个壳,没有任何行业数据和落地能力的公司的话,会被直接扫进历史垃圾堆。 最终能活下来的只有掌握底层算力的公司和在垂直领域深耕多年,有真实数据护城河的玩家。最后问大家一个问题,你觉得第一个爆发的 ai 应用会是什么?评论区告诉我。