就在今天啊, deepsea 微四腾空出世,宣告着 ai 正式的迈入了百万上下文的普惠时代。 deepsea 微四拥有一百万的超长上下文,在 agent 能力、世界认知和推理性能上都有重大的突破。 deepsea 延续了他一贯以来低调内敛的风格,他并没有说自己遥遥领先,而是说他的性能比肩世界的顶级闭元模型。我们可以看到啊, 在 a 检测的评测中, v 四已经优于 sawlett, 交付质量已经接近 propos。 在 世界认知评测中, v 四大幅度的领先其他开源模型,仅仅稍逊于 b 源模型 jimmy。 在 数学 steam 竞赛代码的测试中, v 四已经超越了当前所有公开评测的开源模型。 deep 四到底是怎么能够做到的呢?它从来都不是靠营销,而是靠它实实在在的做架构的优化。 在系统架构上,因为这个, v 四开创了一种全新的混合注意力机制,在 token 维度进行压缩,实现了超长上下文的能力,相比于传统方法,大大地降低了硬件的需求。哎呀,没办法,人家根本不卖卡给他们。 混合注意力机制主要由两部分构成, csa compressed space attention 稀疏压缩注意力与 hca heavily compressed attention 超级压缩注意力。 v 四采用它们交叉配置的混合架构,大幅度地降低了长文本场景中的注意力计算成本。 csa 将 m 个 token 的 k v 缓存压缩为 k 个条目,而 hca 将 m 个 token 的 k v 缓存合并成一个条目。 csa 和 hca 的 混合架构显著地提高了 deepstack v 四上下文的效率,使得百万 token 上下文在实践中成为可能。 我初步看了一下呀, deepsea 微四在整体架构基础设施啊,包括通信计算优化内核开发批量计算量化感知训练推理框架预训练后训练等等很多个模块都进行了系统性的优化。 由于资料今天才发布,其中的架构细节我还没有深究,在未来的三个月,我将对这些架构细节进行研究,感兴趣的同学敬请期待。
粉丝2.5万获赞6.8万

devic 微四硬件配置全解析中小企业本地部署落地指南二零二六年四月二十四号凌晨, devic 突然扔出了 v 四预览版,震动了开源大模型圈。很多人刷到官方参数的第一反应还以为这数据是不是标错了, 毕竟一点六万亿的总参数摆在那,一百万 t 开源的上下文还全系标配,而且直接采用了幺幺三零进防炮扫射了。 社长这两天把大家最关心的硬件配置问题都整理清楚了,接下来我会从模型本身的核心参数,到华为升腾全系列显卡的实际表现,再到英伟达显卡的部署门槛,还有整机的硬件搭配,一项一项跟大家说清楚,大家一定要耐心看完,看完之后你就清楚该怎么配硬件了。 特别让人兴奋的是, deepsea 微四没有像过去那种单纯的事后移植,而是从模型设计阶段就跟国产算力深度绑定了,华为团队直接驻厂,双方联手重写了大量底层代码,硬是把这套万亿参数的大模型从英伟达的扩大生态转移到了华为自研的 c a n n 框架上。 升腾那边也完成了推理和训练的全方位适配,开箱就能用。发布当天,华为升腾就完成了首发适配,全系列超节点产品都跑起来了。当然,英伟达那边也没丢,技术报告里两家芯片是并列验证的关系,但可以说这是国产顶尖 ai 模型与自主算力底座深度融合的重要突破。 这次 deepsea v 四开元模型一共出了四个版本,对外提供服务的主力是 v 四 pro 和 v 四 flash, 另外还有两个不带对齐的 bios 版,专门给开发者做二次微调用的,它采用了新一代混合注意力加 d s a 稀疏注意力技术, 能做到一百万 talking 内基本不丢信息,这代表了什么呢?代表了他一次性读入整本书或者整个中型代码库都没问题,不管是长文档分析、法律合同审查,还是百万字小说创作,都能轻松搞定。在讲硬件配置之前,我们要先搞懂两件事情。首先是参数量和显存占用的关系。 deepsea v 四 pro 总参数量是一点六万亿, deepsea v 四 flash 总参数量是两千八百四十亿。这两个总参数量都是 f p 十六原生精度基准值, 直接决定了本地部署的显存占用。 f p 十六 b f 十六是原生满血精度,每个参数占两字节, f p 八 ink 八占一字节显存减半。 f p 四 q 四 int 四占零点五字节显存百分之二十五, q 二 int 二占零点二五字节显存百分之十二点五。因此,在 f p 十六净度下对应的显存占用分别是一点六 tb 和两百八十四 g b 显存八净度下对应的显存占用分别是八百 g b 和一百四十二 g b。 q 四进度下对应的显存占用分别是四百 gb 和七十一 gb。 在 极限压缩的 q 二进度下对应的显存占用分别是两百 gb 和三十五点五 gb。 也就是说,哪怕是运行最小的 deepsea v 四 flash q 二模型,单模型的显存占用就要达到三十五点五 gb。 除了模型本身的显存占用之外,还有上下文, k v 缓存框架开销和中间张量预留都会产生显存占用,上下文越长,显存占用越大。如果要达到一照超长上下文, 单频发 k v 缓存的显存占用就要达到二十到三十 gb。 其次, deepsea 微四全系都是 m o e 架构模型, m o e 是 混合专家架构的意思。以 deepsea 微四 pro 模型为例, 它的所有专家模块加起来的总和是一点六万亿参数,每次推理的时候只会激活四百九十亿参数,让这很小一部分的专家来干活。但并不是说显卡每次只要运行四百九十亿参数才能运行,不能只加载单次推理的激活参数, 这是我们在后面计算显存需求的核心前提。好,搞懂了这两个核心问题,那我们就正式进入硬件配置解析环节。因为 deepsea 微四 pro 参数量过于庞大, 需要几十张顶级显卡才能流畅运行,这巨额的成本支出基本上不是给中小企业准备的。所以我们这一期把重点放在中小企业最关心的 deepsea 微四 flash 高效谱绘版上面。 它的 f p 十六总参数量是两百八十四 b, 单 talking 激活参数量是十三 b, 定位、日常兑换、轻量化业务部署、高并发推理和低成本落地场景 契合绝大多数中小企业需求。我们先来看一下 d p c v 四 flash 对 应的显存占用模型本身叠加 k v 缓存、框架开销等之后, f p 十六精度需要六百二十 g, 显存 int 八精度需要三百二十 g, int 四需要一百六十 g q 二需要九十 g。 在这些精度中,社长推荐有一定实力的中型企业上, int 八精度模型性能损失较小,推荐小型企业上 int 四精度模型,虽然有一定的精度损失,但性价比较高,不太推荐 f p 十六和 q 二精度, f p 十六性价比不高, q 二精度损失较大,性能偏弱。 除了上述的精度模型之外,社长还推荐 d p c 官方推出的 f p 四加 f p 八混合精度模型,只需要一百二十 g 显存,而且一张华为升腾、阿特拉斯三五零一百一十二 g 显卡就能实现适配,也是目前性价比比较高的方案。华为升腾是怎么做到的呢? 因为这一次 deepsea 微四与华为升腾实现了原声适配,这就是它在升腾显卡上表现出色的核心原因。在华为升腾的显卡芯片型号里,比较适配 deepsea 微四的是升腾九幺零 b 四、升腾九幺零 c 和升腾九五零 pr。 其中升腾九幺零 b 四对应的显卡是阿特拉斯三百 i a 二六十四 g, 升腾九五零 c 对 应的显卡是阿特拉斯三五零一百一十二 g。 其中比较适合中小企业的是二零二六年三月刚刚商用的阿特拉斯三五零推理加速卡,它搭载 scent 九五零 pr 芯片,标配一百一十二 g 自研 hbm 高宽带显存,宽带一点四 t 每秒, f p 四算力一点五六 p flops, 是国内率先原生支持 f p 四低精度商用的 ai 加速卡,单卡就能实现高吞吐、低延迟推理。据 d p 四个官方实测,综合性能约为英伟达 h 二零的二点八七倍,升程速度显著提升。再来看英伟达平台在具体部署要求上, f p 十六精度需要八张 a 一 百八十 g 显卡,英特八精度需要四张 a 一 百八十 g 显卡,英特四需要两张 pro 六千九十六 g 显卡或四张四零九零四十八 g 显卡。 q 二,需要一张 pro 六千九十六 g 显卡或两张四零九零四十八 g 显卡。目前英伟达的 blackwell 架构是原生支持 f p 四精度的, f p 四精度的 dipstick 模型跑在 blackwell 架构的显卡上性能会有大幅提升,这也是为什么最近几天采用 blackwell 架构的 pro 六千九十六 g 服务器版显卡价格飙升的原因。从部署成本上说, f p 十六精度成本过高一般不是中小企业可以承受的, note 八和 f p 四是中小企业比较可行的精度,整机在十几万到三十万之间, q 二,精度损失比较大,不建议采用。接下来说说服务器整机配置硬件的要求,显卡是核心关键瓶颈, cpu、 内存、硬盘也要严格匹配,不能出现短板。 q 二,测试级配置推荐 cpu 十二和二十四线城以上,主频大于等于两点五 g 二卡以上需要十六和三十二线城 内存一百二十八 g 起步。硬盘推荐 nvme 三点零固态五百一十二 g 以上机械硬盘和赛道固态无法满足模型运行需求。 intel 四以上的生产级配置,双路服务器 cpu 二十四和四十八线层以上,主屏大于等于两点六 g, 支持至少六十四条 pci 四点零通道,内存两百五十六 g 以上,一兆上下文需要升级到五百一十二 g 硬盘用企业级 nvme 四点零固态二 tb 以上, 连续读速大于七千兆每秒,硬盘配小了连模型都装不下。最后说说个人消费级配件,因为消费级 cpu 最多支持两张显卡跑满速。也就是说,如果用消费级硬件来跑, deepsea 微四目前最高可以配两张 pro 六千九十六 g 显卡,显存合计一百九十二 g, 可以 流畅运行 it 四以下版本的模型,但整机成本高达十五万以上,这已经超出大多数个人用户的承受范围了。 好,以上就是关于 deepsea 微四的硬件配置全解析,如果你也有个人工作室或小企业的 ai 本地部署需求,不管是硬件配置搭配还是软件的部署调试开发,都可以来找社长聊聊。

本期视频来分享如何将 deepseek 的 vs 模型接入 cloud code, 并解锁 em 的 上下文以及 max 思考等级。我目前已经将 deepseek 的 最新模型 vs flash 和 vs pro 通过 ipad 的 方式来接入了 cloud code。 vs pro 模型在降价之后性价比也越来越高了,并且对 a 键的也有做专门的适配, em 的 上下文对于大多数人来说也更加友好。 视频内容主要分为四个部分,第一需要先安装一下 cloud code。 第二,安装开源工具 c c switch。 第三,需要购买一下 deepsafe 的 api 并完成配置。最后再来测试一下 deepsafe。 v 四 pro 加 cloud code 这套组合表现怎么样。废话不多说,我们现在开始 首先来说如何安装 cloud code。 大家常说 cloud code 经常被封号,那其实封的是拥有模型能力的个人账号,但 cloud code 作为一个单独的软件是可以正常下载和安装的。 没有订阅官方的模型,我们依旧可以使用它的框架当成是 opencloud 或者 hermes nint 这种。在他们的项目官方网站这里也有明确的说明。终端 cli 和 vs code 也支持第三方提供商。 本期视频演示的是安装 cio 版本,也就是最通用的版本。这里有一行中的命令,它支持 macos、 linux 和 windows 这几种不同的系统版本。 windows 这里分为 power shell 命令和 cmd 命令,并且 windows 用户需要先下载安装下 get, 如果没有安装的话,可以到 get 的 官方网站下载安装包进行安装。 这里复制这一行命令,然后打开终端 app 或者 power shell, 输入他们提供的命令回车执行就可以了。我这里已经安装过,所以不再演示具体的步骤。安装好之后可能会出现一个提示,大致意思是安装已经完成,但是 control 的 安装位置并没有加入到电脑的环境变量中。 这里直接复制这行他提供的命令,在终端执行一下,搞定之后输入可拷的 code 杠杠微刃来确定当前的版本号。后续使用的话,直接在终端输入可拷的命令就可以打开了, 但是你那里可能会提示不能连接官方服务。接下来我们来安装第二个工具 cc switch。 cc switch 是 一个开源工具,它能够让 cloud code codeys、 opencloud 这类的 a i a 检测,方便地切换模型。累计下载量有三百多万,在 github 上面也有五万多个 star。 它有很多实用的功能,比如一份配置同步到多个应用,支持热切换,不需要退出应用切换模型。还有用量仪表盘,能够查看你的请求数和头克用量等等。 我们在项目的首页这里有一个已发布的安装包链接,点击进去,然后在这个界面直接划到最下面。这里有很多的安装包版本,如果是 mac os 系统就下载这个 mac os 点 dmg 的 版本,如果是 windows 就 下载这个版本。下载好之后直接点击安装包进行安装就可以了。 它这个项目的说明文档也有比较详细的安装教程。第三步,到 deepstack 的 开放平台购买 api。 我们来到 deepsafe 官网,点击 api 开放平台,我这里之前已经充值了一些,在网页和 deepsafe 对 话是完全不收费的,但是想要调用 api 就 需要进行充值。他们目前没有推出类似 tokpline 这样的按月订阅的套餐,好处就是用多少花多少。 目前他们对 v 四 pro 模型打二点五折,每百万 tokens 缓存命中情况下输入是零二五元,未命中是三元,输出是六元, 这个折扣目前是到五月三十一号截止。 v 四 flash 模型和 pro 模型的价格对比可以在官方的 api 文档里查看,这里点击充值按钮,然后选择金额和支付方式。建议先小额买一笔,用完之后根据自己的实际使用情况再进行补充购买。 付款完毕之后,点击左侧的 api case, 点击创建,然后复制这个 key 的 密钥, 注意这个 k 的 密钥只能够在创建的时候查看,关闭这个页面就看不到了,如果丢失的话,就需要重新创建一个 k, 然后打开 cc switch 这个应用。我这里已经添加好一个 deepsea 的 模型了,选中这里的 cloud 的 图标,然后点击添加, 在预设供应商这里找到 deepsea, 在 api k 这里填写 k 的 密钥,然后这里需要修改一下这几个模型,可以直接参考我这个填写 默认模型就是 deepsafe。 v 四 pro 后面加上 em 是 因为之前的公告有说明,这样才能够开启 em 的 上下文,然后点击添加就可以了, 这里就会多一个 deepsafe 的 模型,点击这个按钮来测试当前 api 是 否可用。点击这里可以配置用量查询,查看当前还剩多少余额, 勾选这里,然后点击保存配置,这样的话就能够看到还剩下多少钱了,然后点击起用,就能够正常的使用可绕的扣子了。左上角有一个设置按钮,通用,这里建议打开开机自启使用统计,这里也能够查看 ai 模型的使用情况和成本。 我们打开终端应用,输入可绕的指令,那这个呢?就是 deepsea v 四 pro 的 模型,并且是一百万的上下文, 我们输入指令斜杠 context 能够查看,这里确实是一百万的上下文 tokens。 这里的默认思考等级是 medium, 可以 使用命令斜杠 effort, 然后空格后面的话就会显示哪些等级可选,这里输入 max 回车确认,这样的话思考等级就会调到最高。还有一个命令可以快速的切换模型, 输入斜杠 model, 然后回车。默认模型其实就是 v 四 pro, 我 们之前配置的 apps 和 sonata 都是 v 四 pro, 嗨酷模型是 v 四 flash, 通过键盘的上下按键来选择,选中这个模型,然后回车确认, 这样的话模型就切换到了 v 四 flash, 这里输入命令 context 能够看到它的上下文,显示是两百 k 的 tokens。 最后一部分来测试一下 cloud code 搭配 deepsea v 四 pro 到底贵不贵,干活效果怎么样。 首先说一下,它是基于文件夹的工作模式,所以你需要先通过 cd 命令跳转到你想要它打开的文件夹,比如我的项目文件夹的路径是这个,就需要输入屏幕上完整的指令回车,到了这个文件夹后,输入 cloud 的 命令来启动它, 如果路径很长的话就比较麻烦。有一种方法可以简化一下, windows 用户应该可以直接在文件夹右键从当前文件夹位置打开终端, mac 用户右键的话是没有的,但是可以直接将文件夹拖拽到终端 app, 那 当前终端打开的文件夹就是这个项目文件夹, 输入 cmd 命令,可以查看当前文件夹的路径,然后输入 cmd, 启动 cmd 的 code。 第一次打开的时候需要确认一下这个文件夹,点击 yes, 后续退出的话需要连按两次 ctrl 加 c。 这里安装一个归藏老师最近开研的一个 ppt skill, 设计是比较美观的。 来到他的项目仓库,这是一个电子杂志风的网页 ppt skill, 纯网页形式,适合线下分享,但是不适合培训课件。这个 skill 的 名称叫做归藏 ppt skill, 这里提供了多种的安装方式, 最方便的就是直接复制这一段话,然后发给 ai, 选中这一段话, command 加 c 复制,然后来到 kol 的 对话界面, kol 加微复制,然后直接发送。 kol 在 执行任务过程中会需要一些权限的许可,遇到的时候直接选中 yes 就 可以了,它的框架对于安全保护还是比较好的。 整个的执行过程我就直接跳过了这里提示安装好了触发词,就是帮我做一份杂志封的 ppt。 ok, 我 在这里输入这句话,然后告诉他要做的内容就在当前文件夹中。在当前的项目文件夹中,我放入了一个 mail 文件, 内容是关于 code 的 使用方法论,然后回车执行。他会先查看项目文件夹的内容和 skill 的 使用说明,执行过程中可能会问一些问题,根据个人的需求选择就行。 我这里也跳过过程,大概直行了六分钟左右,一共生成了九页 ppt, 并告诉了我每页的布局和内容,以及怎么操作。 ok, 我 们直接打开浏览器来查看一下这个网页的 ppt。 这是第一页 codex 的 方法论,整体的设计风格确实是比较美观的,如果是个人制作的话,可能要花费比较长的时间,并且效果还不一定有他这个好。 第二页这里的话可能会有一点点问题,下方的文字有一部分被遮挡了,后面的页数大家可以具体去看一下内容觉得怎么样。 最后再来看一下安装这个 skill 以及制作这九页的 ppt 一 共花费了多少钱。 我在做之前是九点八九的余额,刷新一下网页,那现在还有九点三九的余额,一共是花了五毛钱。这里有一个每月用量的图标,展示每个模型花了多少钱。下面也有 token 的 使用详情,包括输入和输出的具体数量。大家觉得 deepsea v 四 pro 的 性价比怎么样?

大家好,我是瑞克老张。四月二十四号, deepsea v 四终于发布了预览版,两个模型, v 四 pro 呢,一点六万亿参数,激活四十五笔上下文,一百万 token。 v flash 呢,是两千八百四十亿参数,激活十三笔上下文也是一百万 参数。看得吓人,但真正有意思的不是这个。先说 v 四 pro 的 技术架构, v 四用的是 dsa 二的注意力机制,啥意思?就是把之前 v 三的 dsa 吸收注意力和今年出论文里其他的 nsa 两种技术的表融合了。 在 token 的 维度呢,作为压缩啊,配合滑动窗口保留最近的一百二十八个 token, 原始 k v 却不压缩,确保局部的这个依赖没有进入损失。 这招狠在哪呢?我们通过模拟评测发现,一百万上下文场景下, v 四 pro 的 单 token 会比 frost 只有 v 三点二的百分之二十七, k v catch 也只有百分之十, 啥概念?就是长文的上下文的成本被砍掉了近七成。 m o e 架构也升级了,那就是 m e g a 的 这个内核融合方案,每层三百八十多个专家,但每次只激活六个。这 这虽然比 b 三的专家数量多了,但几乎比例却下降,说明路由更精准。还有一个关键技术就是流行的约束超连接。就是 m h c 嘛,这玩意解决了超大规模 m o e 训练不稳定的问题,数据传输的问题, 训练呢,并不顺利,他自己也承认万一参数来某一有经典的相关的问题,简单的回滚救回来。 mhc 七九五是用来稳定训练和传输数据的 优化器呢,用的是 mua 啊,这个是一种把 newton scotch 正交化应用导动量更新的一个矩阵级的优化器,听得绕口,简单说就是收敛更快,训练更稳。 再说 vs flash 这个玩意其实也是很有意思的, flash 这个小模型两千八百四十亿的总参数啊,经过十三笔域内数据,三十二 g 跑分,上下文也是一百万。 flash 的 定位很明确,极致性价比。我们通过评测发现,在简单的 a 整数任务上, flash 和 pro 旗鼓相当,但在高难度的任务上, flash 还是有差距的啊。 模拟评测的数据显示,一百万上下文, flash 的 单头梗推理 flop 也只有微分点二百分之十, k v cash 也只有百分之七,但是比扣还狠,压缩成本非常低。 这说明啥?说明 flash 不是 简单的小模型,而是在架构层面做了极致的优化,同样的 d s a two 的 助力机制,同样的 m o e 架构,但参数会激活,都压到了极致。 两个模型的性能 b 对 比呢?其实可以看到整个的团队呢,在上午紧急的去评测跑了一大堆的场景。 mesopro 在 a 阵能力上编码体件已经超非常强,交互质量 基本接近 oppo class 四点六的那个非思考模式啊,但它稍微还差一点,它那个思考模式可能还差一点。思考模式我们认为可能还有一个百分之五到八的一个情况,但数像数学竞赛代码这些东西,它都是已经到了最顶尖的开源模型。 ms flash 呢批的结构显示推力能力和 pro 相接近,但是世界支持储备稍逊,而且简单任务上和 pro 差不多,高难度任务上有差距,差距大概在百分之二十左右, 但说算力,这个才是重点啊。这个 d f c 这次明确说了,这一次已经做好了适配,下半年全量都要批量上升腾。不是支持,是批量上,这两次差距非常大,那次架构已经从库纳全面转向了那个升司啊。 针对升腾营点做了全电路的定制化优化,算力利用率从六十百分之六十直接拉到了百分之九十五以上,推理效率也大幅提升,部署成本只有传统方案的三分之一, 这意味着啥呢?意味着国产算力从能用变成了好用,从备胎变成了 c 位产业。怎么看升腾服务器是核心,这个没有任何问题,就是升腾服务器永远都是核心啊。订单兑现最快, 夫妻的放量会带动上下游有人气件恐怖爆发,高速连接器过快,夜冷温控,高端 pcb 都是刚需。下游软件适配和行业解决方案,客户绑定非常深啊。现金流稳定是生态生态长期避雷的核心。简单的说,短期看整体订单,中长期看上流放量,长期看生态避雷。 背后的逻辑,哎,非常的清晰,对不对?技术逻辑。 d f c 这一次呢,不是简单推参数,而是在重构上下文的成本结构。传统方法啊,处理一百万上下文,计算量和显存的消耗是显性增长。 v 四,通过 d s a two 的 注意机制,把这个增长曲线压下来,这意味着长长上下文不再奢侈品,而是标配。 d f c 自己也说,从现在开始,一百万上下文就是所有官方服务的标配,这事意不是技术,是商业模式重构, 我说句实话,真是没那么简单啊,你要想搞清楚他的设计架构非常的激进,搞清楚他未来意味着什么,后续的东西怎么办,以及引发的营销。欢迎你们加入到我们的会员计划,我们的季度会员科普课啊,咱们的课,咱们九天呢,四十五个视频,八场专门的直播啊, 很多的内容都是围绕整个产业链去展开的,大家对他的相关的了解会产生更多更好的内容,更换我们的内容,得到了整个平台的支持,所以我们现在拿到平台的补贴啊,这个原价六百多,现在只有四百多, 非常的超值,要需要赶紧看,链接在底下点击即可。好吧啊,今天就到这了,我是魏小张,关注我,咱们从投资的视角看科技背后的精彩,我们见。拜拜。

dpc 发布, v 四的海啸依然在发酵,它这里面呢,一个核心的点就在于它的 pro 版本跟 flash 版本,基本上是把一 t 到两 t 之间范围和两百 b 上下的范围的所有模型都排挤在竞争范围之外,因为它的性能是远超过所有模型的,但它成本呢,却远低于所有模型。 我先分享一下它之所以能实现这样的一个高性价比的核心的影响,那 v 四呢,有几个大的软件上的升级 这些呢,其实 deepsea 团队在过去的一年中也都做过一些开源和技术报告。第一个呢是 ingram, 记忆不坏是在今年一月份的时候,梁润峰也署名的一篇论文,我也在我的视频号上分享过。核心逻辑呢,就是一个可以分静态知识和主动知识的一个外部的强项机,让模型呢既能长也能算 传统的价格中呢,既以跟推理的混合在一起的,所以模型呢也比较辛苦,既要用注意力去解锁知识,又要用注意力去推理。而 ingram 呢,把这些固定的静态知识呢,储存到一个类似字典的造造表里,让模型能够快速的调用,就不用消耗大量算力在现场去回忆了,这个效果是很不错。 ingram 的 魔幻呢,让注意力施放。在实验阶段,一个集成两百七十亿参数的 ingram 的 模型,在参数跟复联预算同等的强项下,性能超过了 m e 的 混合模型。 第二个呢就是 mhc, 也是前几个月分享的,叫做流行约束超链接,就是 manifold 接口 connection, 这个逻辑呢,有点像 kimi 之前发布的 attention rest 逻辑,就是约束模型在 former 传递过程中的叠加,防止出现气头爆炸、指令消失和训练崩溃的情况。 所以呢,可以理解呢, mhc 呢,相当于在模型的这个高层大厦里放了一个自动的稳定的电梯,每一层呢,都有一个阀门,不管环境什么样的信息,一律精准的控制在一个固定范围之内,既不能让信号太强给电梯增加负担,也不能让信号太弱以至于丢失。第三模块呢,就是关于记忆机制的, 也是 c s a 和 h c a 两个记忆力机制创新。 c s a 呢,是压缩吸收注意力, h c a 呢,是高度压缩注意力。它逻辑呢,是通过看大纲来抓主旨。那 v 四呢,是把这两种方法交错使用。一层 c s a, 一 层 h c a, 就 像一个人读书,既粗看目录大纲,又细看各章的内容摘要。这两种创新,解决了大模型处理长文本的两个短板, 就是卡顿和缓存大小都是在 d p c v 三的百分之十甚至更低。 v 四呢,下一个很重要的价值就在于它在 g p u 层面的优化了,这也是绝大部分模型公司所谓的模型,更多是软件公司嘛,这种软件层面的创建的公司,望尘莫及的地方。就在 v 四发布的前一天呢, deepsea 呢,发布了开源的 hire kernel 模块,使用的是 hylian 源 lan 呢,是兼具计算机语言和编程终端的 ai 算词编程语言,属于领域特定语言,是 deepsea 和北京大学联合开发的,二零二五年呢,就在 github 上开源了。那 deepsea 的 v 三点二就使用这个语言,那这个模块呢,主要是用于开发 gpu 内核, 原来呢,它只能靠 c 加加在库达上面做计算,而库达呢,是英伟达绑定的计算平台加编程的模型,虽然呢性能很不错,但是呢,是英伟达绑定的计算平台加编程的模型,虽然呢是抛开了库达用 potato 呢直接去写代码,再交给变 e 器自动优化,直接改变了 g p u 的 优化方式。原来的芯片的效率的使用情况来看呢,是国产芯片,虽然纸面算力很高,但实际有效的利用率是只有三到四成。而英伟达通过了 puda 的 加持呢,可以 把电力提升到六到七层。这一次呢,通过 hyundai, deepsea 呢在 hyundai kernel 层呢做了优化,让国产的芯片的算力也达到了与英伟达接近的这种使用率。换句话说呢, deepsea 呢,通过了 gpu kernel 层的优化,让国产芯片跟英伟达的差距呢,是在逐渐变小的,就是他们自己做了一套类似国产扩大的能力。 我说一下 deepsea 这个事情对市场到底有多大的影响,因为它昨天才发布很多的发酵呢,其实刚刚开始,当然我们现在呢已经能做出一些预判, deepsea 它真正做到了性能和成本的双向优化,现在在性能上能保证持续性超越 deepsea 的 也只有预参加了,分别是 app, openai 和 google。 所有的其他模型都没法保证在任何一个时间点能 能超越 deepsea, 因为 deepsea 也在融资,也在加快它的模型的升级迭代的速度。所以因为 deepsea 放出了一点六星的肉模型和两百八十四 b 的 flash 模型,基本上呢,是在从一百五十 b 的 范围到可能四 t 的 范围之内,相当于放出了两个原子弹,让这范围内的所有的模型可以说是寸草不生, 因为即使你能在同样的参数下,也让它的成本取得量级上面的领先,更何况,很多比 deepsea 更大参数的模型,它的性能还不如 deepsea。 所以呢,基本上市场上的模型呢,在未来的一段时间内竞争呢,只能绕着 deepsea 走,无论是比 deepsea 模型参数大很多的类似 antarctic g b t 的 五 t 的 模型,还是一百二十 b 甚至更低的范围之内的去不断优化,成本低于 deepsea flash, 但是效果呢,却 接近 deepsea 再式的用小模型,再到目前来看,国产的其他大模型,只能被部署到五 t 的 范围之内竞争,因为小模型这个领域未来的竞争也会很激烈,因为并不是特别的消耗资源。那五 t 的 范围呢,其实是一个非常有风险的投资,因为它需要巨大的商业成本。而当你超越 deepsea 模型的时候,是否 deepsea 还会继续跟进也是未知数所, 因为 deepstack 这次的发布呢,其实市场的格局已经产生了巨大的变化,未来呢,对于很多的 ai 公司来说,可能更需要关注的是在哈里斯层和应用层,而模型层的竞争呢,对绝大部分公司来说,已经挤压到了一百二十倍以内的模型优化赛道上面。

家人们谁懂啊, cloud code 居然能完美接入 deep secret 四 pro, 这简直是程序员的省钱天花板,终于不用再写代码的时候,一边用 ai 一 边心疼 toker 了。建议大家先关注点赞收藏,详细的配置教程也给大家整理好了,可以跟着咱们的步骤来。 首先安装 cloud code, 安装完成后输入 cloud version 检查版本。接着第二步,使用 c c c 去图形化工具配置大模型。首先我们打开 github, 搜索 c c c 位置, 找到第一个这个用 rest 写的, 然后点击路由设置,然后点击详情往下面滑动,这里有不同版本的,根据自己电脑下载安装, windows 直接可以下载 mc 下载安装, 我们这里已经提前下载安装完成,安装完成后就是这样的界面,可以对不同的大模型配置,我们这里选择 d p k, 然后这里最关键的就是输入 api k, 接着我们打开 d p k 官网,如果没有账号,先提前注册,找到左边的 api k, 然后创建一个 k, 然后回到 c c 杠 switch, 输入我们刚刚创建的 k, 这里配置下主模型统一都是 d p c k 杠 v 四 pro, 四个都可以填写一样的,填写完成后可以点击测速下看,看到这里 c c c 去的就配置完成了,接着我们就可以点击启动使用 d p c 了,输入 call 检验,看看是否切换成功。到这里我们在 call 的 里面配置 d p c 就 算完成了, 然后有粉丝兄弟问我如何在 call 的 里面配置 d p c 就 算完成了。然后有粉丝兄弟问我如何在 call 的 推荐可以使用 c c g u i, 安装完成后就是这个小图标,正常我们用 c c switch 配置好 idea 里面的插件就会自动识别并切换,可以看到响应速度还是挺快的。好了,本期的视频就先分享到这里,有什么问题都可以粉丝群一块讨论。

本期为广东某企业定制部署 deepsea v 四 flash 大 模型解决方案,模型采用 a n t 八精度落地,依靠全球海量船运行业数据训练物流行业垂直大模型。整机采用四卡工作站机箱,搭载双路英特尔志强金牌六五四二 y 处理器, 四十八核九十六现成锐屏,至高四点零 g, 配备八根六十四 g d d r 五五六零零内存,整机五百一十二 g 超大内存,完美满足模型 e m 超长上下的运行刚需。 搭载四张英伟达 rtx pro 六千专业工作站显卡,整机总显存高达三百八十四 g rtx pro 六千原声,支持 f p 四精度,可完美适配 deepseek v 四 flash 模型超长上下纹以及混合注意力架构与量化推理需求。

一点六万亿像素,百万头盔,上下玩 m i d 开源可上手的威士兰。很多人第一眼看到这个数据,脑子里只有一个问题,我到底要配多少钱的机器才能跑起来?从版本选择、国产创立适配,到服务器、整机方案、个人消费级配置,全部都给你讲清楚了 一次。这次不是先出的模型再移植的国产芯片,而是从模型设计阶段就跟华为生存深度绑定。华为团队直接参与了底层代码的重启,把这套万亿参数的大模型从英伟达的 生态迁移到了华为自研的勘探框架升腾特,完成了推理和训练的全换,设备发布当天就完成了首发设备,这意味着你用华为升腾显卡 pro。 v 四不是测谎能用,而是原生石开箱即用。这是国产顶尖 ai 模型与自主算力底座 真正深度融合的一次重要功能。 v 四这次一共发布了四个版本, v 四 pro 总参数一点六万,以旗舰版,每次推理激活四百九十亿参数,目的是加速推理,不影响总参数量,面向高端企业部署。 v 四 flash 总参数两千八百四十亿,是高效普惠版, 每次推理激活一百三十亿参数,面向中小企业和高变化场景。 vs pro base vs pro flash case 去掉对齐的原始版,专门给开发者做二次微调用,对外提供服务的主力是 vs pro 和 vs flash。 绝大多数中小企业重点看 vs flash 就 够了。 v 四 pro 的 参数量太大,整机成本动辄几十上百万,不是中小企业可以承担的。另外有一点要搞清楚, v 四全系是 m o e 混合专家架构,虽然每次推理只激活一小部分参数,但是部署的时候必须把全部的参数加载进显存, 不能只加在激活部,这是后面计算显存需求的核心。先把显存计算给大家说清楚,以 v 四 flash 为例, 不同的精度对应的总显存的需求大概如下,有一定实力的中型企业、预算有限的小型企业,性价比高,精度损失也可以接受,不推荐 ip 十六,性价比太低,硬件成本太高另外重点说一下官方推出的四加八混合精度版本,只需要一百二十 g 显存,而且单张华为升腾阿萨斯三百五一百一十二 g 就 能适配, 目前性价比最高的方案之一,可以强烈关注一下。接下来讲讲华为升腾方案,适配威思的主微型号是三款,升腾九幺零 b、 四、升腾九幺零 c、 升腾九五零 pr, 其中阿拉三五零是重点推荐的中上节的首选,搭配升腾九五零 p 二芯片 一百一十二 gb m 高带宽显存,单卡即可实现高显存低延迟推理, dpc 可官方测试,综合性能约为英伟达 h 二零的二点八 gb, 升程速度显著领先。说一下英伟达的方案,以 f p 十六精度需要八张 a 一 百八十 g, 成本太高不建议。英特八精度需要四张 a 一 百八十 g, 英特四精度需要两张 four 六千九十六 g 或四张四零九零四十八 g。 值得注意的是,英伟达 blackwell 架构原生支持 l p 四 g, l p 四精度在 blackwell 架构上显卡性能大幅提升, 这也是最近 pro 六千九十六 g 服务版显卡价格不断飙升的直接原因,整机硬件的搭配要求 cpu、 内存、硬盘必须严格匹配,不能出现短板。英特斯及以上生产级特别提醒,硬盘小了,模型文件都装不下,这个坑很多人踩过,不要省这个钱。一句话总结下来,国产算力首选升腾斯三五零中效捷豹 v 四,英特斯 f p 四混合精度,整机成本可以供人,在合理范围内性价比比较高。如果你也有企业 ai 部署需求,不管是硬件选型、整机配置还是软件部署、定制开发,都可以来找我聊聊。

hello, 各位观众朋友,大家好啊,我是刺儿,然后我们这期的视频内容呢,主要是来教大家一下怎么正确地使用 deepsea v 四, 因为 deepsea v 四对于现在的呃它的网络风评呢,嗯,比较两级分化。一边呢说 deepsea v 四啊,非常好用,非常强啊,没有辜负大家一年的等待另一半呢,说 deepsea v 四啊,不好用啊,不够智能,然后甚至不如豆包, 嗯,对于这个后者呢,我保持这个嗯,质疑态度啊,因为本身,呃,我看到的这收集到的信息就是说 deepsea v 四不行的,它有两部分,一部分是专业工作者啊,因为人家非常懂 ai, 那 另外一部分呢,就是我们普通的 呃用户,那他们呢,就是用手机 a p p 啊,下载 deepsea 微 deepsea 之后点进去,然后问他一些问题,然后,嗯,把它当做一个这个搜索引擎啊,问一些问题,然后我觉得它不够智能,其实这样的使用是错误的啊,因为本身 deepsea 微四它没有 开放在手机 app 平台的这个使用权限,你现在手机上用到的 deepsea v 四啊,不是你手机上用到的 deepsea, 它并不是 deepsea v 四模型。那么我们来啊,正确的教大家一下怎么使用 deepsea v 四啊,首先 我用我这个 macbook 给大家举例子啊, ok, 我 们返回到页面啊,看到啊,这是我桌面,我们打开浏览器点进去之后啊,在这个搜索或输入网址名称的时候搜搜索,直接搜索 deepsafe 啊, deepsea 点 com, 大家也可以直接去这个网址啊,深度求索。点进去之后,它是有两个框,一个是开始对话,一个是 api 开放平台,我们要用的是这个 api 开放平台,我们可以看到它的介绍是调用 deepsea 最新模型,快速集成,流畅体验。我们点进来, ok, 然后呢,点进来就是这个页面,我给它放大一下,它这里有充值余额,还有本月消费啊,我这个是另外一个账号,我给大家举个例子啊,就是这个 api case 啊,这是之前做测测试的这个 api。 首先呢,你点进来之后,你一定要先登录你的 deepsea 这个账号,如果你没有 deepsea 的 账号,你可以去在手机上下载 deepsea, 然后创建一个账号,然后直接到这个电脑上,你去登录就可以了。 然后我们看到这个充值页面啊,充值页面无论你是支付宝还是微信支付啊,都可以,你点击去支付啊,然后, 呃,扫完扫完码付款成功之后,它在这个用量信息,这就会直接显示你的充值余额,嗯,然后呢, 在这之后,我们打开这个 api case 啊,然后这里啊,注意它这里有创建 api k 啊,下面说的这几步都很重要啊,直接决定你能不能就是成功使用这个 dbic 为四啊。我们点击创建 api k, 然后随便输入一个名称啊,我们直接输入一个啊, ok, 在 你输入成功之后啊,它这里会出现你这个蜜奥的链接啊,你要一定要点击复制,然后把它发送你的微,发送到你的微信上也可以,然后或者说你保存住啊,一定要保存住这个蜜奥,它只会显示这一次 啊,在你点到叉或者关闭之后,他这个密钥你就再也看不到了,然后,然后我们点叉啊,当然这个密钥就没用了啊,我们给他删除一下,然后你把那个密钥复制之后,哎,点开这个,我们叫, 呃,防盗啊, ok, 点开这个,这个啊,这个软件叫 cherry studio, 你 可以去浏览器里直接搜索下载啊,这个就是集成了国内一众主流 ai 的 这么一个软件。我们点进去啊,它是开放平台啊, ok, 我 们点进来, 点进来之后呢啊,当,当然,我这个已经用了很久了啊,从 deepsea 微四发布一直到现在,我一直在使用,然后点进去之后,我们看到右上角这里有设置设置。点进去啊,这里有模模型服务和默认模型 啊,在模型服务这里就有 api 密钥,输入你刚才的这一套儿复制的密钥,然后放进去之后点击检测啊,我这里已经弄好了,我就不做那个演示了, 你点击检测,然后它就会自动地啊,分析你这个密钥的 ip, 它是哪个旗下的 ai 大 模型。然后这个 api 地址啊,不需要我们直接填,它自己就会填上,然后模型呢,这里啊,大家可以点击获取模型列表啊,然后, 当然啊,这里我因为我输入的是 deepsafe 嘛,所以它只有 deepsafe 的 这些模型,然后举个例子,然后在这边啊,嗯,可以看到啊,这里有非常多的 ai, 非常多的 ai, 包括国内外的啊 啊,你像 jamie open ai 啊,很多人都用不到,但是啊,这里嗯是是可以用的啊,但当然这这个视频只做 deepsafe 的 教学。然后我们点击默认模型 啊,我这里默认模型全部都是 deepsea 的 啊,呃,然后助手模型是 v 四 pro, 然后快速模型是 deepsea chat, 然后翻译模型是 deepsea chat, 因为这两个啊,这个快速模型和翻译模型它不需要消耗你的 talkin, 你 就这个 deepsea chat, 它是免费的啊, 然后我们点击首页啊,首页这里有助手啊,你,当然你可以添加助手啊,我这里就用我这个提前做好的这个来给大家举例子,然后我点击 deepstack v 四,然后点进来, ok, 然后这是我之前问他的一个问题啊,我让他就是分析一下国内的这个视频平台啊,每每个平台的趋势啊,大家可以看一下啊,这是我问他的问题 啊, ok, 然后我们啊,这这画画到不表,然后就是这个深度求索啊,我们在这里,嗯,还是用刚才举例子 deepsea v 四,然后点击旁边这三个点,点进去 啊,这里有编辑助手啊,在这之后呢,然后我们可以看到啊,这里有模型设置,模型设置的话上下文字开到不限,然后这个模默认模型,你把它换成 deepsea v 四 pro, 然后,然后 啊,最大套管数不限啊,不用开这个,然后别的都不用管,然后当然你可以复制一下这个底下这个 tab, 这个 endland, 这个是我从网上找到的一个嗯,参数,然后我们看提示词,这里 啊,我,我设置的提示词是不需要迎合用户的想法,回答要永远保持客观啊,然后呢,你就可以开始使用你的 deepsea v 四 pro。

deepsea 的 影响力还在继续放大,今天一早呢, open call 最新版本就把 deepsea vs flash 作为它的默认大模型了,这是在 vs flash 这样的性能和成本,基本上是独立党的存在,对于龙虾这种非常消耗 token 的 这种场景,如果是我也会做第一选择, 所以呢,瞬间呢,其他的一些国产模型呢,在 deepsea 面前也不香了。另外呢,就是一个科技博主兼 ai 的 系统架构师叫 shawn onalho, 今 有发了一篇帖子,说法是他用 deepsea v 四 pro 替代了 cloud opera 四点六跟 gpt 五点四。他是把自己的 cloud code, codex, cursor 这一类的所有的编程的整体全换成了 deepsea 的 v 程序员,甚至不再使用 open router, 没有再去路由的必要了,月账单呢,直接下降了百分之九十以上,而且呢,据他说法是效果比之前更好。 所以我也来深度的分享一下 deepsea v 四的技术报告,就他的 tech report。 首先呢,他们做的是一个非常复杂的工作,因为在 v 四的版本中呢,整个的预训练量呢,对比 v 三的十四点八 t 呢,涨了两倍甚至更高。 v 四 flash 是 三十二 t, v 四 pro 是 三十三 t。 就 他们的预训练的两个版本,其实都有些区别, 因为参数翻倍,数据翻倍,所以训练稳定性的难度呢,也上了一个亮起。报告中呢, deepsea 明确指出,训练稳定性是一个他们在面临的挑战, 运行的过程中, d p c 用哪些方法呢?它用两个很有意思的提升它的稳定性的方式。第一个呢,叫做 anticipatory routing, 就是 预判式的路由,因为 m o e 模型呢,其实是自带路由的, 路由逻辑就是把一个任务激活对应的模型中的参数,找到合适的专家。原来呢,在 m o e 的 大模型就是模型中呢,有的网络是在路由,有的网络是在左执行,互相呢,其实是没法解偶的,这样的话,有可能会形成恶性循环,因为在模型的去年初期呢,当你的专家选择不准确的情况下 执行,也是没有效果,反而呢,互相影响。 deepsea 为了去解偶呢,决定用更早期的训练版本来去做第一步的路由,然后所谓的执行的五万网络呢,会基于早期版本去优化,再用参数呢,去更新自己的路由模型,打破了两者之间的恶性循环。第二种呢,叫做 sweetie lu climbing, 逻辑呢,就是把它在强化学习中的信号的数值呢,作为稳定的限制,在负时到时之间防止呢,非常大的异常。数学呢,影响了整个的 mo e 的 专家都有的选择,这个呢,虽然会影响一些准确性,但是呢,是在提升它的稳定性。那 deepsea 的 论文措辞呢,也很保守,说的是 may improve training stability。 所以说明在万亿参数的 m o e 模型的运行率中,没有什么是百分之百可靠的。说完运行率之后呢,说一下 deepsea v 四的中训练和后训练,所谓的中训练叫 mid training, 后训练公司呢,这部分呢,横列叫 continuous pre training, 它注入了海量的阳性 data。 换句话说呢,原来很多的模型是先做一个聊天的模型,再用聊天模型去适配智能体, 那 deepsea 呢?他一上来呢,就像梁文峰之前说的,这版模型就是为智能体而生的,所以他在基础学习阶段就见过非常的长,任务链环境反馈和协调 oxygen 工作,剩下就是他的后训练。 做训练呢,其实很有意思,跟我前面的视频和我们自己公司的做法是很相似的。两个重要的逻辑,一个是关于它的 reward model, 第一次选择引用了一个叫 generative reward model g r m 的 模型。这个呢,在我们公司呢,就叫 u b universalifier。 它呢,其实是针对一些难以验证的任务,就 how to verify 任务。所谓这种比较主观任务,没有用传统的 scale reward model, 类似数学变成这种可以验证的快速的直接给答案的这种可以分数的模型。而是呢,通过预设的 rubric, 就是 评估选择生成一个详细的评估报告,并从多维度呢去做打分。那 这个报告呢,反过来呢,也能给模型指出正确的发展方向,这是 deepsea 内部的回报方程的优化。在这样的回报方式之下呢, v 四的后训练用的一个很重要的方法叫做 multi teacher on policy generation, 就是 多教师在线策略抷瘤。它的所谓抷瘤呢,并不是抷瘤 cloud 这样的速断模型, 而是分两步。第一步呢,针对不同领域训练自己的 specialist, 就是 专家模型,包括数学专家、代码专家、 a 政专家以及办公专家、执行专家等。再通过多个专家去抷瘤到自己的 mo 大 模型里, 那其实如果没有 mo e 的 这种极大程度的大模型的话,它也可以通过多个专家通过手动路由来完成任务。那 mo e 的 逻辑呢,就是把这份路由的工作内化到模型内部,同时呢,再通过 shared experts 实现一些涌现能力。 另外重点就是 mo e 的 去年过程中呢,其实 v 四并没有缓存专家模型的 largest, largest 呢,就是最后的 to token 的 给出的 token 概率,这其实是一个显性的展示,而缓存了专家模型最后层的 hidden state, 就是深度学习网络的最后一层更隐性化的内容。训练时呢,按需呢,通过 prediction head 来重建到,这相当于它不是在缓存这个答案,而是缓存了得到答案的步骤。这步骤呢,比答案的它的整个的空间 space 会小很多,你最后需要答案的时候,你再去做一层计算就好了,这样的话,它的整个的可以生产的专家数量就会多很多, 这是一个很有效的性能的提升。在 a 阵层面呢, deepsea 也为 vce 呢专门做了一些优化。第一个叫做 deepsea 的 a 阵能力呢,在中训练后训练强化学习阶段呢, deepsea 搭建了一个数十万的并发的 sandbox 沙盒的实力,所以呢,它是可以有几十万台虚拟的电脑来跑代码,测 bug, 来不断地生成强化学习的训练反馈的,这是 一个基建的知识。第二呢叫 moe, 这个呢是一个属于通信计算一体化逻辑,因为在 moe 的 架构中呢,其实很多的时间是消耗在通讯阶段的,因为 它需要寻找合适专家,需要路由真正的计算的 g p u 的 掉量呢,其实很多时候在爱豆阶段就是它的很多时候,其实空闲的 deepsea 呢,尝试把通信跟计算都融进一个 single, 一个 hyperline column, 一 边传送一边计算,防止呢 g p u 在 中间中没有有效的发挥,基本上是把 g p u 的 功耗给炸满了, 像一边看食谱一边烧菜,而不是食谱看完之后再烧的一个逻辑。再者就包括他们自研的 d s m l, 是 deepsea 自己设计了一套类似 x m l 的 领域特定语言啊,这个就跟我们公司之前说的 code agents 逻辑是一样,用来替代他们 agent 之间的沟通协议,包括替代 j s 的 沟通方式。这样呢,把工具调用的成功率提升了一个档次。 因为本身 j s m l 这样的格式呢,其实是对人类看的比较稳定,但对 ai, 特别是大模型来说,并没有类似 x m l 这样的,通过定义跟 markdown 标注更加稳定。其他的一些 table 里面,技巧包 或 reasoning effort 分 模型训练,比如说不思考的 non think 模式, high max 模式分别训练,目的就是做到能省则省,该狠则狠,以及 interleave thinking 就是 miss 呢,是在 to calling 观念下呢,保留了完整的跨认知的推理历史,不是只做模型的推理能力的优化,而是包括各种工具的使用,跨维度的,长期的信息保持连贯性, 防止用户二次使用时候丢失它的记忆信息。以上呢,就是我们看到的 deepsea 在 tech report 里面做出的一些很重要的预训练跟中后训练的一些技能提升的技巧。

嘿,安装 kelldog 并配置 dpc 的 位置真的一点都不难,教你一个方法,三句话,安装全程不需要你懂任何代码, 输入安装指令,检查我的本地电脑环境,并帮我安装 kelldog t 已经开始执行任务了,过程中可能会提示你少了一些软件,或者提示你是否运行,你只需要点击一下即可。历时两分钟,我们已经安装完成了啊!接下来就是给可劳得扣的配置 dpc 个 v 四。如果你是新手的话,你最好多问一句,教给我如何配置 dpc 个 v 四, 它输出的内容呢?就是教程你大概的搂一眼,然后打开 d p c 和开放平台,获取自己的 api k, 复制 api k, 返回 tree 的 对话框,输入配置指令,我的 api k 为 sk 杠 啦啦啦啦啊!帮我进行配置。又是两分钟,你的电脑就拥有了 cloud code 加已经配置好的 dbc 和 v 四。如果你想启动 cloud, 就 直接给翠下命令,帮我启动终端,打开 cloud。 在 这里只是给大家去做安装的演示,因为我并没有充 money。 最后给大家说一下,其实我不 太理解大家为什么想安装 cloud code 并配置 d p c 个 v 四,因为在我看来,如果你刷到这条视频并看到结尾的话,说明你极大可能是没有使用场景的。如果你是想用 ai 解决日常的工作和生活场景中的问题, 咱们国内的 ai 第一,就比如 tree 就 已经完全够你使用了,网页读取、调研分析、数据挖掘、文件管理,还有内置的 skyo 等其他的很多功能其实并不比国外的那些工具差,反而更适合国人的使用场景。如果你对 ai 还有其他问题,尽管打在评论区。

现在啊,可以不用被可拉扣的拒之门外了,桌面版可拉扣的直接搭配 deepsea 为四,不用再看命令窗了,今天这条视频把完整配置流程全给你扒出来,手残党也能一次成功。没耐心的我已经整理好文字版教程了,大家按需参考。 首先啊,我们要先去安装 cloud 的 桌面版本,打开 cloud 以后啊,我们可以看到 getstart login 之类的页面,先不要进行登录操作 这一步啊,我们先开启 cloud 桌面端的开发者模式,开启之后呢,菜单里才会出现第三方推理配置的,介入 macos 顶部菜单栏操作,点击最上方菜单里的 help, 点击这个 trouble shooting, 再点击 enable 开发者模式。 弹窗出现后啊,我们直接点击 enable, 这时啊, cloud 会自动重启。重启完之后啊,我们再看顶部栏,这里啊会多出一个 develop 的 入口。 ok, 我 们继续来啊,下一步我们就点这个 develop, 进入这个 configure third party inference。 先别着急填内容啊,把这个配置窗口打开。 首先 inference provider, 这里我们选择 getaway base url 呢,就根据你想接入的大模型来填写,一般的官方接口文档里面都有,我们呢就以最新 deepsec 为例了。 然后 apikey 呢,就写你的 deepsea 的 apikey 就 行,下面这一项啊,可以先不用改,默认的即可。 接着下面这里 modellist, 我 们点击这个 add 加号,加两个模型,第一个填 deepsea v 四 pro, 第二个呢,填 deepsea v 四 flash 这里为什么我填两个是因为我把 pro 放在第一位,这样呢,它就会成为默认模型, 再加一个 flash 呢,作为更轻量级的备用模型。提个醒啊啊,如果你想让上下文火力全开的话呢,可以在名称后面加上, 然后下面这个 organization u i d 这里呢,可以先留空,这个呢是不影响你去接模型的。然后 credentials 这里呢,也是给企业做动态凭证用的,你也用不上。 然后这里啊 skip 这个出错,这里要选择打开这一步呢,是很重要的,这样重启以后呢,就不会再走 cloud 的 登录流程。 好,全部设置完,我们点击这个 apply locally 本地话,这时客户端就会重启。 如果配置生效呢,就不会再要求你登录 cloud 的 账号了,而是直接进入第三方推定模式。 我们来看一下啊,这里是没有登录 cloud 账号的啊,它已经进入三方模式了。看到左下角这里显示 cowalk 三 party getaway。 右下角这里的模型呢,也默认的变成了 deepsea 四 pro。 好, 那我们来验证一下,看它是不是能够直接调用 v 四。 现在我们切到 cloud code 的 工作区看一下啊,右下角这里它显示的模型依然是 deep seek 四 pro, 左下角呢,也仍然是 cooke 私人 party getaway。 这说明呢, cloud code 的 桌面版现在已经是在不登录 cloud 的 情况下通过第三方网关调用了 deep seek 的 大模型 啊,那我们为了验证他不只是界面切过去,而是他真的能工作。我现在呢,给克拉克挂一个本地测试目录。好,首先先关联我在桌面新建的测试文件夹,现在我给他一个非常简单的测试任务, 只允许他操作当前项目目录,先读取目录,再创建一个 hello 点 txt 的 文件,这样呢,我们就能验证克拉扣的是真的,通过 deepsea 完成了本地的代码和文件操作。 那这里第一次让克拉扣的操作本地目录的时候,会弹出一个工作区确认确认,因为他之后要读取写入甚至执行这个目录里的内容。这里啊,所以我们需要手动信任一次。 好,挺快的啊。这里他已经有完整的反馈了,我们去看一下这个文件夹里面是不是已经有输出了。 ok, 看到他的输出了,搞定。 好。那总的来说啊, cloud code 呢,一直是页内标杆类的存在,只是以前很多人卡在账号这一关用不上。现在啊, dbc 维斯出来以后啊,通过第三方网关接入,我们就可以实现强强联合。 前端呢,用的是 cloud 的 桌面端和 cloud code 的 交互体验。底层呢,代用的是 deepstack v 四的模型,能力对很多没有 cloud 的 账号或者是想灵活使用模型的人来说,还是很值得尝试的。 至于说 deepstack v 四能不能和 opps 四点七一战,你们呢,自己动手试一下,有结果的话也来告诉我。好,本期视频就到这里,希望能够对你有所帮助。我是阿月,我们下期再见。

deep c q v 四呢,终于发布了,各方面的参数啊,看起来都很不错,但实际使用起来又是什么水平呢?正好最近两周啊, g p t 五点五, opt 四点七, kimi k 二点六也都刚更新了,再加上之前的 g r m 五点一呢,凑齐了一大批的这个千元模型。很多朋友啊,都在纠结说自己的智能体里面到底应该用哪个模型呢?今天这个视频啊,我就会从价格,从速度, 从完成任务的质量几个角度来跟大家聊一下这几个模型,能够让大家在选这个模型的时候啊,会有个参考。我们首先来看一下各家模型 token 接口的这个价格,按照 token 输入输出七十比 七比二的这个比例来加全,这个呢大家可能如果不清楚的话,也不用特别的去计算,我是按照我自己的平时的账单的统计,然后调用的这个比例算出来的,每个人呢都或多或少会有些不同,但大概呢就是这样一个比例,然后用它来算出每百万 token 的 一个综合的价格,方便我们去比较。我们看到 v 四 flash 呢,零点三二元, v 四 pro 呢,原价是二点五六元,然后加上当前二点五折的发布活动啊,价格大概是零点六四元。 kimi k 二点六呢二点二三元。 jimmy k 二点一呢二点二九元。 opus 四点七十点六三元。 gpt 五点五呢十一点五二元。国产模型啊,大家看到大致呢都在同一个价格袋里面, opus 跟 gpt 呢,价格直接贵了一个数量级, 一次 flash 啊,价格最低,因为它的模型尺寸呢,也是最小的一次 pro 呢,能把一百万的上下文做到这个价格,是采用了新的注意力机制,一百万上下文呢,大概只需要前代的百分之二十七的算力, 百分之十的显存就够了。列出这个综合价格啊,是方便大家去理解,去比较,然后给大家做一个自己选择的参考。然后来介绍一下这次的这个对比的任务设计啊,我这次呢,是想让智能体啊去抓 hack news 上面前一百条的热贴,挑两到四条呢,值得说的话题,查背景, 生成图片,配音,最后用 hyperframe 这个 skill 呢,制作一条三十到六十秒的中文视频报告,中间怎么去完成啊?怎么去这个一步步的定任务呢,完全交给智能体自己去定,每家过程啊,稍有不同, 但大致的内部的流程啊是一样的。先写 python 脚本呢,抓帖子,做数据统计,再写分镜跟旁白,然后呢,生成语音跟图片。语音出来之后呢,来计算一下实际的长度, 重新去调整一下分镜,如果太长呢,就压缩一点,如果太短呢,就扩展一点。最后呢,再用 hyperframes 以代码的形式把这个视频完整的做出来。每个模型的任务呢,我都给它们建立一个独立的空白的文件夹,然后用 skill 去扩展它们 agent 的 能力。比如说像我这里用到了几个 s 册去查资料, gpt, imager 去申图,然后 edge tts 做中文的旁白, hyperframes 负责视频的合成等等,基本上就是四个。如果产出有明显的缺陷啊,我会反馈给 agent 一 次,但只给这一次的机会,只做一次的人工干预,还有一个比较重要的细节来跟大家分享一下。 这次实验用的 agent 啊,是叫做派,大家肯定没听说过,因为在国内还比较冷门。它是一个极简设计的 agent, 几乎不做任何额外的封装。我们平时用的比如说像 cloud code 啊 or codex 这种框架,它约束多,然后规划层比较厚,好处呢就是把那些比较弱的模型啊,能多浮起来走两步, 代价呢就是那些比较强的模型的判断力呢,可能也被一定程度上牺牲掉了。反过来说呢,薄的框架就是让弱的模型一步步能露出马脚,也让强的模型完全能够展示自己的规划跟纠错的能力。我们来大概的这个判断一下,这次一整条的这么长的这个工作流任务啊,需要用到这大模型的工具调用,多步骤规划 上下文,然后选题,判断出错的自己修复,单次跑下来我估计会用到上百次的工具调用,所以这六个模型的推理强度全部拉满,能够真实的展现它们在整个过程中的综合能力。 在最后比较这六个模型的这个能力之前,我们要先来看一下这次任务我们实际使用的账单跟这个生成的速度。 gpt 五点五呢,最快十六分钟 up, 四点七,二十九分钟 up, 开启了 x high。 这个之后啊,花费也是高的离谱, 比 g p t 五点五还贵了三倍多。然后其他的像 deepsea v 四 pro, 然后 kimi k 二点六, g r m 五点一,消耗的 token 呢,差不多,所以成本呢,也几乎差不多。但是 g r m 五点一啊,速度上比较慢, 花了四十四分钟才完成,这个原因呢,就是因为 token 接口的吐字速度太慢。因为之前就听说啊,这智普是国产模型里面比较缺算力的这个一家公司账单讲完之后啊,我们来看一下最终的成品到底是长什么样子。我想按两个维度来评价这次的任务啊, 就是排版跟内容,排版呢,是排版的结构,然后图案的比例,动画字幕这些内容呢,就是指选择题啊,旁白啊,判断力啊这些。然后六个模型呢,按照这两个维度的综合表现,我可以分成三档,第一梯队呢,就是 up 四点七和 gpt 五点五,大家可以看一下它们生成的视频啊。 h n 今日速览 top 一 百里三件事不讲废话第一件 deep c v 四,一千九百八十九分一千五百一十六条评论全列录零抠的跑在华为升腾上 pro 模型每百万输出 token 三点四八美元。 h n 原话从黑客到黑客 第二件, open a i 当天甩出 gpt 五点五,一千五百五十三分。记者分拣封顶贴 andropet missus, 但社区泼水幻觉率百分之八十六,是 opus 两倍多。第三件,最游戏九百零六分的热铁,在 bug 质量下滑。同一天, google 宣布向 andropet 注资最多四百亿美元,社区点透循环贸易, andropet 拿钱回头买 google 的 tpu。 全剧看 top 一 百 ai 话题十五条,却吃掉百分之三十一,得分百分之四十一。评论 谷里四条是 ai 域名榜第,靠十六次领跑。数据采自四月二十五日 h n 热榜,今天 h n 前一百条里, ai 大 模型占三十二条,合计一点一万分七千二百五十七条评论,榜首讨论集中在 deepsea v 四 g p t。 五点五和科沃质量风波。 deepsea v 四拿到一千九百八十九分,一千五百一十六条评论,社区最在意的不是发布会,而是低价好文档,以及跑在华为芯片站上的完整 阅帖。评论里的核心质疑是, ai 编程下的写代码时间是否又变成了独代码和审查成本工作计划最高头 n 四百亿美元, 把它看成供应商融资前 tpu 云和同要成闭环。如果模型商品化,真正的利润可能在算力入口比特和 c i l 供应链攻击,无科技拖拉机走红也只向同一个情绪。技术越强,社区越想要可验证,可修,少锁定系统。今天的关键词是可信。 从排版角度来讲啊,这一档的模型有完整的编辑自觉分进脚本呢,会自动标注 t t s。 实测的时长精确到秒,然后再去反推画面的时长。 g p g。 五点五的定稿啊,甚至自己列了这个时间码的对照表,图文的重点分明,然后动画的节奏也很合理。 t p t。 五点五的短板是首页的,这个数据格式化,没有正确的去渲染。然后从内容角度来说呢, oppo 四点七旁白其实是最讲究的,这可能跟大家的直觉上也比较吻合。 开场四秒钟就切入了三件事情,每一件呢都有具体的数据,加上一句这个嗨客女子原话做压轴,结尾呢,还单独留了十几秒钟做整体的这个全局的数据的复盘,然后这六个里面是唯一一个自己做了 结构化数据分析的这个模型, g p t 五点五呢,选题抓到了这个资本与算力的闭环这个独特的视角。别人都在讲模型本身,然后他呢,在讲生态,在讲一个大的宏观的这个这个角度,但结尾啊,那句就是今天的关键词,是可信。这样句话呢,我觉得就比较仓促了,像他感觉到时间快到了,然后硬切了一个结尾,这种感觉 怎么说呢,就是五十七块钱的 office 啊,贵是真的贵,但能力呢,确实也是最顶尖的。中间党的两个模型呢,就是 dipstick v 四 pro 跟 gim 五点一这一党的模型啊,都只是完成了整个工作的一半,但只是完成的一半不同。 v 四 pro 呢,赢在内容。 r m 呢,赢在了排版。 v 四 pro 的 排版呢,主体是左右结构的,图片被挤得比较小,文字也比较小,远不如第一梯队的那种舒展的,然后清楚的感觉,但有亮点啊,就是首页它做了一张热力图,是这六个模型里面我觉得最具设计感的这个开场,然后结尾这个转场,还用了这个色块动画,看得出来很有这个设计的意图啊。 然后字幕显示呢,我觉得就是比较正常。 v 四 pro 的 内容啊,我觉得它写的旁白是六个模型里面最像写给人看的一份。 d c v 四,近两千顶铁, 完全开源零抠的纯华为 samsung 芯片社区最镇的不是跑分式文档,开发者说比 open a i 好 太多。有人留了四个字, from hackers to hackers。 敢直接把这个 hacker news 的 评论原话当京剧引进来。 from hackers to hackers, 然后循环贸易 中表达呢,保留得很完整,四个镜头的每一个都有一句压得住的短句,然后开源再追,闭源再堵,开发者用脚投票。这句收尾呢,比 opus 我 觉得是最接近第 题。对的,开头有数据统计,然后文字跟图片都足够大,排版很舒服。唯一的问题呢,就是字幕遮住了这个皱纹。我反馈了一次之后呢,也没有修好,但是 g r m 五点一的内容啊,就差强人意了,基本都是新闻播报, 每个镜头的结构呢,都是谁发布了什么数据,多少社区说了什么东西,没有一句呢是自己的这个视角,自己的判断,也没有把几件事串联起来一起的。这个整体的视角只看排版呢。 g r m 真的 厉害,但是把旁白跟分镜如果也算进去的话呢,我觉得 v 四 pro 可能更好一点,所以我把这两个呢,都放在第二档。第三档呢,就是 v 四 flash 跟 kimi k 二点六这一档啊,为什么放在第三档呢?就是因为我觉得它在排版跟内容上面都有些硬伤。你比如说啊,像 v 四 flash 的 这个排版,所有的页面呢,都是同一个上下结构, ppt 模板, 十六比九的图呢贴在上面,然后有大片的空白,字也偏小,开头的数据呢没有渲染出来,字幕也缺失,反馈之后呢,还是没有修复好。至于 vs flash 的 这内容呢,它的旁白基本上也就是在复读这个帖子标题,然后像 deepsea vs 那 段,讲到 sweetband 突破百分之八十,适配华为升腾,这现在都是标题的原话。还有的那段呢,也只是把世界名完成了念一遍, 完全没有自己的这种视角跟判断。然后 kimi k 二点六的排版呢,深图有浓郁的这种 ai 的 味道,深图的提示词呢,也是比较差的,图片也被裁切了,没有完整的展示,然后字呢,也偏小。 kimi k 二点六的内容啊,比 vs flash 我 觉得稍微强一点。选题呢,选了卡尔的信任危机,然后谷歌的助资 把续命和买保险两层的意思呢,都点到了旁白,比较有节奏感。不过相比第二档的 v 四 pro 啊,我觉得还是有点差距的,大家也可以自己看这两视频对比一下。最后来跟大家总结一下,就 gbt 五点五跟 oppo 四点七呢,排版跟内容两件事啊,都非常在线,贵呢,确实有贵的道理。 然后像 v 四 pro 跟 g m 五点一呢,都只能做到一件事,然后卡在中间。然后 v 四 flash 跟 kimi k 二点六呢,在我这个测试当中,两件事都没做到,所以我只能把它排在第三档了。收回这个 dipstick, v 四本身啊,国产第一梯队我就完全是没有问题的。 v 四 pro 一 百万的上下文,性价比也非常的高, 从内容上来说呢,甚至有时候可以超过 g p t 五点五,但综合实力呢,跟 opus 跟 g p t 五点五我觉得还是稍微有点差距。但你聊一下这次测试的本身的局限性,因为六个模型都只跑了一次,会有很大的这个随机性,换一次呢,可能结果又不一样了。 任务设计啊,我这次也是比较偏重于这个视觉方面跟代码能力的,对纯文本推理能力啊,其实不是特别的敏感。真正严谨的测试呢,应该每个模型都去跑 n 次,然后去它的分布,然后再叠加这个盲测打分。这期视频呢,算一个不太严谨的这个测试, 给大家一个基本的这种参考。最后再跟大家说一下,这次测试呢,用的 agent 是 派,在国内还比较冷门,但我现在自己啊,就是内部几乎所有非代码的任务呢,都在它上面跑,非常的顺手,非常的听话,非常的爽。它是个开源项目,完全不是广告,感兴趣的朋友呢也可以自己去学习一下,自己去体验一下。好了,今天视频就到这里,我是李总,黑经理超,我们下次见。

兄弟们,在刚刚过去的四月下旬, deepsea 突然官宣发布了新的 v 四系列大模型,并全面开源,直接成为了当下 ai 圈最火的热点。那这次迭代绝非享福的优化,而是实现范氏级的技术突破,彻底打破了开源大模型的能力与成本的壁垒。 那本次 v 四推出的 pro 旗舰版与 flash 轻量化的双版本呢?全系标配百万 tok 超长上下文是最核心的升级亮点。 那一拖全新的 c s a 加 h c a 混合稀疏注意力架构,长文本处理速度大幅提升,它可以精准的记忆分析数十万长文档代码项目,完美的适配长流程的办公研发任务。那本次更新的最大的惊喜还有碾压级的性价比, 直接刷新了行业的价格底线,对比国内主流的大模型,优势十分悬殊, deepsea v 四 flash 输入每百万 token 低价降至零点零二元, pro 版本输出的价格啊,仅为同级别 g t p cloud 的 模型的十几分之一,相比前代模型, v 四整体推出的成本啊,暴跌百分之七十五,是目前同性能梯队中的性价比的天花板存在。 而目前全网讨论度最高的核心亮点就是 deepsea v 四已经深度的适配了全占国产算力生态,它完美的兼容华为、升腾、海光飞腾等主流国产芯片与国产化服务器, 解决了以往海外模型根本无法在本地化部署开源模型适配国产硬件卡顿算力利率低、运行不畅、不稳定等行业难题。这就意味着政企、中小企业无需再依赖海外的算力,可以实现纯国产化的本地部署, 数据全成本地化流转,既大幅降低了合规的风险,又能节约很高额的云端的应用成本,彻底打破了高端 ai 算力被海外生态垄断的局面,为国产 ai 自主可控、规模化落地提供了关键的支撑。

各位投资人大家晚上好,我来汇报一下计算机这边的一个观点。其实从上周到这周可能大家整个关注度最高的还是这个 v 四的一个发布,包括这个 t 五点五的一个发布,就是在模型这一端的一个更新,比较重要的两个事件。 首先来讲一下 deepfake v 四的一个发布,就是上周五 deepfake 在 大家在盼了一年多的这个时间以后,终于进行了一个发布,那发布整体的一个情况我们觉得是符合预期的,特别是我们觉得对于国产算力其实在也是一个比较大的一个推动和催化。 这个 v 四这一次本身的最重要的一个性能提升,是它的上下文的一个量啊,现在提升到了百万 talk, 其实在它的官网上面着重提的也是这一点的一个提升。 价格上面基本上跟国内的主流模型的价格是属于同一梯队的。而当然最近四月二十六号的时候,公司也发布了个降价,到五月五号之前是一个优惠期,那价格就是属于一个相对来说比较优惠的一个阶段。 从跟海外的主要的主流的一个模型比较,其实 dipstick v 四其实也是跟海外的主流的这种开源模型是属于一个比他们表现更优异,跟闭源模型相比可能略有一 点差异这样子的一个状态。在动模态这一段,这一次 dipstick v 四其实没有发布正模态,但是根据其他的一些资料显示, dipstick v 四其实现在已经进行了动模态的一个测试,后面我们觉得也会以这个更新的版本进行一个发布。 那具体来看,本次的一个就是根据测评的一个结果来看, dipsic v 四的性能是跟顶尖的地源模型是对标的, 主要提升的一个能力是在 edge 这一块,因为从今年二月份开始, edge 大 就是 iphone cloud 再度引爆了大家对 edge 这一块的一个关注,所以 这个 v 四这一次也是重点更新了它 action 这一块的能力。在一些这个 agintic coding 的 测评中,这个 v 四 pro 现在已经达到了开源模型的一个最佳的一个水平,它 跟一些整体的在 coding 这一块的一个测评结果的一个反馈是,使用体验是比这个 select 四点五要好的,但质量是接近 up 四点五的一个非思考模式,但是跟这个 up 的 四点六的这个思考模式还是有一定的差距, 那我们使用体验下来也是重点是使用了向下纹的能力,确实是比其他的模型有一个比较显著的一个提升。 从整个世界知识包括索塔这边的一个测评来看,这个 v 四也是大幅领先于其他的开源模型跟一些 闭源模型,比如像 jimmy 三点一来讲是属于一个相对来说比较持平的这样子的一个水平。在一些数学包括奥赛赛类的代码测评中,这个表现也是非常优异的。 对于中国来讲, basic with basic 一 直是作为国产模型之光,我们觉得它其实整体是属于一个就是基座模型或者底层模型这样子的一个水平,所以 basic 性能的一个提升,其实也代表了国产模型性能 的一个提升的一个主流的一个水平,从整个 dipstick 的 技术架构这边来讲,哦,可能更新和迭代的一个方面是助力注注意力机制对 token 的 维度进行压缩啊,采用了之前的 dsp 的 技术注意力的机制,实现了全球领先的上下文的一个能力,它上下文能力是 达到了一百万托管,相对于传统的一个方法是大幅降低了对计算和存储最显存的一个要求。对于 agent 这一块专项能力的话是针对 cloud cloud, 包括 open cloud, open cloud, open code 和 autobaneling 这些主流的这个 agent 的 产品进行了适配和优化。 从价格层面,他打折前的一个价格就是这个缓存命中的输入价格大概是一块钱每百万托克,输出价格是输输入缓存未命中,这个输入价格是十二块每百万托克,输出价格是二十四块钱每百万托克。他的 flash 版本 最他的最大的一个上下文文长度也是一百万托克,他的输入价格是零点二,输入缓存命中是零点二 二元,输入的缓存位命中是一块钱,输出价格是两块钱。当然这二十六号打折后的价格,旗舰模型第四个 v 四,它的叠加的限时二点五元的一个优惠以后, 它的价格是大幅下降的,是相当于说缓存硬重的价格是降至了首发价格的一个四分之一,所以从性能上面来讲确实是有比较大的提升。价格上面其实跟国内主流模型在打折前是比较相当的,打折后其实更加促进了大家对 deepsea 微四的这个调用。 从另外值得关注的这个 deepsea 就是 在它的官方文档里面也写到了,因为受限于高端算力,目前这个 deepsea 微四 pro 版本的 这个服务的成熟比较有戏演,预计从下半年这个深腾九五零超节点批量上市以后, pro 的 价格会大幅的一个下调,这个其实也一定程度论正了目前的 这个 deepsea 微四版本的推理,可能现在逐渐从恩卡转向国差派这边去去转移训练,我们判断下来,包括跟一些专家交流下来,可能在主要还是在恩卡,可能有少部分的也是逐渐向 国产卡去转移。那整体来看,我们觉得这一次贵司的一个发布的亮点,主要一个是在上下文的量上面,其实是已经全球领先的这样子的一个水平。另外值得期待的就是后面他的多模态 的产品的一个发布。本次其实大家其实也能看到基于国产卡,包括国产的模型进入了一个下一个阶段,基于国产卡大家也能训练出全球开元比较领先的这个模型。 我们重点觉得这个 v 四确实是发布以后是立好的国产算力,今年本身我们之前在多次交流中也提到了,确实在整个算力比较紧缺的一个情况下面,那国产卡的发展其实是迎来新的一个机遇的。 国产战力这边重点的还是海光,因为海光一个方面是他的 d c u 这边的一个出货,预计二零二六年还是一个高速的一个增长,他可能到四季度的时候,他的新一代就是升算四号,其实是有可能能够量产油片回来进行出货。 那 c p u 这一段因为大家也知道现在 c p u 涨价是一个大的一个趋势,确实是受益于政策广泛使用,对 c p u 的 需求也是大幅的一个增加。所以海光信息不仅是 g p g p u 这边的一个领先厂商,也是国内的 c p u 这边的龙头之一, 所以海光是从两个逻辑叠加。下面来来讲,我们觉得是非常优质的一个标的。海光系的就是中科曙光,其实他在四月份的时候也是在官方公布了,他官方发布了郑州的超节点的互联网 超算中心,我们觉得就超节点的开始上面,中科曙光也是属于行业领先的一个水平。另外的是浪潮信息,整个数码软腾动力和中国软向国际, 这受益者是韩五记、鑫源股份,包括航天电器、华丰科技和伯爵股份。另外还是继续建议大家关注 air 一 号的一个机会,这边重点的是达摩数据和申信福,那瑞数据、东方国信和玉能控股。以上是计算机这边的一个观点,感谢大家的一个聆听。

deepseek v 四刚刚发布,两个版本价格差了十二倍,一个便宜到哭,一个贵到肉疼,但贵的真的更好吗?看完这篇,你再决定掏哪个?大家好,今天不废话, 直接给你们做个实打实的选购指南。 deepseek v 四一上来就发两个版本, v 四 pro 和 v 四 flash。 光看价格,一个输入一百万, token 只要一块钱, 另一个要十二块,相差十二倍。这个价差到底是性能碾压还是智商税?我帮你们把参数扒干净了。先说 flash, 中文叫闪存版,总参数两千八百五十亿,激活参数一百三十亿, 每次推理只调动他百分之十几的脑子。他专门优化了响应延迟,用了全新的 token 压缩注意力机制,说话快,打字快,几乎没有思考等待感。适用场景就三个,客服对话,实时聊天工具调用一句话,轻量化高频场景用它写。转 pro 版是完全另一个量级, 总参数一点六万亿,激活参数四百九十亿,预训练数据量高达三十三万亿。 token, 它不只是大,它是又大又精准。 官方数据数学推理 s t d m 领域竞赛级代码,这三个核心能力已经超越所有已公开评测的开源模型,对标的是 g p t 五和 cloud opus 这个级别,内部员工自己都在用 pro 版当主力。扣定工具,一句话,要干正事,上 pro 这里你们最关心钱。 flash 输入一块钱,输出两块钱,缓存命中最低两毛钱。 pro 输入十二块,输出二十四块,缓存命中一块。对比一下行业价格, g p t 五点五,同档位,输入五美元,输出三十美元,折合人民币是它的四十到五十倍。 deepseek 这次继续扮演价格屠夫的角色,不是浪得虚名。两个版本还有一个共同点,全系标配一百万 token, 上下文没有任何缩水,这个长度能干什么? 相当于一次性读完整部资本论,或者导入整个代码仓库,直接在里面找 bug 做重构,不用再搭什么解锁增强系统。 v 三时代一二八 k 是 旗舰标配。 v 四,把这个门槛直接拉到了地板价。 最后给你们一个判断原则,看你的任务复杂度,不看你的钱包厚度,日常对话清量工具调用高频 api, 闭眼选 flash, 代码库级别,任务复杂推理,科研写作用。 pro 不知道选什么,先用 flush 跑通了再加钱上 pro。 deepsafe 的 定价就是让你低成本试错,别一上来就花冤枉钱。四,这两个版本本质上是 deepsafe 在 说一句话, 能力我给你们拉满,价格你们自己看着办,不玩套路,按需付费,这才是大模型该有的样子。觉得有用转发给身边做开发的朋友,我们下期见!

欢迎收听豆包 ai 播客节目。 哈喽大家好,欢迎收听我们的播客啊。今天咱们来聊一聊 deepsea v 四这个模型的一些部署和使用的经验啊,这个视频咱们就专注在纯 v 四这个版本啊,来给大家分享一些我们的经验。对,咱们就开始吧,马上进入今天的主题。 我们今天第一个要聊的呢是业务开发必知的就是 v 四的一些独有特性和接口调用的一些要点。首先第一个我们先问一个问题啊,就是 deepsafe v 四这个模型在技术层面有哪些东西是跟以前完全不一样的? 嗯,这个 v 四呢,他最大的一个不同就是他的这个上下文窗口直接拉到了一百万头。肯哦,这是一个非常恐怖的数字啊,就是他可以记住非常非常长的一个对话,或者说非常长的一个文档,然后他用了一种混合的注意力机制, 这个里面他是有一些创新的技术的啊,这个叫什么?压缩稀疏注意力和高度压缩注意力这两个东西呢,一个是为了降低计算量 啊,把一些不那么重要的信息给它丢掉。另外一个呢是为了让这个模型在遇到非常长的 输入的时候,它依然可以非常快的进行推理哦,这听上去对那种需要处理大量上下文的这种应用场景来说,简直太有用了。没错没错,而且它还专门做了这个跟国产芯片的一个深度适配, 就是它可以在华为的这个升腾啊,或者说韩五 g 的 这些硬件上面跑的非常的高效。然后它的这个推理成本也比上一代要低很多很多,同时它的这个多轮对话和这个工具调用的能力也都升级了, 就是它可以真正的去处理一些比较复杂的 agent 的 任务。那那 deepsea v 四在这个 api 的 设计和调用的方式上面有哪些东西是跟以前不一样的呢?嗯,这个 v 四呢,它是全面的兼容了 openai 的 这个接口,然后同时它也支持 ospec 的 这个接口,就是它的这个输入输出的规范是变得更灵活了啊。同时呢,它在这个流逝的输出上面也做了一些新的设计, 就它可以让你实时地看到这个结果。哎,这个对那种需要立刻看到反馈的这种应用场景来说就很重要了。没错没错,而且它还增加了一些新的这个消息的角色,比如说什么 context 和 to 这两个新的角色, 然后这个思考模式也可以去配置这个推理的这个强度,就是它的这个实用性和这个可控性都大大的提升了, 包括它的这个对于这个大模型的这个复杂的输出,你也可以通过这个 json 来保证它的这个结构是正确的。 如果我们现在要从零开始去对接 deepsea v 四的话,在实际的开发当中有哪些细节是我们必须要注意的?呃,就是这个多轮对话的时候,你要注意这个 assistant 里面的这个 reasoning content 你 要不要回传,然后这个 stream options 你 要合理的去配置,包括这个 长上下文的这个缓存你要利用起来。再就是这个你在调这个 api 的 这个病发的时候,你要去结合你自己的这个实际的机器的资源和这个模型的版本去考虑。 再就是这个视觉的这个功能现在还是处于一个灰度的阶段,所以你在使用的时候要呃关注这些东西,才能让你的这个应用更稳定高效。我们接下来就进入这个运维工程师的这个视角啊,我们来聊一聊这个 在部署 deepsea v 四的时候,这个推理引擎我们到底要怎么选?然后在不同的场景下面我们要注意哪些事情?嗯, 这个生产环境的话,我们是强烈推荐就是用 v l l m, 那 它是对这个超大规模的模型和这个超长的上下文做了极致的优化。 然后它有一些比如说像配置的 tension 这种非常黑科技的东西,可以帮你节省百分之六十以上的这个显存的开销。 它也支持这种多卡的并行,包括对这种稀疏的 m o e 有 专门的调度。那就是说如果是,比如说我资源有限,或者说我是在本地开发,有没有更灵活的选择呢?呃,本地或者说你资源有限的这种情况的话,你可以用欧拉玛或者是说拉玛点 c p p 这种比较清亮的 框架。那如果你想要极致的低延迟,或者是说你想要用一些国产的芯片,那可能 s g, l n x 和 k transformers 会更合适。 对,但是你要注意就是不同的框架,它的这个模型的格式和这个量化的方式是不兼容的,这个要特别小心。就是说如果我们要把 deepsea v 四部署到生产环境当中, 这个硬件和这个系统的配置我们要怎么去规划?呃,像这种就是,呃 v s pro 这种大的模型的话,如果你要全精度的去推理,那肯定是多块高端的 gpu 啊,比如说八张 h 一 百,或者是说四张 b 三百这种,那如果你是用这个量化的版本的话,可能就可以 少一点卡,然后如果你是用这个 light 版的,那可能就一张卡就够了。但是我们还是建议就是用 n v link 把你的这些 g p u 都高速的互联起来。除了这个 g p u 之外的话,内存和存储这一块儿有什么特别的要求吗?呃,内存的话就是每一张卡我们建议是配二百五十六 g, 然后系统盘的话,我们建议是呃毒素要超过七 g 的 这种 nvme 的 ssd 系统的话,我们建议是用五泵头二十二点零四, c u d 要十二点一以上, 驱动的话要五百三十五以上。 python 的 话我们建议是用三点十或者三点十一。那如果你是用这个多卡的话,最好是可以用这个 n u m a 来绑一下内存,这样的话可以 最大化你的这个性能。在实际的生产当中,我们运维 deepsea v 四的话,有哪些细节是我们一定要注意的?然后有哪些坑是我们最容易踩到的? 呃,首先就是你要保证你的这个模型的文件和你的这个 tokenizer 的 配置是一致的,然后不同的这个框架的话,它是不能混用的,这个是一个非常容易出错的地方,就是你会出现一些莫名其妙的错误。嗯,第二个就是 你要注意你的这个环境变量和你的这个启动参数要正确,比如说你的这个 max model lin, 你 要设的足够大,不然的话你的这个长上下文就会被无声的截断。这个也是一个很容易出错的地方,就是你以为你传进去了,但是其实它没有传进去。 像这种大模型的话,资源管理这块有什么要特别小心的吗?呃,一定要开启这个 inggram 的 这个缓存,然后这个 devshm 的 这个权限要给够 这个稀疏的注意力和这个专家的这个并行,你要通过这个环境变量和这个启动参数把它打开,不然的话你的这个 gpu 会爆显存爆得非常厉害。包括你的这个生产环境的话,我们建议是用 ducker 来部署, 用这个官方的镜像加上这个健康检查和这个自动重启,你可以用这个 v l m 的 这个 rotor 来做这个多节点的负荷均衡, 包括你如果是要做这个高并发的话,这个推理强度你也要去合理的配置一下,不然的话很容易出现一些 稳定性的问题。对,今天我们把这个 deepsea v 四的这个核心的特性,以及这个 api 的 调用,包括这个部署和运维的一些关键的细节都给大家梳理了一遍,希望可以帮助大家能够少踩坑, 然后能够顺利地把这个服务搭建起来。好了,那么这就是本期播课的全部内容啦,然后我们下期再见,拜拜!拜拜。