粉丝2.1万获赞15.0万

大部分人把 deepsafe 用错了, v 四版本综合能力现在重回国产第一,今天直接给你出 v 四保姆级教程,先带你看它现在到底强到什么程度。二 零二六年四月二十四号刚发布的 v 四系列,发布仅三天,第三方 super 四 lue 精准实测结果就直接炸场。 pro 版以七十点九八分登顶国产大模型综合榜第一, flash 版以六十八点八二分紧随其后拿下国产第二。 双版本直接包揽了国产榜单的前两名,把一众老牌大模型都甩在了身后。六大核心能力的硬核增幅直接给你摆明白。智能体任务规划能力 七十七点四九分,国产第一,比上一代暴涨二十点八七分,是这次升级最大的杀招,大白话讲就是他能自己拆解任务规划步骤,不用你一步步盯着叫。数学推理能力八十七点三九分,同样登顶国产第一, 硬核数理能力直接拉满,从小学算数到考研高数,没有他解不明白的题。幻觉控制。八十点六八分,国产第三, 仅次于 glm 五和千问三点五,意味着他瞎编乱造的概率极低,给你的答案靠谱度很高。科学推理七十九点二七分,国产第二,仅次于豆包专家模式,专业领域的内容拆解、逻辑推演,他都能精准拿捏代码生成。六十三点二四分,国产第三, 似于 kimi 二点五和豆包专家模式,稳居开源模型里的代码能力第一梯队,开发者和普通职场人都能用精确指令遵循。 三十七点八四分,国产第三,比上一代暴涨十一点八九分,从之前的国产垫底,直接冲进第一梯队,你让他干什么,他就严格按你的要求来,不会跑偏,不会露相,实现了全维度无短板。那这么强的能力, 为什么你用着总觉得不好用?核心原因只有一个,你从跟上就把它的两个模式用反了。很多人用了一年 deepsea, 根本没搞懂哪个模式适合干什么,回头还骂他能力不行,这完全是把屠龙刀拿来切菜了。快速模式运行的是 v 四 flash 版本,主打响应快、成本低,全功能免费无门槛。它适配日常闲聊、简单提问、清亮文本处理、基础信息查询, 用它完全够用。但你要是拿它解高数,做复杂报告、写代码,那肯定会觉得它能力不行,这不是它的问题,是你用错了场景。而专家模式运行的是 v 四 pro 版本,是这次升级的核心杀招。佛有登顶榜单的硬核能力, 全在这个模式里,这才是你真正应该学会使用的方法。下面这三大专属用法,普通人直接照着用,效率拉满十倍。第一个,用它做全场景数学问题解答,学生党,职场人刚需中的刚需。他有着国产第一的数学推理能力, 不管是中小学数理化作业公式推导、大学高数微积分考研考公的数量关系题,还是职场人需要的数据分析、财务核算,他都能精准搞定。他不仅能给你标准答案, 还会拆解每一步解析思路,标注易错点,讲透底层逻辑,甚至给你同类型题的通用解析技巧,比网课老师讲的还细致。给你一个直接就能用的指令模板,我需要你讲解这道题,先给出标准答案, 再一步步拆解解析步骤,标注核心考点和易错点。最后给我三道同类型的练习题,附带答案和解析,直接复制粘贴就能用。第二个,用它的科学推理能力做内容校准, 做自媒体写报告的人,靠它彻底避免翻车。不管是视频内容的技术参数核对、 ai 测评、数据校准, 还是行业报告的深度拆解、数据交叉验证,又或是科普内容的真实性核实,独家细节挖掘,他都能精准排查数据错误,核实内容真实性,挖出同行没注意到的信息差,直接把文案丢给他,说帮我核对这篇文案里的所有数据 错误,给出正确数据和权威来源补充三个差异化独家细节,直接优化出有干货、有爆点的文案。最后给你一个高级玩法,用它的顶级智能体能力搭建你的专属数字员工。很多人到现在都不知道智能体到底是什么, 说白了,他就是把 ai 从你让他干什么他才干什么的被动工具,变成了你告诉他要什么结果他自己想办法干完的 主动执行者。之前你用 ai 做报告,得一步步给指令盯着改,随时纠错,前前后后要折腾十几轮。现在用 deepsea v 四的智能体能力,你只需要定一个最终目标,它会自己拆解任务 规划步骤,调用工具自主纠错,最后直接给你交付成品,全程不用你定 deepsea v 四在闲聊、语音交互、创意文案商品选择上,不如豆包千问顺手。本地部署对新手也有门槛,所以选对场景是你最应该注意的。 最后问你两个问题,你已经用上 deepsea v 四了吗?最让你惊艳的是哪个能力?评论区告诉我!收藏转发这条保姆级教程,下期带你解锁更多 ai 提效的隐藏玩法!

昨天 deepsea v 四发布了,分别是 pro 和 flash, 我 看各种博主都吹爆了,要不就是把 deepsea 吹成了国漫之光,要不就是把 deepsea 贬低的一文不值,还是缺少一些真实的实测结果。我觉得 那么还是从我非常主观的角度出发,从 webcody 的 一些逻辑题目出发,那么到底效果如何呢?我们一起来看看吧。首先是一些经典的文字逻辑题目,一个长五点五米的竹竿能通过高四米,宽三米的长方形的城门嘛?这是我设置了一道题目,用 了 deepsea 网页端的专家模式加深度思考,那么显然这部分 deepsea v 四 pro 应该是没答对的,我们来也来测试一下 gemini 的 三点一 pro 似乎也没答对,我们再来换一下 gpt。 gpt 五点五也发布了,也是很强,这次是直接一波通过。 另外不仅仅通过,我还让 gpt 一 麦子生成了一张图片给我,因为 deepsea 微四这次不是东模态的,我就不让微四给我升图了。 gpt 一 麦子升的这张图完全清楚的解释了为什么这个竹竿可以通过这个门,是吧? 这个还是很经典,但是 v 四这次还是没有答对。我们换另外一道逻辑题测试,有一吨煤,第一天拉走总量的七分之四,第二天拉走七分之四吨,问第一天和第二天哪天拉走的比较多,这显然肯定是第一天对吧?但是 deep 四 v 四的专家模式和 gpt 五点五 ck 的 模式都答错了, 还是比较令人这个意外的。但詹姆莱 i 三点一 pro 给出的答案是对的。不得不说,有时候詹姆莱 i 三点一还是比较让人意外的,虽然詹姆莱 i 现在问题很多,但是我觉得, 但是我还是觉得不服,刚好我还有 gpt pro 的 会员服务,直接开启一百美元和两百美元的 pro 才有的研究级智能模型,开始思考一样的题目,那么这次最终 gpt 给出了正确的答案, 那么 deepsea v 四就真的没有办法了吗?大家现在都在说网页端是 v 四, lit 是 比较轻量化的版本对吧? a p i 端才是真金白银的 v 四 pro, 那 么也有办法啊, share studio 启动,我们直接购入 deepsea 的 a p i, 接入 deepsea 的 v 四 pro 大 模型,我们手动把这个思考 max 开到最大,看下如何, 我们测试一下,结果还是不太如意,跟我们想象中的答案还是有差距。另外我们来测试下 deepsea v 四这次的代码能力,看看到底如何。我们分别用 deepsea 网页端和 gpt 网页端来测试一下前端的代码能力,让它们生成一个天气的 u i 设计风格分别包含了四种天气, 晴天、雨天、雪天、大风天气。大概三到五分钟后, deepsea 和 gpt 都跑完了, 在网页端跑了以后,我们试试把 github 接入到 cloud code, 看看到底如何 一样的请求,同时我们也用 gpt 也接入 code x, 看看同样的需求。作为第三方参考,我们同时也在 cloud code 接入 jim 五点一,看看目前所谓的国模第一到底如何啊, 等待一会以后升成完毕,我们参考一下。我们觉得这次进入 cologne 以后, v 四升成的效果还不错,比网页端的效果要好不少, gpt 五点五加 cologne 也很好, jim 五点一非常惊艳,让我给一个排名,我觉得 jim 五点一更好。 jpt 次值 v 四可能会稍微差一些。虽然 cologne 加 v 四的功能已经很强了, 不知道后续 deepsafe v 四会不会继续升级代码能力,因为现在使用 deepsafe v 四的人毕竟还比较少,可能适配上确实没有那么好,但是随着我们日常使用的增加, deepsafe v 四可能在代码能力端会适配的更加好。 看一下这次 deepsea 的 消耗, a p i 的 这次消耗大概跑了一块钱多,要知道这只是抠进的普通一次请求,我们来试试另外一个请求,经典的魔方请求是吧,相信大家也是经常看到了。依旧是三加生成,一下对比, deepsea 魔方倒是生成,但是似乎有一些要求没做到。 g p t 五点五加 codex 没问题,完全达标了。 然后 gm 五点一智普卡断流了, api 限流了。不得不说,我开的还是 v 点 ai 的 海外版,一百六十美元的 mac 智普套餐经常断线。 那么智普确实挺强的,但是智普的 cody plan 确实有点烂,这是这个老生常谈的智普的这个套餐。 cody plan 的 套餐确实是一直都很烂,可能它也存在超售的情况,这个有机会我们再说。我们另外也测试了三家的 ppt 能力,看看大家做 ppt 的 能力如何。 依旧我的感觉是 g m 五点一最强的哈。整体测试下来,虽然我对 v 四的期望值很高,但是目前看下来可能实话实说,确实距离 g p p 五点五和 g m 五点一都有距离,当然也有原因,据说这次训练和部署都是在华为的升腾云上面,我也是可以理解的, 据说下半年模型配套升级可能价格会更便宜。另外我们也测试一下 opencode 加 deepfake 的 指令遵循程度,整体上是不错的,比如说让他帮我完成一些定时任务,比如说让他帮我完成一些私人助手的工作,都能够圆满的完成,但是价格也是非常的昂贵,现在没有 coding plan 这种 pro 的 价格真是跑不动,不知道后续各家的 coding plan 会不会加入。 v 四 harms agent 这次我就不测了,因为 harms agent 目前据说有抄袭我们国产的 evo map 的 嫌疑,这次我就不测了,我相信如果没有出 coding plan, 不 管是 openclaw 还是这 harms agent, 它都是非常消耗 token 的, 包括我们日常使用,如果没有使用 coding plan 去编程的话,我直接调用 deepsea 微四 pro, 可能大家也都是消费不起的。 我也希望后续云场上能够接入 deepsea v 四作为 copenhagen 的 一部分吧。整体测下来,实事求是的说, deepsea v 四可能能力并没有我们想象中或者是我期望当中那么强,但是可能也是确实是我期望值比较高,另外一方面确实是受限于这个芯片的制裁,加上 算力的紧张,另外一方面让我不得不期待的就是 deepsea v 四加上华为云升腾模型芯片的能力。今天我们可以肉眼看到的,我们被算力卡脖子,包括被显卡芯片被制裁,我觉得华为升腾云加 deepsea v 四只是 一个新的开始,让我们理解到国模国产芯片可以做到如此的地步,那么相信接下来 我们会越做越好,我们的芯片,我们的 ai 大 模型的能力会越做越好。但是目前实事求是的说,我们的 ai 模型可能还确实比不上这种开源的 g m 五点一,虽然也是国产的,也比不上这个 闭源的 g p t 五点五和 cloud op 四点六。我是觉得是这样的。 ok, 那 这次就是我带来的视频的全部内容了,我们下期视频再见。

天呢, deepsea 微四这个版本正式全网发布了,而且呢同步推出了它的 pro 和 flash 这两个核心的版本, 包括我们自己蘑菇云这个团队在内,我相信很多这种有私有化大模型部署需求的企业单位啊机构,我相信现在都在考虑要不要立刻马上迁移到 deepsea 微四这个版本,或者呢,就是至少要拿来测试试用一下对不对?但是你要明白,只要涉及到私有模型的这种迁移, 首先绕不开的核心问题就一定是硬件能不能适配新的设备,应该怎么选型的问题,因为只有这个硬件匹配到位了,才能够把 deepsea v 四的真实的性能,核心的优势完全发挥出来。 大家应该都还记得前段时间 openclaw 特别火的时候,一些人在自己的私有的小算力上使用的时候,他的只能回答问题但不能干活的那个尴尬的局面,大家应该还历历在目。所以 今天这条视频我就尝试给大家讲讲清楚, v 四的 pro 版本和 flash 版本应该分别适配什么样的硬件规格,显存的标准,以及落地部署的真实的预算的价格区间,给所有的准备迁移测试私有化模型的同行做一份实打实的落地参考。 首先我先来说一下 deepsea v 四 pro 这个版本,这个版本其实是这次发布的旗舰满配版,应该是一个妥妥的工业级的大模型, 拥有一点六万亿的参数级别,因为是 m o e 架构,也就是混合专家模型,他每次激活的模型的量呢,大概是四百九十亿激活参数, 所以呢,这就决定了他根本没法用这种普通的一些消费级显卡。硬件的门槛是非常明确的,你必须要选用服务器级别的配置,因为他对显存有非常高的要求, 比如说英伟达的阵营,它的最低标配我预计就得是 a 一 百啊这种八十 g 显卡的这种,这个八十 g 显存的显卡三卡起步,或者呢就是 h 一 百八十 g 显存的两到三卡起步。 国产算力这边对标的是升腾九五零的多卡基群,或者是韩五 g 的 m l u 五九零的这个基群。因为核心硬件的标准呢,单卡显存必须得做到八十 g 以上,低显存普通的服务器就完全会带不动的,因为他的一点六万亿的参数,激活四百九十亿参数,这个量对显存太迟显存了。 下面我给大家来算算成本,也就是帮大家做做预算。按目查,目前我查了以下的行情价格, a 一 百八十 g 的 单卡啊,这种价格在十一万到十三万人民币之间,三张卡这种入门的配置,光显卡我感觉就待应该是三十三到三十九万人民币了。 h 一 百八十 g 的 单卡是十九万双卡起步的话就是三十八万以上,如果再算上,你得搭配一个机筐,再有一些机房的运维供电、散热配套,整体的解决方案下来,我觉得最低也得五十万起步, 应该是属于一个企业级的入门的价格,这个大家就自己基于自己的数能力和需求来计算。接下来我再讲一下这个 v 四的 flash, 这个版本也是这次性价比最高,行业迁移价值最大的版本, 很多人容易理解错,总觉得这个 flash 版本是不是就是一个缩水的低配版本,其实我的理解完全不是的,它的核心,这次 deepsea v 四最大的核心亮点,我认为这个 flash 也好, pro 也好,其实都具备是一样的,也就是一百万 token 的 超长上下文窗口, 换算下来就是将近百万字的长文本处理能力,也就是一本红楼梦,直接进去他就直接能学习明白了。 过往的主流模型,其实普通的只有十万级的这种上下文窗口,也就是幺二八 k 这个左右,这次呢是一兆,所以说百万级就给我们未来很多的这种依赖于长文本的场景会带来非常好的体验。这块后面我会详细讲一下 flash 版本的硬件门槛,我先说一下它,其实硬件它是大幅下降的,是中小机构、垂直行业,甚至一些个人的,即刻是能够使用起来落地部署的一个比较好的选择。 企业部署呢,我算了一下,单张的 a 一 百八十 g, 升腾九幺零 b 以及升腾九五零单卡都能稳定运行。如果你是一个个人小团队、工作室本地私有化部署,消费级的这种显卡其实也是够用的。比如说 rtx 的 四零九零二十四 g, 因为我们其实就用的是这种消费级的,我们大概有八张消费级的卡, 两张卡就能够稳定运行,单卡能跑通,就能够让这个百万 token 的 这种长文本的这种上下文就能够非常流畅的运行了。如果是从这个预算来看,这个 flash 版本一张 rtx 的 四零九零二十四 g 的 显卡,目前的市场价格大概在一万八到两万二, 所以说小成本就能搭建起本地化 c 优化模型了。如果是企业轻量化部署,整体预算我觉得也就是在二十万以内,所以说对比 pro 那 个版本,我觉得还是性价比非常高的啊,可以来尝试一下,我们自己肯定会马上就要迁移的。 最后我再说下 deepsea 微四的适用场景,因为这个版本我觉得它最大的亮点一个是 a janty 就 做了一些场景的智能化优化,但是另一个我觉得核心就是它的上下文窗口翻了将近十倍跟以前, 所以我觉得非常适合这种长文本海量文档垂直行业的四化知识库建设这种场景。这也是我非常建议各类机构优先迁移重点测试的这种领域。像比如医疗机构,他需要长期沉淀海量的病例诊疗的方案,医学文献、律师事务所、会计师事务所里边有的这种合同卷宗、审计的提稿文书等等, 以及还有大量的这种政企单位,对不对?你们都需要文山会会海是不是归党海量的政策文件,历史档案、项目资料。所以呢,这类行业我觉得是覆盖面非常广的,这些行业都有大量的长篇幅的、连续的文档的处理的刚需。 之前受到大模型上下文的这个影响啊,所以呢,只能把文档进行 red 进行拆分,进行碎片化的问答体验,有时候经常就切块,切的会不准。 而这次的 deepsea 微四呢,它全系百万级的超长上下文,我认为对这个场景应该是一个非常好的一个解决,大家可以尝试体验一下。 我觉得一次性加载这整套的档案,整本的卷宗,批量的病例,做完整的关联,智能的问答资料的汇总,我觉得对于它的精准度,对于那个幻觉的避免等等都是非常好的一个解决,我的我的感觉大家可以尝试一下。 最后呢,我做一个总结,如果你是大型的央企、大厂、科研单位,要做核心,高算力、高复杂度,任务预算充足,那就是 v 四 pro。 如果你是医疗机构、律所事务所、中小企业机构,对这种长文本处理这个海量知识库的私优化, 我觉得那你就不用上那些 pro 的 这种比较重的了,你就 flash 这个版本性价比是非常高的。好了,罗立巴赫,说了这么多啊,希望对你有用。也欢迎对这个话题感兴趣的朋友们,咱们小窗多多交流,拜拜。

最近 dspv 四不是发布了吗?也有很多兄弟啊,问佳琪相关的解决方案怎么样了?那佳琪这边也已经开始测试了,目前单台九幺零 b 模组的服务器可以完全跑满 dspv 四 flash 版本,如果佳琪测试到五百平方的情况下,能达到每个平方二十四 tokens, 其他像八卡的五零九零,八卡的 pro 六千六千 d 我 们也已经在准备加紧测试中,不过也有兄弟问,选哪个版本部署比较好啊?佳琪觉得不用犹豫,直接冲 flash 版本就好了。 flash 版呢,只需要四到八卡的中高端 gpu 就 可以部署了,是当前性价比最优的选择,同时兼顾了性能与落地,硬件的门槛呢会比较低,对比 v 四 pro 版本的话, 落地的成本可以降低五到八倍。 v 四 pro 只适合那种需要极致需求的企业。 fresh 版呢,不管是做企业的知识库,智能客服还是代码辅助啊, 这个能力呢,已经完全够用了。那么我们这边呢,巴卡的五零九零和巴卡的 rtx pro 六千 d 的 测试数据这两天呢也会出来,到时候第一时间啊会分享给到大家,想要了解具体方案的兄弟呢,可以滴滴加起咨询哦。

本期为广东某企业定制部署 deepsea v 四 flash 大 模型解决方案,模型采用 a n t 八精度落地,依靠全球海量船运行业数据训练物流行业垂直大模型。整机采用四卡工作站机箱,搭载双路英特尔志强金牌六五四二 y 处理器, 四十八核九十六现成锐屏,至高四点零 g, 配备八根六十四 g d d r 五五六零零内存,整机五百一十二 g 超大内存,完美满足模型 e m 超长上下的运行刚需。 搭载四张英伟达 rtx pro 六千专业工作站显卡,整机总显存高达三百八十四 g rtx pro 六千原声,支持 f p 四精度,可完美适配 deepseek v 四 flash 模型超长上下纹以及混合注意力架构与量化推理需求。

兄弟们, deep 四个 v 四终于正式发布了,这次有两个版本, pro 版和 flash 版都采用的 mo e 架构,其中 pro 版一点六, t 参数激活四十九 b, flash 版二百八十四, b 参数激活十三 b。 我 初步看了下资料, v 四最大的升级包括三个部分,首先是混合注意力架构的升级,它结合了 c s a 和 h c a 来提高上下文效率。 其次是采用了 m h c 来加强传统的残差连接。最后是 mo u u u 优化器来实现更快的收敛速度和更高的训练稳定性。详细的技术文档也同步发出了,等我深入阅读后再和大家分享。

这两天, deepsea 的 模型强势登顶全球大模型调用榜, openroot 的 榜首,还永久宣布了降价,价格低到离谱。在 deepsea 之前霸榜的是腾讯的会员,在之前是阿里的千万,还有像 mini max, kimi 都登过顶。 从去年开始,中国模型就一直凭着自己超高的性价比横扫全球,到现在中国模型的掉用量全球占比超过了百分之六十。 那关于中国模型这个超高性价比啊,像 deepsea 被称为价格屠夫,一直是行业内海内外热议的焦点。那中国是怎么做到这么便宜呢?有人说是工程能力,有人说是开源路线啊,也有人说是钻猎调度,是中国互联网公司的这种内卷文化。 那每次看到相关的讨论,我都感觉这个剧本似曾相识。我们以前做战略规划,做宏观的产业研究的时候,有一个古老的段子啊,其实也不是段子,是真事儿, 和大模型这件事的底层逻辑非常的像。大家知道中国现在是全球制造业和出口的霸主,那上一个霸主呢?是日本,中国是怎么横扫世界,把日本扫出全球市场的呢?有一个例子, 日本当时生产一个一次性打火机要二十美元,那咱们就把日本的这个打火机买回来之后给拆了,拆完之后不是装上,装上的是仿制。哎,咱不是,咱拆完之后开始研究它,真的需要这么多功能吗?零部件的质量需要这么好吗?一次性打火机用一次坏了不就完了吗?何必那么认真呢? 然后就这样,咱们就造出了一块人民币的打火机,当然这个可能也不是我们故意发明出来的,咱们第一代企业家真的没有那么多的知识,拆完之后就装不上了,装不上不要硬装,不要内耗,于是我们就发明了这种方法,现在叫做反向设计, 大家想想这个反向设计的本质是什么?它就是现在马斯克讲的第一性原理。大家不要觉得马斯克很神,它就是中国山寨的翻版,高科技翻版而已。所以马斯克一直有一个观点,他说全球他没有对手,只有中国。因为他跟咱们的逻辑完全一样, 咱们也就是在这套逻辑下,成本不停地降降降。那大家也不要觉得山寨就意味着低端简配就很 low, 中国山寨有一个极大成制作,就是中国的新能源汽车。在中国的技术路线里,新能源汽车的本质,它不是一个车,它就是把手机做大了,装上冰箱、彩电沙发,弄上四个轮子就可以跑了。 所以中国的新能源汽车是手机装轮子,别的国家是汽车换电池,这是两条技术路线,目前看咱们已经成功了。而且咱还有一个盟友是马斯克,马斯克也明确地说过,特斯拉他就不是一个车,他是一个大型的民用电子终端。 所以大家研这个逻辑想一想,大模型是不是一个路子?就硅谷的巨头,无论是 open ai 还是 anselpic, 他 们追求的是技术巅峰,他们的卡也确实多,几万张卡在那硬烧,就直接奔着取代人类去了。那结果就是模型确实很好,但是也真的很贵。 反观中国模型怎么干呢?咱们就是祖传的第一性原理和极致的实用主义,但这次不是把模型给拆了,是把应用场景给拆了。对于普通用户和中小企业,那真的需要一个能够思考宇宙起源的 ai 吗? 不需要,大家需要的只是一个能够帮忙写写代码,改改注报,做做客服的工具。那既然是工具,核心指标只有三个,就差不多够聪明就行了,然后速度够快,关键是极致的便宜。 所以 deepstack 为什么把全世界卷的嗷嗷叫?因为美国在大力突袭机的时候,咱们在做极致的工程,把 ai 的 推理成本硬生生的砍到了美国同行的十分之一,甚至是百分之一。这就好比把美国人二十美元一次的 ai 服务做成了一块钱的打火机。 open notebook 上的全球开发者都不傻,差不多的能力,中国模型的 api 几乎等于白送,谁还去当元大头? 所以现在的大模型是不是正在重演制造业新能源汽车的剧本?而且 token 的 后面还有芯片、能源、电力,一套套庞大的工业体系,我们就在用这种恐怖的工程优化能力和成本控制推平全世界。我们的信仰就是 ai 不 能只是少数精英手里的奢侈品, 它要变成中国送给全世界的自来水和电,那在这套逻辑下,中国大模型不横扫全球,那才叫没天理。

最近我折腾了一件事,我用 c c x 这个工具,把 codex 后面的模型换成了 deep stick vs flash。 表面上看,这只是一次模型替换,但我觉得它背后真正有意思的地方是, ai 编程工具正在从绑定某一个模型变成前端工具加代理网关加任意模型的组合。过去你用 codex 基本默认走它,原来的模型和接口 现在不一样了,你可以让 codex 继续负责终端交互、读取项目、修改代码、执行命令。但真正负责生成代码和推理的模型,可以通过 ccs 转接到 deepsea vs flash。 简单理解就是, codex 是 方向盘, ccs 是 变速箱, deepsea vs flash 是 发动机。普通人真正要学的不是记一堆参数,而是看懂这套结构。一、 这套方案适合谁?这套方案主要适合三类人,第一类,想继续用 codex 终端体验,但又想试试 deepseek 新模型的人。第二类,想降低 ai 编程成本的人。 第三类,想搭一套自己可控 ai 工具链的人。因为 c c x 本质上是一个 ai api 代理和协议转换工具,它可以把 codex 的 请求转发到其他兼容模型上。这样一来,前端工具和后端模型就被拆开了,这才是重点。 以前我们用 ai 工具是平台给什么我们就用什么。现在慢慢变成工具,可以自己选,模型可以自己换,中间路由也可以自己搭。二、第一步,安装 codex 先安装 codex, c l i n p m i g at openai。 codex 安装完成后,进入你的项目目录。 codex 如果能正常进入终端交互界面,说明 codex 已经装好了,但这时候它还没有接 deepseek 接下来要做的就是让 codex 的 请求先打到 c c x, 再由 c c x 转发给 deepsea vs flash。 三、第二步,启动 c c x 最简单的方式是用 docker 启动 docker run d name c c x 杠 p 三千杠 e proxy 下划线 access 下划线 p 等于 your proxy access key e a p p u i 下划线蓝滚值等于 j h 四减 c n v。 美元 slash dot c o n f i j app dot c o n f i j c r pi dash i nineteen l a zero u g i d two nine seven v c n 汉州 p e r s o n a l。 点 c r 点 a l i y u n c s 点 com 斜杠 b e n e 斜杠 c c x 冒号 l a t e s t 这里最关键的是 proxy access 下划线 key, 它不是 deep stick 的 api key, 它是你访问 c c x 代理服务时用的密码。启动后打开 http, colon slash slash l o c a l h o s t colon three thousand 能看到 c c x 后台就说明服务好起来。零次第三步,添加 deep seek 渠道进入 c c x 后台,添加一个给 codex 用的模型渠道,核心配置大概是, base url h t t p s colon slash slash a p i deep seek icon ap 你 的 deep seek ap 你 的 deep seek 杠 v 四 slash 注意模型名不要写中文,也不要随便加空格。正确写法是 deepsea 到 v 四 flash。 这里的逻辑是 codex 走自己的 responses 请求格式。 deepsea 提供 open i 兼容接口, c c x 负责中间协议转换,所以你不用让 codex 直接访问 deepsea, 而是让他访问 c c x。 零五、第四步,修改 codex 配置,打开 codex 文件, mark t r p q codex nano t slash dot c o d e x slash c o n f i g dot two m l 写入 model equals deep seek before flash model underscore provider equals, c c x approval policy 等于 on request sandbox mode only workspace right model underscore providers dot ccs name equals ccs base your underscore url equals http, colin slash slash 1 27 zero zero point one to three thousand v one e n v underscore key equals, c c x underscore proxy underscore k e y wire 下划线 api 等于 responses, 然后设置环境变量 micros 斜杠 linux export, c c x 下划线 proxy key 等于 your proxy access key windows powershell, e n v c c x underscore proxy key 等于 your proxy access key。 这里再强调一次, deepstack api 填在 c c x 后台, c c x 下划线 proxy key 填的是你启动 c c x 时设置的 proxy access key 这两个标号。六、第五,测试进入一个项目目录,运行 codex, 然后输入。当我看一下这个项目的目录结构,并说明它是什么技术栈。 如果 codex 能正常分析项目,就说明链路打通了。这时候你用的还是 codex 的 终端体验,但背后跑的模型已经换成了 deepsea v。 四、 flash 七常见问题第一个坑, base url 写错, codex 配置里不要直接写 deepsea 地址,而是写 c c x 地址。 h t t p co n slash slash one two seven zero 零点一三千 v e e 第二个坑, key 填错, deepsafe key 放在 c c x 渠道里, c c x 的 代理 key 放在 codex 环境变量里。第三个坑, wsl 访问不到 load halt 如果你在 windows 上跑 c c x, 在 w s l 里跑 codex, 可能要把一二七点零点零点一换成 windows 主机 ip, 比如 h t t p colon slash slash one, nine two one hundred sixty eight 一 点二三比三千 v 一 零八。 最后说两句,我为什么觉得这件事值得折腾,因为它代表了一个趋势, ai 工具正在模块化。 codex 不 一定非要绑定某一个模型, deepsea 也不一定只能在网页里用 c c x。 这种工具的价值就是把不同工具重新拼起 来,谁负责交互,谁负责路由,谁负责模型,谁负责成本。当你能把这些拆开,再重新组合,你就不只是一个 ai 工具用户了,你开始有自己的 ai 工作流。 ai 时代普通人真正需要的不只是会用某一个工具,而是能把工具模型和流程组装成自己的生产系统。我是华子社长,继续拆解 ai 时代普通人的实战机会。

相信很多人啊,都被各家大模型厂商千奇百怪的版本后置屏搞晕过,那些东西到底代表了什么意思呢?今天我来给大家分个类介绍一下。第一类,我管它叫轻量版, 就比如说 flash light 或者 nano mini, 参数量比较小,但是速度快,便宜,适合简单的回答,实时的翻译,低功耗的设备。例如呢,刚发布的 deepsea v 四的 flash 版, 以及之前 gpt 四 o 的 mini。 第二类呢,我管它叫标准专业版,最典型的代表就是 pro, 大 多数的付费包里默认给的就是 pro, 适合呢日常办公编程辅助数据分析。例如 deepsea 微四就有个 pro 版,然后 cloud 四点五有个 sunit, 相当于 pro。 第三类呢,代表就是 max auto, 顾名思义,它们就是最强最大最贵的版本。通常呢,这些版本的参数量最大, 但是呢,推理会比较慢,价格也会比较高,比较适合呢复杂的科研,比较长文本的推理,高难度的代码。 就例如 google 的 gmail ultra, 还有 cloud ops max。 另外还有像 plus 特指增强版,有时候呢比 pro 版呢稍微强一点,但是呢不及 max。 常见于呢一些个人订阅的套餐, openai 的 chat gpt plus 就是 每个月二十美元,能够优先使用最新的模型。 再有呢就是 business 或者是 enterprise 这一类呢,其实就是企业版,主打一个数据隐私合规和高并发, 支持 s l a 服务等级协议,一般不零售,需要联系销售,安年前约就比如 cloud 的 for business 版本。还有一个是 turbo, 主要是指速度优化版, 它当然会牺牲一点点的质量来换取更快的响应。就比如说之前 gpt 三点五就有个特步版,本人记住一句话,不同的后缀名对应的是同一个大模型,不同的使用权限,个人本地部署或者只是对模型要进行体验,那用 flash 或者 light 版就可以了, 个人工作时个人工作辅助呢?用 plus 或者 pro 就 够了。企业呢,一定要选 business, 搞科研或者深度使用的极客用户就选能力最强的 max 和 ultra。 大模型不同版本的价格和性能一般都是成正比的,那你的钱包和需求才是真正的决定因素。最后问一个问题,你觉得哪些参数对你选择大模型最有用呢?而你又被哪些参数忽悠过?我是老林,关注我评论区聊一聊。

我的一百二十八米 g 大 刀内存终于有了用武之地。在本地运行 deepsea 第四 flash 是 一种什么样的体验?使用了 reddy 作者 ontaris 的 最新项目 git com ontaris e s 四,一个使用 c 语言,专门为 deepsea 斯 flash 写的 mark 本地推理引擎本地 coding agent 生成速度达到二十一点四七 t s。 其采用了非对称量化,谐同设计 和对应的各幅文件是一起设计的二倍。量化不是通用的 iq 二,而是只有路由某专家被量化。其中 upgrade 层采用 iq 二 x x, 当层采用 q 二 k 这些占模型空间的主体。其他组建共享专家投影层,路由层保持完整精度。启动 ds 四的 server, 在 tmax 的 下面窗口启动 call 二 code, 其模型自动设置为本地的 deepseek v 四 flash 用一个例子测试,让其讲解一下 ds 四这个项目,可以看到最终的生成结果。 在服务端的日制中,可以看到科尔沁触发的相关的生成调用。日制前面是 pre flow 阶段,速度是两百 t s 左右。整个个阶段大概是花了三分钟时间。科尔沁将其自身的 prompt 及整个代码库中涉及的内容全部发给服务端 进行生成前的 preview, 后面深绿色日制部分是生成阶段,视频中速度是十六 t e s。

同志们, deepsea 官宣永久降价百分之七十五,也就是说新价只有原来的四分之一,一刀砍到了小腿。但是最狠的还不是这个,是缓存命中的价格,每百万 token pro 版本的价格只要零点零零三六美元,也就是三厘六,基本就是免费。 那什么是缓存命中?用大白话说就是,只要别人之前问过的,你又问了一模一样的或者是差不多的问题,模型直接调取现成数据回复你就是命中。这个模式能节省多少钱呢?根据 deepsea 官方文件,最低节省会超过百分之五十,最高能节省大概百分之九十的费用。 我们现在去测算一下,按照一个月消耗一亿头肯需要花多少钱?对比美国三大主流 ai, deepsea v 四 pro 一个月花费十八点五九美元, gemini 三点五, flash 一 百七十五美元, cloudsonnet 四点六五百四十美元, chat gbt 四 o 七百美元, 价格打到底了,那能力怎么样呢? deepsea v 四 pro 整体综合能力在美国三大主流模型的百分之八十五到百分之九十五,最强的就是写代码的能力,这项是超过太平洋对岸的数学能力基本持平,整体差距主要在文采和虚假回答控制上。 也就是说现在有一个开源的整体能力在同一梯队的,还有点免费的大模型给世界人民选择。那我们能不能说对岸的优势主要就剩人为封锁了?记得点赞关注哦!

d p c 个 v 四,我们用四张 pro 六千跑通了,效果确实很顶,但有些客户说太贵了,我们找到了更便宜的替代方案,用四卡 pro 五千七十二 g, 这局我们 pro 五千七十二 g 的 显卡,这台机器我们一共搭载了四张,今天实测给你看,我们直接上四卡 pro 五千七十二 g 单卡七十二 g 显存,四卡合计二百八十八 g 显存。 我们模型跑的是 d p c 个 v 四 flash, 上下为十六 k, 从一并发一路压到六十四并发,看看它的极限在哪里,我们直接看数据单使用。九十三偷看每秒, 跟 pro 六千单人体感几乎无区别。十六人并发三十二点六 toky 每秒,正常对话没有问题。三十二并发二十一点四 toky 每秒,这就变慢了,手投跟超五秒,排队感很强。六十四并发十三点五 toky 每秒。我们可以得出结论,四卡 pro 五千七十二级 跑的 pc v 四 flash, 单人体验极速跟 pro 六千几乎一样,十六并发以内流畅使用,超过十六并发延迟会明显上升,体验也在下降。像这个配置的机器,三十人左右团队日常使用都没有问题,日常办公不可能三十个人同时高强度的调用, 实际并发疯值一般在十到十六之间,这个期间内斯卡 pro 五千七十二级方案很稳,它的成本只有 pro 六千的百分之六十,但却可以发挥它百分之八十的性能。如果你的企业也在考虑大模型本部不知道怎么配,可以来找我聊聊。

兄弟们,今天聊聊 deepsea v 四 flash 到底贵不贵?最近接了个实用需求,批量把各类简历统一转换成指定模板,模板支持用户自由定义。正好借着这个需求,带大伙直观算算这款模型的使用成本。先看官方标注定价标准, 再对照官方偷看核算规则,你猜我能不能看懂?直接看代码实操吧! 代码生成结束,准备好模板和原始简历, 页面简单清晰,上传模板文件上传待处理,简历资料 生成。这就是转换完成后的成品简历,细微之处,后续慢慢打磨优化就行。整套流程耗时大约二十五分钟上下 花费三毛八分钱。就这成本价位,大伙觉得这款模型贵不贵?

部署 deepseek v 四 flash 版本的硬件太贵了,快来看看这套性价比部署方案。这台就是我们给南京的一所高校的老师搭配的本地部署方案,因为申请的经费有限,所以老师让我们搭配了这套性价比高的部署方案。我们给他搭配的是最核心的 gpu, 是 四张英伟达的 pro 五千七十二 g 版本 cpu 搭配的两颗英特尔的六四三零 内存,搭配的是八根 ddr 五六十四 g 内存。大家都知道最近 pro 六千服务器版本的价格已经接近十万元一张, 我们给客户部署的这套方案价格差不多只有他的百分之六十,但是却能发挥他百分之八十的性能,性价比非常高。这个平台最高能支持八张卡,也为后期的扩容预留了一些空间,等后期新的经费批下来了,又可以进行升级了,不需要更换平台。现在这台机器已经装好了,等一会我们的工程师会给客户预装他们所需要的模型, 在完成四十八小时的压力测试过后,就可以给客户安排发货了。我们是做高性能服务器工作站定制的,如果你也需要这样性价比的本地部署方案,想要部署 deep v 四都可以来找到我。

今天我们再给大家介绍一下那个开源的 k transformer 的 这个项目,前三周发布了零点六点二,在这个版本里面,它最主要是原生支持了这个 deepsea v 四 flash 的 模型,这个模型因为也是 deepsea 的 一个 非常重要的一个模型,它上下文达到了一兆,那么性能也是非常不错的。 k transformer 这个项目我们一直是给大家介绍的,它主要是用一些比较少量的一个 gpu, 再加上 c p u 内存的这样一个混合推理的方式去支持。那目前我跑了一下,基本上也已经跑通了,给大家来介绍一下这个项目。首先我们给大家看一下这个项目,我还是用 rtx 四零九零四块 gpu 去跑这样一个 d p v 四 flash 的 这样一个版本,它目前每秒钟大概 是在二十个透坑左右,二十二个透坑是最高的,差不多是这样的一个情况,应该来讲性能还是能够接受,当然它主要是并发症不能太多,如果你并发症多,它可能性能不一定好。这个是我们测了一下它的 ck, 也是可以顺利的跑通,应该没有太大的问题。 那我们给大家来介绍一下它是怎么来运行的。在 k transformer 里面,它提供了这样的一个文档,它这个文档主要是去支持五零九零的这样一个例子,它是官方是用 rtx 五零九零一块 gpu 去跑的,内存要大于二百五十六 g, 它是这样的一个情况,那我目前是用了 rtx 四零九零,给大家看一下 rtx 四零九零对 memory 的 话呢,我们是也用了蛮多的,用了江百二二百五十六,虚拟内存的话,将近用到三百三十三百四十左右,基本上内存要用到至少一百 一百六十一 g 吧,它这显示的是那这样的一个情况,这个是它的环境,当然我们也测了一下,那个 rtx 四零九零也是能够支持的,它是用了一块也能跑,我们是用了四块性能会更好一些,它是等于是这样, 然后你的 c p u 的 话呢,要必须要支持这个叫 avx 五幺二,那一般的话老的这个英特尔的 c p u 应该也是能够支持,按照那个存储空间的话呢,要三百四十 g b, 它等于是这样,那你还是按照它这个去去进行安装,先安装的就是先要翻译的是 k t pro 这样的一个东西的这个目的, 然后编辑完了之后的话呢,再要安装 s g line, 就是 安装,然后呢你要去更新它的库达和 flash, 英菲尔的这样一个酷,因为它这个酷要必须要大于零点六点九这个版本,默认安装的话呢是零点六点三,这个一定要更新一下,否则是跑不起来的。 另外的话呢,你要做一个降级,因为目前的话 s g line 它 deepsea 用的还是 transformer 的 这个 v 四的版本,所以你要把它给降下来,降到四点五七点一这个版本, 它目前还那个 v 四 flash, 它还不兼容这个 v 五的这样的 transformer 这个库,所以你还是要把它降一下。降完之后的话,你还要安装一下这个库,这个库是主要是 v 四 flash 或者 dk v 四,它的一些算子,它都是依赖于这个 i o land 的 这样一个库的,这个是比较重要的。好, 那么安装完了之后的话,那基本上就可以了,然后你要下载权重,下载权重,下载权重完了之后的话,你就可以去运行,当然在运行的过程当中,这两个指令是比较重要的,这两个变量你要跑 deepseek v 四的这个 model 叫二二六零四,然后 要把这个指定一下它这个,然后它才能正常的跑起来,它这个,那么跑完的话呢,基本上我看了一下解码,基本上四块 r t x 四零九零的话呢,也是在二十个二十多个托肯左右,差不多是这样。好,那么应该来讲 k transformer 这个开源库的话呢,对我们一些 就是消费级别的这个 gpu 还是比较友好的,特别是买不起一些高端的,像 r t x pro 这个六千的这些 gpu 福气来讲还是不错的。所以像我们原来有些企业买的 rtx 四零九零四十八 g 的, 应该跑起来会更好一些啊,这个好,那么今天的话呢,我们这样的一个视频就给大家就介绍一下,就是我们在有些怎么跑乞丐版的 dpc vs flash 的 这个版本。好,那么今天我们这样一个视频就给大家介绍到这。

就这台机器显存足足有三百八十四 g, 没有听错,就是三百八十四 g, 因为它搭载了四张 rtx pro 六千的显卡,这台机器价值三十多个 w, 送你,你会用来做什么?就是我们给上海的一家企业搭配的本地部署方案,客户主要是用来部署最近非常爆火的 deepsea v 四 flash 版本。客户要求非常简单,必须要静音, 因为平时是放在办公室里使用,如果噪音太大的话,根本没办法正常工作。还有一个要求,算力必须要强,必须满足五十个人的日常使用。我们给他搭配的配置是 cpu 是 一颗英特尔的六五三零,搭配了四根 ddr 五四十八 g 内存, 因为现在的内存价格有所上涨,客户也准备了几条,方便后续升级。这个客户主要是用这台机器来处理大量的文件文档资料, 因为客户的内部资料涉及到大量的保密信息,根本没有办法使用勾用语音 ai 来进行处理。我们正在给客户部署模型,在部署完之后,我们还要进行二十四小时的压力测试,确保一切都没有问题后才会给客户发货。如果你也需要部署 deepsea v 四 flash 版本,都可以来找到我。