deepsea 反复横跳了小半年,在四月末啊,终于把 worcester 甩出来了。之前全网都在问 deepsea 是 不是已经被遗忘了,团队忘了进行更新,结果啊,这波憋了个大招,双版本齐发,轻量版满血版随便你选。 deepsea 第四代这回升级了什么呢?百万文字长文本,直接变成了模型标配。比如你尝试着扔一本几百页的年报进去,在眼睛睁闭的瞬间,关键信息全部都给你扒出来了。 而且这次 deepsea 的 背后大量用上华为深腾芯片,在摆脱国外技术封锁的同时, deepsea 还做了底层优化,将资源消耗大幅打下, 连 cloud 的 四分之一都不到。测试内容中呢,在编程方向啊,确实靠谱,让 v 四写个网页小游戏,连续干了半小时都没产生游戏报错,逻辑框架稳稳的。不过啊,在推理能力上依旧有瑕疵。对于陷阱题目, 比如一瓶水和一块冰放在同一个保温箱里,密封一天之后,保温箱里的水变多了还是变少了,依然会出现变多不变少的错误答案。 但是在面对正常的题目上呢,推理能力相比之前是有大幅度提升的。另外啊, v 四多轮对话记忆也有提升,在设计多城市景点旅行计划,能撑到第十四轮才记不住在联系上下文的记忆储存上,比以前强太多了。学习之道,知识问答嘎嘎猛。 还有写作广告语、公文、创意文案,中文能力啊,直接拉满,创造百万字小说,不再需要依赖更多的附加记忆手段,使用起来啊,更简单。所以 deepsea version four 到底怎么样?便宜好用才是硬道理! 务实干活利索,国产算力生态正在崛起。当然开放团队也承认和优秀闭元模型还有几个月的技术差距,但这个词源的消耗表现,你还要什么自行车啊。
粉丝51.6万获赞629.1万

deepsea 终于要推出一款能够引入图像和音频理解能力的大模型了,下个月, v 四点一将正式发布。 这不是一次简单的参数升级,而是首次引入多模态能力,同时深度适配 m c p 协议,强化一系列企业端工具。如果说 v 四是秀肌肉的核弹,那 v 四点一就是装上瞄准器的导弹,这次的目标是企业市场。

龙虾大更新,正式把 deepsea v 四报上了 c 位!刚刚看到两条昨天的新闻,我感觉应该算得上一个历史性的瞬间了。第一条新闻就是 open call 大 更新,正式把 deepsea v 四报上了 c 位。 open call 是 谁就不用我多说了,对吧?就是目前全球最火的智能体平台龙虾。昨天他发布二零二六点四点二四版本, 这个版本一口气干了三件大事,第一,全面接入 deepsea v 四。第二,把 deepsea v 四 flash 设为默认首选模型, pro 版也同步上线。第三,专门修复了 deepsea 在 连续多轮工具调用中的思考逻辑,让响应更聪明更连贯。什么意思呢? 以前 openclock 可能是把各家模型当轮子换着用,但是现在它把 deepsea 直接锁死成了出厂设置。这说明一件事情,就是在真正的多部推理复杂任务的场景之下, deepsea 已经做到了,让全球最挑剔的开发者觉得不用它就是损失了。第二条新闻也来自 deepsea。 昨天 deepsea 出台了一个新政策,说输入缓存命中,价格直接砍到原来的十分之一,而且这个月的 pro 版还叠加了二五折。我给你翻译成一句人话,就是一百万 tokins, 两分五厘钱。 各位,这是什么概念?就是你把整部三体三部曲给他扔进去,然后让他读完总结,然后回答问题,成本不到一瓶矿泉水的钱。 以前我们说 ai 智商高,但是现在 ai 开始变得便宜的不像话了。一边是性能被全球顶级玩家默认首选,一边是价格打到脚底板。各位,这两个信号叠加在一起, 只能说明一件事情,就是中国 ai 不 再是追赶者,而是被主动接入的基础设施了。 更重要的是, openclaw 这次特别强调说修复了 deepsea 在 多轮工具调用中的思考逻辑。这意味着什么呢?意味着 ai 不 再是一问一答的鹦鹉,而是能记着前几步,然后规划下一步,然后连续调用工具的数字员工了。 而把这件事情做透做稳的,正是 deepsea。 从追赶到并跑到被默认选择这条路, deepsea 替中国 ai 走通了。 最后我想说一句,两分钱一百万 token 的 时代,不是让 ai 替你写诗画画的,而是让无数开发者和创业者用几乎为零的成本去搭建以前想都不敢想的智能应用,这才是真正的平权。

百度的 ai 竟然赢过 deep sea 了,你信吗?五月九号,百度正式发布,而你五点一直接甩出一张硬碰硬的跑分表,把 deep sea v 四 pro、 kundopus 四点六和 gemini 三点一 pro 全部拉上擂台。乍一看,百度确实在好几个 硬核项目上压过了 deep sec, 带工具的高等数学解析 a i m e。 拿下惊人的九十九点六复杂表格处理 spreadsheet、 奔驰领先任务规划 t 三半尺和研究生级科学推理 g p q a 也都占了上风。这些成绩单让很多人第一次对百度刮目相看,但仔细看会发现, deepseig 依然在深度搜索、整合信息的能力上遥遥领现,在,通识芝士 m m l u pro 这类考验芝士广度的项目上也继续领跑。而放眼海外对手,而你五一一虽然在智能执行和数学推理上硬桥硬马, 但在知识覆盖面、深度搜索研究以及指令遵循这些维度上,和 cloud gameday 之间仍然隔着不小的距离。所以,这不是一个简单的赢了或输了的故事。个人翻译,百度在 deepsea 开创的效率革命路线上找到了属于自己的发力点, 他不再试图在每一块正地都和对手正面交锋,而是选择在需要深度推理和工具调用等众生任务上打造差异化能力。而 deepsea 依然是那个知识渊博的全能学者, 在广度和信息整合的护城河上稳如磐石。这场较量的真正赢家,其实是中国 ai 产业本身。当一家公司定义了新范式,另一家公司立刻在新范式下跑出了差异化优势, 这是生态走向成熟的标志开端。值得一提的是,百度的对比矩阵里没有出现 chat gpt, 不 知是对 open ai 最新模型避而不谈,还是认为在新的竞争格局下,已没有把它放进参照系的必要。 这个问题可能只有百度自己才知道答案。关注我,价值翻译官,帮你翻译价值,看清前沿 ai。

最近 deep sec 更新了 v 四版本,今天我们来实测一下,用它来降 ai, 看看效果如何。打开 deep sec, 我 们选择这个专家模式,先让它来生成一段内容, 生成好以后,我们看看它的原始 ai 率, 在这里检测是百分之一百的 ai 率。接下来进行降 ai 处理,复制我们的降 ai 指令,新开一个对话,依然选择专家模式发送这个指令主播已经分享很多次了,使用反馈都很好,有需要降 ai 的 可以试试, 等他理解改写要求后,再来把刚才生成的内容发送给他。改写降 ai 很 快就处理完了,再来看看他的 ai 率, 在这里检测是直接清零了,把它上传到织网看看效果, 织网的检测结果也是零。用这个我们的降 ai 指令配合 deepsea 专家模式就能大幅降低 ai 率。 主播后续又测试了几次,基本都能降下来,但是也有没降下来的,最高的一次 ai 率有五十多,还是不太稳定,使用的时候要多试几次。 如果是改时间也不想浪费检测机会的,也可以直接在这里选择对应的平台上传文档,它就能针对文章中的 ai 痕迹进行改写,处理后的内容不会改变原意,可以在保证专业性的同时,又能将 ai 率降到合格范围内,简单又高效。

hipstick v 四系统五一已经更新,天降红利,这不得抓紧揣兜里。那么如何辅助我们完成初稿呢?先在直网高级解锁哐哐打上两三个核心主题, 年限锁定五年。 deepsea 可都 v 四了,咱文献不得整最新的?不然咋配得上咱这刚出炉的初稿?飞速筛个十几篇文献,导出查新引文格式,然后找到这个它号称能跟贵几十倍的模型掰手腕。我来试试咸蛋把文献资料给他,让他给咱梳理研究思路和大大纲,填好标题这些基础信息, 把知网整理的参考文献一扔, deepsea 整的研究思路也一扔,大纲也扔里头。这需要图标数据公式啥的,直接在这勾选最后一篇逻辑严谨内容丰富带图带表的初稿就到手了,出去嗨也不用担心。

我是拿铁,今天这事, deepsea 沉寂了十五个月,终于放了个大招,哈喽,我是小金桔。等下十五个月,他们终于出手了。嗯,二零二六年四月二十四日这一天, deepsea 微四预篮板正式上线了。自从去年一月 r 一 发布以来,他们中间经历了多次推迟, 从原定的二月一直往后推,其实从 v 三点二算起,整整一百四十天了。一百四十天,你猜怎么着?重点来了,这次 v 四带来三大核心突破,第一就是支持百万字超长上下文窗口,一百万偷看啊,直接把钱袋模型的长度限制给掀翻了。百万字,这也太夸张了吧?哈哈,你想象一下那个场景, 超长文档,完整代码库一次性全塞进去,它都能处理。第二, a 阵能力实现了自主规划工具调用,还有多步骤复杂任务编派,也就是不用人一步步盯着了。 对,第三呢,在世界支持和推理性能上均有显著提升。我跟你说啊,这次他们还搞了两个版本,一个是性能怪兽 deepsea v 四 pro 拥有一点六万亿总参数,四十九 b 激活参数。哇,一点六万亿。另一个呢,是专为高效率、经济型设计的 deepsea v 四 flash 二百八十 b 总参数,十三 b 激活参数。这就有意思了,两个版本,全开源等等等等,又开源,他们真就一点都不藏私心。哎,怎么说呢,这就是 deepsea 一 贯的策略, 进一步降低了前沿 ai 技术的使用门槛。去年春节,他们靠 v 三系列让全球 ai 圈震动,这次 v 四发布,直接开启了 ai 应用的普惠时代,这个格局真的绝了。这个细节很多人不知道, pro 版的性能已经接近顶级闭元模型了,在数学、编程这些任务上表现特别突出,而且他们还用了动态稀疏专家架构,省了百分之四十的存。省这么多, 嗯,幺二八 k 掌文本压缩技术还降低了百分之五十七的延迟,这事吧,对全球 ai 竞争格局的影响太深远了,别人还怎么玩?这听起来真的挺震撼的,感觉别的团队压力山大啊,哈哈哈。哎,可不是吗,从去年一月到今年四月,这十五个月,他们憋了个大的 百万上下文,从此普惠。这不仅仅是个技术更新,这是在改写游戏规则。所以他们其实是用实力证明,开源也能做到顶尖,对吧?没错,开源一样能打,这种把顶级技术直接甩出来给大家用的感觉才是最牛的,真的是太期待后面的发展了,局的壁垒一旦被打破,带来的就是全行业的狂飙。 感觉我们马上就能用上更聪明的 ai 了,嘻嘻,下期我们聊聊这个 v 四 flash 到底能帮我们打工人干点啥?这里是小金局和拿铁,我们下期见!

各位朋友,最近国产大模型 deepsea 正式升级到 v 四版本,这次新版本到底有哪些核心变化?又会给整个 ai 行业带来哪些全新的机遇呢?今天一次性给你们讲清楚啊!首先,我们来看它的三大核心技术升级。第一呢, deepsea 的 v 四分为 pro 和 fresh 两个版本, 两个版本全都搭载了百万级的超长上下文功能,直接拓展了 ai 处理复杂长任务的能力边界,这意味着他从能对话走向了能办事的最后一公里,正在被打通。 第二呢,根据专业机构最新测评啊,他在逻辑推理、智能体任务等核心能力上,全球的开源模型中分别稳居第二、第一名, 综合各项性能表现是可圈可点的。第三呢,是国产算力实现的重大突破,华为深腾官方官宣啊,全系列超节点产品已经全面适配 deep seek v 四啊,这也是本次版本升级的一大重磅亮点。 好了,讲完了技术升级,我们再聊聊它带来的行业新机遇啊。首先,百万级长文本正式成为标配,将强力赋能长文档的解析、智能办公、代码开发等多个应用场景,有望激发 ai 产业的创新活力。 第二呢,根据市场研究机构啊半导体相关的主管点评呢, deepsea v 四深度适配华为的自研芯片,标志着国内顶级大模型啊,已经真正实现了国产化硬件完整落地运行。 总而言之呢, deepsea v 四绝对不是一次简单的常规更新啊,它标注着中国大模型产业正式迈入了以任务执行效率和算力自主生态为核心的全新竞争赛道, ai 行业正在高速的迭代啊!未来也会深度融入我们的工作与生活。关注我们,持续为大家更新最新的行业动态哦!

今天这期视频以 deepsafe 为例,因为收到群友以及评论区的反馈,说我上一期出的视频零四期有很多朋友用了之后,模型方面还是存在一些问题,比如说虽然设置的是 deepsafe v 四 pro, 但是实际上返回的是 flash 模型, 就因为我上一篇文章写的是以智普模型为例子的解决方案,那么视频就换成 deepsafe 为例。第一步我们需要下载 cc switch 这个软件,具体的下载方案呢,你可以在我的抖音群内找到,或者说你自己直接用浏览器搜索一下就可以了。我们下载之后点击右上角的这个黄色的加号,我们以 deepsafe 为例,点击这个 deepsafe, 然后我们往下滑, 在 api k 这里我们填入密钥名称,这里随便填,我们点一个测试吧请求地址,它是默认填写的,如果说官方有要求的话,以官方要求为准。然后我们再往下划看这块的模型选择,如果说官方准备好的话,我们直接点这个获取模型列表就可以了,如果发现获取不了,那我们就手动输入就可以了。 比如说我们想用的模型是 deepsea v 四 pro, 那 我们就直接输入 deepsea v 四 pro 就 可以,要注意一般都是小写。然后我们全都换成 deepsea v 四 pro, 默认是这个是最高级的,然后这个是中级,这个是低级, 以此类推,把这个选择最高级的模型,这个次一等,这个再次一级,这个名称要注意看一下,因为后面我们是要一一对应的,比如说这个模型的话,它是 deepsea v 四 pro, 之后在 cloud code 桌面端的话就是要对应这个模型的,我们点击保存 这里就可以发现有了这个测试用的模型。接下来我们来配置路由功能,点击左上角的设置,点击路由,点击本地路由,点击路由总开关,勾选 cloud 这个服务地址,需要记住我们后面会用到,那我们 c c switch 的 方面就配置完成了。 那我们来配置 cloud code 的 桌面端,点击左上角三条横杠,点击 developer, 点击 configure party inference, 进入 connection, 我 们点击右上角新建一个模型,比如是 deepsafe 测试用,点击 confirm, 在 base url 这里填写的就是我们刚刚说的那个服务地址,我们粘贴一下,然后 api k 照例填写我们的 deepsafe v 四 pro 的 api k 继续往下滑,在 model list 这里我们点击添加,我们在这里填写 cloud o p u s, 注意都是小写,如果支持一照上下文的话,我们就点击打开再添加第二个模型。 如果说你只用两个模型,那基本上到这就够了。这里的 cloud o p u s 模型与这里的 deepsea v 四 pro 模型对应这里的 cloud s o n n e t 模型与这里的 deepsea v 四 flash 模型对应。如果说你还有其他需要使用的模型,那你就继续点击添加,如果没有的话两个就可以了。然后我们点击 apply locally 重启,打开 cc switch, 点击启动。然后我们问一下你好, 测试模型发现可以使用,那我们就解决了这个问题了。好了,希望能帮助大家,祝大家用的愉快。

难产的 deepsea v 四终于生出来了! ai 圈子里, deepsea v 四下周发布这个消息呢,就跟狼来了一样,从今年一月开始,路透社、金融时报、各路科技媒体每隔一阵子就会爆出 v 四将要发布的内幕消息,但是每一次都以 deepsea 跳票告终。 在这样的拉扯下呢,大家对 deepsea 新模型的期待值被抬到了前所未有的高度。腾讯甚至发了一篇名叫人民想念 deepsea 的 文章,官方催更 deepsea v 四。 这个曾经一天干垮美国股市,让中国大模型被全世界看见的 ai 公司呢,已经沉寂了整整一年,如今究竟是王者归来,重回巅峰,还是徒有虚名,英雄迟暮?今天我们就来全方位体验一下 deepsea v 四,看看 deepsea 到底还行不行。 我们的测试包含了大模型的知识调用、推理、查上下文这些基础能力,以及小说写作、前端设计、智能体编程这些常用场景。这次 deepsea 呢,发了两个版本的模型, 满血版 deepseek v 四 pro 和轻量版 deepseek v 四 flash。 我 们用的呢是 pro 版。一同参与测试的还有 gpt 五点四、 cloud open 四点七、 jimmy 三点一、 pro 等等六家主流旗舰模型。测试代码和结果呢,我们会全部开源,大家可以自己去试试。那话不多说,先来看看第一关知识。 说实话,现在要找个不可能出现在 ai 训练语料里的知识呢,还是挺难的,所以我们想了个偏门的法子,用海龟汤。比如有这么一道题, 一六八五年,画师要为蒙蒙斯公爵画一幅肖像画,但在开始绘画前,他向仆人要了一些针线,他这是要缝什么呢?要答对这道题,你需要有一点历史知识,知道这个蒙蒙斯公爵在一六八五年七月呢,被判军斩首了。 对,画师呢,其实是要把他的脑袋缝回脖子,给他画一项。像这样的问题呢,考验的不光是 ai 知不知道某个知识点,还看他会不会把知识灵活运用类似的海龟汤呢。还有下面三个,大家可以想想答案是什么?我们等会来看 ai 们的表现。 测试时呢,我们禁止 ai 联网搜索,让他们靠自己的能力回答 deepsea 四道题目全部拿下。同样全部答对的呢,还有詹姆奈和 g r m cloud 的 两兄弟和 kimi 呢,在红绿色盲上丢了分。而表现最差的呢是 gpt, 虽然联系到了蒙莫斯公爵被砍头的知识,却认为缝的是嘴。同时呢,还把降落的宇航员拆成了海员,是唯一一个只答对了一道题的 ai。 接下来呢,是第二关推理。这里呢,我们拿了一张二零一八年的刑侦科推理试卷,一共十道选择题,每一题呢,都环环相扣,当年难倒了一大片网友。大家也可以暂停一下,试试自己能不能答出来。 为了保证 ai 是 真的自己推理出答案,而不是训练时就学过,我们把问题表述改了一下,但最终答案和原题是一样的。这次的结果呢,有点出乎意料,除了 gbt 五点四和 cloud 三点四点六之外呢,包括 deepsea 在 内的其他模型全部答对。看来这些年 ai 们的推理能力呢,确实大有进步。 下一个呢,是长上下文测试,也是这次 deepsea b 四主打的能力,我们挑了小说全职高手中大约一百万字的内容,然后让 ai 回答其中只出现过一次的撕裂末日这个武器的重量。这个问题呢,实在有点冷门,在没有给 ai 小 说内容的时候呢,没有一个模型答对。 接下来呢,我们把一百万字的内容塞给 ai 们,让他们作答。 g r m t。 米科尔的 opus 和 sanit 都因为超出模型上下文窗口回答失败, g p t。 做出了回答,但没能找到答案,只有 deepsea 和 jammer 成功答对。 到这里呢,我们测试了模型的基础能力, deepsea v 四 pro 的 表现呢,可以说是相当不错,和其他 ai 的 成绩横向对比,和官方放出的测评数据出入不大,至少在硬实力上 deepsea 是 没有问题的, 但是光会答题只能当做题家, deep six v 四到底能不能干活,还得真刀真枪实战几把。首先来试试写作能力, 最近呢,有一个很多人都在吐槽的现象,越来越多的 ai 把写代码当成了摇钱树,文学品味变得越来越差,典型的呢,就是拆的 gpt 稳稳接住你这个梗,一点人味都没有,连原本写作很强的 open 四点六升级到四点七之后,都变得满嘴机油味了。 那 deepsea 怎么样呢?我们给 ai 布置了一个任务,请以如果一九六五年人类发现了 ai 大 模型技术为主题,写一篇现实主义基调的发生在中国的短片小说完整,结果比较长,大家呢可以到我们的开源仓库去看。这里节选了一些片段, deepsea 大 概写了一个中国研究员根据苏联技术训练出大模型,后来又被封存的故事。相比其他 ai, 可以 明显感觉到 deepsea 对 意境的理解水平更高,不只是写具体发生了什么事,还能把山与欲来的氛围给烘托出来。这一点呢,在另一个武侠小说的测试当中也有所体现。 deepsea 相比呢,同样擅长写作的 cloud open 四点六,写出来的感觉就有点过于直白了。同时呢, deepsea 的 作品展现了惊人的长上下文注意力。在一九六五年中国科学家研发大模型这个故事当中呢,一开头就铺垫了大模型技术的来源,但是直到差不多五千字之后,走到了结尾才揭晓伏笔。 ai 能搞定这么大跨度的前后弧影,还是很让我惊讶的。总体看下来呢, deepsea v 四 pro 的 文学造诣可以算是独一档,在大家都卷编程开发的时候, deepsea 还愿意打磨写作质感,也算是难得的一股清流了。接下来呢,我们来试试 deepsea 的 前端开发能力。 这几年新模型出来呢,大家总喜欢先拿他们做个网页,直观感受模型的审美和物理直觉。比如有个叫 ai 世界时钟的网站,里边,每分钟呢,都会让十二个 ai 画一个表上去,各家水平如何一目了然。 我们拿相同的提示词让 deepsea v 四 pro 跑了一下,时分秒走的都很准确,看起来呢,还挺精致的。 同一水平线的还有 cloud open 四点七、 cloud sonic 四点六、 jimmy 三点一, pro 和 gpt 五点四,也有出了点小毛病的,比如 grm 五点一。另外 kimi 呢,额外发挥了一下,我们不好分辨这个表盘刻度是艺术设计还是 bug, 所以呢,单独划了一类。 下一项呢,是网页动画设计,我们把一段原本是给 c dunks 的 mg 动画提示词扔给了大模型,让他们通过 html 动画来实现这一连串几何图形的无缝转场。效果最好的呢是 jammin 三点一 pro, 每一段动画过渡都很自然, deepsix v 四 pro 和 cloud opus 四点七呢,位于第二档,整体效果不错,但是呢,有些镜头切换略显生硬。至于剩下四个模型的生成结果呢,就或多或少有点瑕疵了。 接下来的任务是实现一个真正的 ai。 公司主页要求带有液态玻璃风格和动态光效。这项的评价呢,就比较主观了,我们觉得最有艺术感的是 gemini, 互动效果最好的是 kimi, 剩下几个呢,各有各的风格, deepsea 在 其中呢,并不算很突出。 最后我们给 ai 留了个终极任务,实现一个三 d 汽车变速箱演示网站。这项测试呢,对今天的 ai 模型还是挺超纲的,但是呢,也可以很好的拉开差距。效果最差的是 g p t 五点四只做了一堆散落的零件, cloud 两兄弟呢,也没好到哪里去, 齿轮旋转的方向都是错的, timi 做的两根轴呢,卡在了一起。在剩下相对完整实现了变速箱结构的 ai 里呢, deepsea 出乎意料的算不错的。 接下来呢,再看看更考验攻城能力的后端,这个领域公认的强者呢,是 cloud。 所以呢,我们也不拿别的比了,就看看 deepsea 现在有了 cloud 的 集成功力 测试项目呢,是我们自己设计的一个带有多用户系统的计算器,任务的重点呢,在于实现后端管理系统。我们希望用户分为四类,最低级的游客呢,只能使用计算器的加减功能,升级会员可以解锁完整的存储功能, 获得管理员后可以查看其他用户。而超级管理员呢,可以任意分配权限,封禁账号,甚至呢篡改数学规则,比如让一加一等于十。我们把 deepseek v 四 pro、 cloud opus 四点七、 cloud sandbox 四点六接到了 open code 这个编程智能体框架上,让他们一次性完成这个复杂任务。 opus 和 sandbox 执行的过程都挺顺利,我没怎么管,就一口气把项目做完了。但 deepseek 呢,就遇到了点小问题,后面的对话呢,就全都进行不下去了, 这个在社区里也有相关讨论。然后 deepsea 呢,有时会在智能体里反复重启服务,动不动就卡住了,需要手动提示。相比 cloud 来说呢, deepsea 在 编程智能体的适配上还存在一些小毛病,用起来呢没那么省心。再来看看实现效果, 基础功能三个 ai 都实现了,有登录、注册界面、后台管理系统四个不同权限的用户,计算器呢,也能够正常使用。 界面上 opus 四点七更美观一些。其次呢是 deepsea 和 sunit 代码总量,三个项目都差不多,但工程架构上, opus 明显设计的更加全面,不仅做了自动化测试,还考虑到了病发、安全性之类的问题。 deepsea v 四 pro 的 水准呢,比 sunit 四点六稍强,但差距不大。 最近呢,我们还在做一个用 openclaw 进行 ai 黑客大战的项目,所以把 deepsea 也接进去比了一场。这个比赛呢,需要每个模型在修复自己服务器的同时,进攻其他服务器。 测试的这一场, oppo 四点六模型调用出了点问题,所以结果不算特别准确。不过 deepsea 拿下了总分第三,漏洞修复能力第二,证明他在系统安全这块呢,也能和顶尖模型摆摆手腕。这个项目后面呢,我们也会出一期完整视频。值得一提的是呢,在编程测试中, deepsea 展现出了一个特质,就是极高的投肯利用效率。 同样一个计算器项目, sony 的 四点六花了七万多 token, oppo 的 四点七呢,花了十万多 token, 而 deepsea 只花了六万多 token。 这还不算中间几次卡住重试的情况,在 ai 黑客大战当中,也是整场比赛修复量最少的,就是 deepsea 用最精准的修改完成了高质量功放。 综合所有测试,现在我们可以给 deep 四 v 四一个比较清晰的定位了,它没有让如今的 ai 能力有一个质的飞跃,而是朝着另一个方向发起了探索,就是如何在有限的成本下发挥出 ai 的 最大智能潜力。这个问题的背后呢,是当今 ai 领域最大的痛点。价格。 最近几个月呢,几乎所有模型都开始明里暗里的涨价,智普 api 涨价百分之十,阿里云算力涨价百分之三十四, 原本爽用的套餐不再给续费,原本的王牌模型开始降至。不过呢,这道不全是 ai 公司的锅,实在是地主家也没余粮了。这些疯狂燃烧经费的 token 呢,大多被投入了同一个地方。智能体年初爆火的 open cloud 呢,就是一种智能体。现在智能体已经成为了真正的生产力, 写代码、查资料都得找他们帮忙。但是智能体烧起 token 来,可比一般对话猛多了。有人追踪了五十个智能体任务,发现一个任务的平均 token 消耗量是普通对话的七十到二百三十倍。如果你让 openclaw 一 刻不停地运转,一天它甚至可以烧掉五千美元。 这个账单呢,提出了一个让人有点尴尬的问题,想要用智能体赚钱,得先给智能体烧钱。这就是 deepsea 要面对的困境。解决这个麻烦,要同时满足两点,首先呢,模型得够强,太弱的模型只会让智能体不断在同一个错误里循环,反而造成额外的开销。其次呢,模型不能太贵。 如今最强的模型 cloud opus 四点七,虽然能发挥智能体的最大能力,但是一个月花掉几百美元轻轻松松, 普通人呢,实在是玩不起。既要能力,又要效率,这咋搞呢? deepseek 的 解法就藏在 v 四的论文里,咱们一个一个来看。模型要变强,首先呢,要变大。根据预测啊,像 cloud opens、 gpt 这样的顶级闭源模型,参数规模呢,都在几万亿的级别, deepseek v 四要赶上规模呢,至少得比上代 deepseek v 三翻上一倍。但是模型一大,每层之间用来传递信号的残差连接就不够用了。 有人提议把单车道连接扩展成四车道,又会导致一开始的小信号在一层层传递之后水涨船高,把模型给训崩。 所以 deepsea 提出给这个四车道加一个限速器,让每层信号保持在一定规模,不会无限膨胀,这就是流行约束超连接。接下来呢,还要把模型的效率提上来。 大模型最吃算力的部分是注意力计算,这里每生成一个字,都得把之前的内容全读一遍,所以遇到百万上下文呢,就特别费劲。 deepsea 教了大模型两种新的阅读策略,一种呢,叫 csa, 根据目录把最精华的部分挑出来读。 另一种呢,叫 hca, 快 速扫一页全书,先把大致意思搞明白,用这两种方法读文章,计算量呢,只有上一代 v 三点二的百分之二十七,效率高多了, 这就是 v 四的混合注意力机制。当然,要把这么个庞大的模型训出来, deepsea 呢,还费了不少功夫在调餐上。这里最大的变化是用木偶优化器取代了原本的 i m w, 让训练过程更稳定了。最终呢, deepsea 把模型规模扩展到了一点六万亿, 每次推理却只需要激活四百九十亿不到总参数量的百分之三,甚至单个 token 的 计算量还比之前更低了,相当精打细算。不过,搞定了模型设计之后,还有一道更严峻的关卡横在 deepsea 面前,就是算力。 二零二二年十月起,美国的三轮半导体出口管制,第一轮干掉了 ae 百、 h 百这些最能打的训练芯片。 第二轮呢,堵死了阉割版的 h 八百和 a 八百。到了二五年四月,连最后的合规芯片 h 二零呢,也需要申请许可,英伟达为此直接损失了五十五亿美元。中国公司手里的英伟达芯片呢,基本上是用一张少一张,本土最有希望的替代者呢,是华为的升腾芯片,但有希望和能用之间呢,还隔着一段不小的距离。 二零二五年初呢, deepsea 确实尝试过用升腾九幺零 c 来训练下一代推理模型 r 二,但是呢,失败了。 训练架构的迁移比想象中更加困难,华为派了工程师团队来协助排查,依然没有解决问题。最终呢, deepsea 不 得不把模型训练搬回到英伟达的显卡上,换成其他任何一家公司呢。故事可能就这么结束了, 但是 deepsea 呢,一直没有放弃过。二零二五年八月 v 三点一发布的时候呢, deepsea 官方微信公众号悄悄置顶了一条留言, u e 八 m 零 f p 八是针对即将发布的下一代国产芯片设计。同时呢,他们还把底层算子库从业界主流的 triton 换成了国产开源框架,它要烂。 对 deepsea 来说呢,适配国产芯片从来不是一个选择,而是一条明知艰难却不得不走的路。据得 information 报道呢, deepsea 专门花了二零二六年整个一季度和华为韩五 g 联合公关,重写了 deepsea b 四模型。底层的部分模块 可不是简单的移植啊,是把华为芯片当第一优先级来设计。这是个相当恐怖的工作量,光是升腾 v l l m 上适配 v 四的代码就有十三万行之多。 deepsea 呢,甚至拒绝了给英伟达和 amd 提前适配 v 四的机会,把早期访问权给了华为。但是代价是什么呢? 这一年来, deepsea 的 研发进度被一次次拖慢,在智普、 mini max、 kimi 疯狂迭代的时候, deepsea 呢,只做了两次小规模更新,像原生多模态这样的重要功能也只能被暂时搁置。 更加致命的是呢,在 cloud 这样的模型被全世界开发者广泛使用,尽情搜集高质量数据的时候, deepsea 因为拿不到足够多的真实反馈,很难在后训练阶段发挥出真正实力。 不过呢, deepsea 顶住了这一切。在 v 四发布前夕,阿里字节腾讯采购了数十万颗升腾九五零 pr 用来部署 deepsea 模型芯片,价格因此上涨了百分之二十。 deepsea 主动用一年时间适配国产芯片,为整条国产算力供应链做了背书。在 v 四的价格表下,有一行小字预计下半年升腾九五零超节点批量上市后, v 四 pro 的 价格会大幅下调。 如果这句话成为现实, deepsea 将成为性价比最高的顶级模型,彻底解决价格难题。回看 deepsea v 四的论文,里边呢,有一些很有意思的细节, 比如吐槽 kimi 和 grm, 因为访问量太大,时不时没反应,所以有的基本测试项目就没测。它们俩还开诚布公地承认了和闭源模型的差距,甚至还把内部员工使用 deepsea v 四的比例写了上去。这一切呢,都透露着两个字,松弛。 这么一家做出世界顶级模型的公司,不打卡不到两百人,没有明确的绩效考核和待遇,大多数员工六七点下班,在同行一周工作八十小时的行业里,这种氛围呢,是非常反直觉的。但是呢,他们承载了比自身体量大得多的东西,在当下的 ai 竞争中,理想主义是奢侈的。然, 人们对 deepsea 寄予了厚望。也因此呢,很多人对这次 deepsea 的 更新表示失望,觉得呢,他们没有像上次一样做出石破天惊的创新,把海外 ai 全部干翻。但我觉得呢,如今的 deepsea b 四还只是半成品,它已经有了一个足够强大的基石,凑齐了芯片和数据的飞轮,完全体的 deepsea 还可以走得更远。 就像这个团队在发布公告底下写的那样,不幼于玉,不孔于匪,率道而行,端然正气,汝于 deep sea 的 路才刚刚开始。我是林毅,咱们下个视频见。

兄弟们,在刚刚过去的四月下旬, deepsea 突然官宣发布了新的 v 四系列大模型,并全面开源,直接成为了当下 ai 圈最火的热点。那这次迭代绝非享福的优化,而是实现范氏级的技术突破,彻底打破了开源大模型的能力与成本的壁垒。 那本次 v 四推出的 pro 旗舰版与 flash 轻量化的双版本呢?全系标配百万 tok 超长上下文是最核心的升级亮点。 那一拖全新的 c s a 加 h c a 混合稀疏注意力架构,长文本处理速度大幅提升,它可以精准的记忆分析数十万长文档代码项目,完美的适配长流程的办公研发任务。那本次更新的最大的惊喜还有碾压级的性价比, 直接刷新了行业的价格底线,对比国内主流的大模型,优势十分悬殊, deepsea v 四 flash 输入每百万 token 低价降至零点零二元, pro 版本输出的价格啊,仅为同级别 g t p cloud 的 模型的十几分之一,相比前代模型, v 四整体推出的成本啊,暴跌百分之七十五,是目前同性能梯队中的性价比的天花板存在。 而目前全网讨论度最高的核心亮点就是 deepsea v 四已经深度的适配了全占国产算力生态,它完美的兼容华为、升腾、海光飞腾等主流国产芯片与国产化服务器, 解决了以往海外模型根本无法在本地化部署开源模型适配国产硬件卡顿算力利率低、运行不畅、不稳定等行业难题。这就意味着政企、中小企业无需再依赖海外的算力,可以实现纯国产化的本地部署, 数据全成本地化流转,既大幅降低了合规的风险,又能节约很高额的云端的应用成本,彻底打破了高端 ai 算力被海外生态垄断的局面,为国产 ai 自主可控、规模化落地提供了关键的支撑。

deepsea v 四来了,这个版本的魔性能力毫无疑问更强了,但是相比起两年前, ai 用户的胃口显然也更具挑战了。在过去的这些时间里, jammin 把多肽带成了 ai 应用的主流,国内咱们的豆包也是多肽的一把好手,我还经常用 叉的 g p t。 虽然官停了 sora, 但是 in magisk 二点零身图模型的发布, openai 一下子就把自己拉回了第一梯队。而 deepseek 呢,在用户侧几乎没有让人感到诧异化,仅仅多了一个识图模式,把输入端口升级了一下,但是输出端口依然还是纯文本, 你能亲眼看到他背后的技术密度,也能感受到这家公司一贯的克制。但问题是,今天的 ai 竞争已经不再只是模型能力的竞争了。两年前,一个模型只要会写代码,会写文章,能解数学题,会进行相对复杂的推理,就足够让人惊叹。 那时候用户只要觉得这个 ai 能听懂自己的话就很兴奋了。但现在,这种震撼的预值已经被彻底提高了,用户更关心的是他能不能帮我直接完成一个任务,能不能从输入到输出形成一个完整的生产力壁环。 因为对于普通用户来说,模型能力本身是很难被感知的。参数、架构、推理效率、训练策略、上下文长度这些当然重要,但它们更像是发动机舱里的技术细节。 用户真正能感知的是我把东西丢进去,他能不能把结果完整的交还给我的那种体验。我猜测, deepsea 依然把自己定位成一家基础模型公司,他要做的是底层能力,是推理引擎,是更低成本、更高效率、更加泛化能力的 ai 技术设施。 至于做任务、做流程、做交互、做具体场景,市场上自然会有各种各样的 a 整和智能体来完成。这种分工逻辑在产业视脚下是成立的,基础模型公司负责提供大脑,智能体公司负责连接手脚。 听上去很合理,但是我还是会忍不住问,何必假手于人?真正的强者就应该迎家通吃。尤其是 ai 竞争这个阶段,模型能力和产品形态之间的边界非常模糊, 用户并不关心一个任务到底是由基础模型完成的,还是由某个 agent 完成的。我喜欢 deepseek, 不 只是模型能力,还有它的价值观, 克制扎实、重视效率、反感浮夸、尊重工程的逻辑。过去这些价值观体现在模型训练和推理成本上,体现在对开源社区的贡献上,也体现在他一次次用技术结果说话的方式上。 如果这些价值观还能进一步渗透到智能体的产品里,事情会很不一样。我担心的是,一些智能体产品的价值取向本身就很可疑,他们不是在帮助用户更好的完成任务,而是在诱导用户交出更多权限,沉淀更多数据,进入更封闭的生态, 没有降低负担,而是在制造新的依赖。所以,我反而希望 deepseek 不要只把自己放在基础模型这个位置上,不要把舞台让出去,把自己做模型时的技术审美、成本意识和长期主义带到智能体的方向上去, 他可能会做出一种完全不同于市场主流的产品,一种不作恶、不流俗的智能体风格,能成为 ai 时代的微信也未可知。 我相信 deepsea 团队当然知道这一点,他们不可能看不到多模态正在称为 ai 产品的基础设施,也不可能不知道用户已经从问答式 ai 迁移到了任务式 ai。 但也许这恰恰是 deepsea 值得尊敬的地方,但我仍然期待再一次感受那种 deepsea 时刻的震撼。 好了,以上就是今天的内容,如果你觉得还不错,关注我,一起在 ai 时代共同成长。

我最近写过华为,写过比亚迪,写过宁德时代。今天我想聊一家更年轻的中国公司,这家公司叫 deep seek。 我 个人认为,它过去三年完成的爬坡,是中国科技产业里非常值得认真记一笔的事情。 很多人对 deepsea 的 印象停留在二零二五年一月那一波出圈 r 一 发布, app store 登顶,纳指连锁大跌。但如果你只看那一刻,其实是严重低估了这家公司的分量。 为了写这一期,我把 deep seek 从二零二三年十一月第一个版本,到二零二六年四月最新的 v 四双旗舰所有官方公告 get up hugging face 模型卡而 side view 论文前前后后翻了一遍。 翻完之后,我有一个非常直接的感受, deep seek 不是 某一次暴冷出圈的偶然,而是一家中国公司用三年时间一步一个脚印爬出来的 老规矩,我们先把数字摆出来。 deepseek 最早公开发布的模型是二零二三年十一月的 deepseek l l m 六十七 b, 规格非常朴素,六十七 b 的 dance 参数四 k。 上下文,二 t tokens 训练数据。而二零二六年四月发布的 v 四 pro 是 这样的,一点六 t 的 总参数,四十九 b 的 激活参数 e m 上下文,超过三十二 t 的 训练 tokens。 我们做一个对比,总参数从六十七 b 涨到一点六 t, 翻了大约二十四倍。上下文,从四 k 涨到 e m, 翻了两百五十六倍, 训练数据从二 t 涨到三十二 t, 翻了超过十六倍。但是请你重点看激活参数那一行,从六十七 b 降到了四十九 b, 反而比第一代还要小一点儿。 什么意思呢?意思是用户每次跑这个模型,实际未进 gpu, 参与计算的参数只有四十九币。而第一代 deepsea 每跑一次推理,那六十七币整个都得激活一次。 把这两个数字放在一起,我得出一个很直接的结论,三年里, deepsea 模型容量扩张了二十四倍,但用户每次推理实际承担的计算成本反而比第一代还要略小一点儿。 这件事我必须说是非常了不起的工程成就,它比参数做到了一点六 t 本身重要十倍。下一集,我们从二零二四年五月那一天讲起, deepsea 真正找到自己方法论的那一天。

千呼万唤始出来, deep stack v 四终于来了,目前其模型权重已经开源并可以下载。二零二六年四月二十四日, deep stack 正式发布新一代大模型 deep stack v 四预览版, 这是继 r 一 之后时隔十五个月的重量级更新。 deep stack v 四 pro 和 deep stack v 四 flash。 deep stack v 四 pro 总参数一点六 t 几乎参数四十九 b, 而 deepsea v 四 flash 总餐数量两百八十四 b 几乎餐数量十三 b, 每次推力大约几乎为百分之三到百分之五的参数,两者均支持百万桃坑的上下纹长度。 deepsea v 四核心突破在于三项架构层面的系统级升级, 这三项技术分合是混合注意力机制、流行约束超链接和末尾优化器压缩吸收注意力与 共毒压缩注意力的混合注意力机制,类似人类的精读与略读,可以显著提升上下文的处理效率。同时, k v 缓存占用降至 deepsea v 三点二的百分之十。流行约束超链接将混合矩阵约束到双随机矩阵流行上 前轴,改善深度模型训练的不稳定性。模拟优化器将梯度矩阵投影到正交流形上,可以显著加速收敛,能够实现实际训练速度大幅提升。作为开源模型, v 四的评估结果非常的亮眼,与全球前沿模型相比,在知识与推理、 长上下文的智能体能力三个维度上均达到顶尖水平,确实称得上是国产之光。 v 四发布当天呢,晚通科技、浙树文化等概念股涨停,华丰科技、华杰特涨幅超过百分之十以上就是 deepsea v 四的核心内容,关注我不迷路!

大家好, dbc 终于发布了这个 v 四版本,那我们来看一下这个 v 四版本到底有什么内容。那么这一次呢,发布了两个型号,一个是 pro 吧,一个是 flash, 那 flash 就是 快速模式, pro 就是 专家模式,那两个型号都是有一兆的,这个上下文也就是一百万,那么这是一个非常大的一个上下文了, 这边也提到了一个 a 级的能力啊,比前面都有非常大的提升,特别是编码这个评评测里面,已经达到了目前开源的最佳水平,并且呢, deepsea 公司内部已经开始使用这个 v 四来作为一个编码的一个工具了,然后体验是比双 ice 四点五 要更好,但是这边也很诚实的说出,就说仍然是跟 oppo 四点六思考模式下有一定的差距的,那么这个是很少有,就是很诚实说出自己的差距,好在哪,不好在哪,我觉得这个是非常不错的。那这边也列出了一些参数啊,我们来跟现在的这个 kimi k 二点六和这个智普的五点一,我们来对比一下它的这些参数,特别是在编程这个层面, 比如说这个啊, sweetbench 里面,目前可以看到 deepsea v 四 pro 是 在这么多款模型里面是排在最后的,那么在多语言这个排行榜里面,那这个指数也是排在这个倒数第二位,也不是算太高。所以呢,从这些参数对比上来看的话, deepsea v 四 pro 应该不算是说最好的,但是也不会太差。那这边还特别强调了啊, deepsea v 四对 color code, open color 和 open code 的 这些编程工具啊,都做了一些适配和优化,那目前在成本上啊, deepsea pro 的 话,输入是一元啊,为 那缓算未面中的是十二元,那这个成本其实也不算太高,但也不低啊,那 flash 这个型号的话,那啊这个成本就非常低,那特别要强调这边说了一句话啊,就是目前 pro 的 这个服务吞吐量十分有限, 那么在下半年的时候,申腾九五零上市之后,这个 pro 的 价格会大幅下降,其实这句话其实也说明就是 deepsea v 四为什么这么迟没发版,所以说是非常非常不错的一个 勤俭的一个方向,所以说下半年之后他应该会大幅的去调价格。 ok, 那 我们就试一下这个 v 四和 kimi k 二六以及智普的 gm 五点一在编程来做一个对比的测试,看一下到底是什么样的情况。那我们这次测试呢 啊,是要做一个稍微复杂点的企业官网的 cms 系统,那这个系统的话是可以在后台去设置企业的模块,那么这 设置完之后可以在企业里官网去预览这样的效果。那么我这边也是用 ai 做了一个这样的 mvp 版的这个产品 pid, 那 么有详细的这个需求描述以及页面的描述,功能描述和模块的描述,那整个产品的话模块数量有十个,然后我们测试的目标是总共花一到两个小时时间开发加调试, 那希望这个系统的完成度在百分之七十以上,也就说允许它是一个不完整的系统,但是大部分功能都要完成。那测试工具呢? dsp v 四 pro 使用的是酷狗酷,那 kimi 的 话使用的是 kimi c i 那字谱的五点一也使用的 clock code, 那 这个所有的这个工具啊,都使用了 agent skills 这个工作流,那完成 spike 到开发实施的这个完整的过程,那 agent skills 这个工作流的话是包含了啊,生成规格文档、 spike 以及生成具体的计划,然后去执行 编码,然后的话去进行验证,然后去进行 view 和发布。那我们这一次主要用的是前面四个阶段,也就是 spike 计划,也就说是规格计划执行和测试。那 deepsea 这边的话是,呃整个过程全部完成了,然后它也进行了很多这样的一拖一的测试啊。因为在我们的这个 p r d 文档和生成的规格文档里面是要求它进行一个端到端的测试,所以这边的话是测试的比较多, 这样的时间花了比较多时间去做这样测试啊。然后,呃,因为这个测试也发现一些问题,他自己也修复了,那最后呢?这边任务全部完成,然后测试也全部通过,然后也发现了一些问题啊,让他来去修复,那前面这边都是在修复问题,直接描述告诉他,然后也是一次过, 然后它这边修复完之后也会自动去进行一个啊端到端的测试。首先我们来看下这是这是 kimi k 二点六跑出来的效果啊,我们登录一下,那这边是这个是有真实的这个后台数据的 登录,然后这边的话是可以选择模板,这句话是可以选择模板,比如说选择这个模板,然后就可以去配置信息,比如说这个乱乱写的这些信息都是乱写,都是可以保存的,那页面的话,这边显示这么多页面, 那你也可以关闭这些页面的展示,然后我们可以先预览一下什么样子,你看这个就是他做出来的一个官网公司介绍,我这个每一个页面都有对应的这个信息的维护啊,比如说我们现在去维护一个这样的一个案例,那么我们可以在这边可以看到案例, 然后的话你是可以去新增一个介绍,这边还有一个副本,然后保存, 那么我们在我们这个官网里面就能看到案例啊,这边是有张老板这个案例,那么首页这边也是可以去维护的,专门有一个首页的一个模块管理,比如这个八条,那这边我是已经编辑好了的。 然后的话还有这个企业简介,也就是针对的是这个首页的这块的描述,还有什么公司介绍呀?那这边也会是有这个去编辑去去做管理,也就整个是一个一个 cms 化的,可以做出比较通用的这种企业官网。 这功功能还是有七八个、十十来个功能嘛。好,这个是 deepsea v 四 pro 生成的,界面还是非常干净清爽的。然后这边的话是主要的功能控制台,然后的话模板选择,我们这边先随便选一个站点设置,然后我们改一下测试公司, 然后的话是 logo 图,我们就随便选一个吧。 ok, 然后这边还有这些信息随便填, 就是基本上所有的提交功能都是真实的访问到数据库的,所以说是没有问题的。保存模板的话,我们可以随便选一个模板切换模板,然后我们可以在这边可以做进预览,这个就是他的一个做出来的一个效果,他这边做出来的预览的效果,然后我们继续可以去编辑页面,比如说这个页面的管理首页, 然后顶部横幅,那这边的话是很好的去完成了,可以去设置这样的图片啊,就他是什么呢?他是第一轮需求就已经完成我们要叠带的功能,所以说这个方面是表现非常不错的。 然后的话还有一个就是他可以去编辑任何功能都可以去编辑,然后去新增也好,去更换也好, 然后这边的话它还有一个非常不错,就是说所有的信息都有一个草稿的状态,然后这其他两个模型是没有考虑到的,在我的 p r d 里面也是没有提到的,它相当于是自己发挥了一个这样的一个功能,一个草稿的状态。 然后的话整个预览也是很正常的,就是你可以看到不同的信息,但是这个东西点不了详情页,那么在智普五点一他就做到了,就是能够去查看这样详情页,说明这个他会考虑的更多一些。就智普这个比这个 double c 又稍微考虑多了一点点, 但是也也是,但是他但是他是花了一次迭代之后,但是呢他但是呢他比一四会多花了一次迭代,那其他功能都是正常的。那我们再看一下智普五点一生成的这个 cms 后台系统,我们也是一样也输入账号密码才能登录 好。 ok, 那 这边的话我们看一下有什么功能。仪表盘好,它这边有一个仪表盘,它还有个快捷键,就是从这个体验上比这个提米调点就生成效果好一些。站点设置,然后我们随便传一个公司 logo, 随便点, ok, 保存好,然后呢我们再看一下这个页面管理首页, 哦,他这个也是可以去做这个轮播图,我们也加个轮播图吧,然后的话他这个轮播图他还有一个这样的一个效果,就是可以去跳转链接,然后我们来预览一下, ok, 然后他这是有一个滚动的 ok, 然后这边的话有其他的信息,那么他这个页面管理做的是非常不错,比如关于我们这个页面,他会有很多信息快按快的。 那我们在预览的时候,比如关于我们他是有很多这样的模块,那么在模块里面就可以在这里面去填充内容,那比如说产品服务,那我们可以找到产品服务这个页面,产品服务他这边包含了固定的信息,比如说图片啊,然后他也是可以去选择已经添加的产品列表,比如这里面这个就是已经添加的产品列表, 就他这个做的更完善一些,比这个 k 二点六做的更完善一些。比如说我们先保存起来,我们再去这个产品服务这里面去看, 那么就能可以看到很多这样的信息,那么你也可以在这边设置一个 bug 条 bug 图,那么总的来看的话就是,呃,整个任务数上 就不一样,就是 dp 个 v 四,它通过 agent skills 生成任务只有十七个,这个让我有点奇怪啊,我怀疑是它在使用这个技能上,好像是有,是不是有点问题,不然不会相差这么大的,或者说理解我们的 p r d 上,但是它完成又功能都完成了,这个是让我一直到现在还没有想明白是怎么回事儿。 然后前端 ui 的 话,比这个 kimi 和这个智普,我们在没有任何前端技术的情况下会稍微长一点点,那花的时间也也不算短,一小时三十分钟左右。那这个是在自动化测试这里花了比较多时间,它因为它 经过了三轮自己的测试,然后修复了好几个问题。那 bug 数就是我自己自测的 bug 数大概有个六七个左右。那迭代的话,它是没有迭代,因为我们迭代的功能商,它做首页的那个 bug 管理它,它第一晚就做出来了,所以这个非常不错。 然后 kimi 这边的话和智浦这边都是三十三个。然后完成度的话, kimi 这边功能完成度稍微差一点。那其他的都是啊,它的主要是它的速度非常快,因为我们可能是用的是 kimi c i 的 这个原因啊,它完成速度非常快,第一版 那总共完成时间也是非常非常快的啊。最后我们来总结一下,从这个结果上看啊,就 dbc 个 v 四啊,用较小的任务数完成了其他两款模型一样的效果啊,一个是十七个任务,一个是三十三个任务,但是不知道为什么会这样, 那整个页面的交互和完成度也是非常高,包括前端的展现,还有他自己考虑的草稿什么的,所以说我觉得是非常不错的。 然后他的表现,就整体的表现来看,我觉得他是介于这个智普的五点一和 kimi 的 k 二点六之中间,可能他的三者在不同的任务上可能会有他面临一个幅度的调整,但是我觉得这两个三款模型差距不会太大,差距不会太大, 但是呢 deepsea 微四目前没有看到这种图片识别视觉的这个能力啊,那另外两个模型都是具备了这样的能力,这也是一个,这是一个差距。 而且呢还有呢就是 deepsea 目前调用的成本是过高的,那我们可以看一下,我完成这个任务大概消耗了三十二元,大概消耗了三十二元, 然后的话 token 目前这个调用成本跟同类的其他的模型暂时是没有优势的, 所以要等下半年他换了这个深腾的芯片之后可能会更好一些。 deepsea 线可能会引入这个外部的投资,那更加的上下化一些,那么他的模型的发版速度也是会非常快的,所以说是非常值得期待的他的下一个版。 ok, 本期视频就到这,希望这个视频对你有所帮助。

四百五十九天, open ai 更新了十几个版本, osropack 把 cloud 迭代到了四点七。这一年,所有人都在等 deepsea 的 消息, 等着等着,他就从所有人的视野里消失了。但消失并不代表着倒下,他只是在大一场没人见过的账。 先说你肯定已经知道的是,二零二五年一月, deepsea 用 r 一 这个模型让美股科技股当天暴跌,让全球工程师半夜狂刷论文,让所有人第一次问了一句,中国 ai 是 不是真的已经追上来了? 可是在那之后戛然而止。四百五十九天,官方没有发布任何重量级新模型, 这家公司到底经历了什么?为什么这么慢?是三件事撞在了一起。第一,换芯片。美国芯片封锁越来越严,英伟达的顶级芯片拿不到了。 deepsea 被迫把整套训练框架从英伟达迁移到华为升腾。这不是换个零件,是把整辆车的发动机全部换掉,然后重新学怎么开,怎么造。就在适配的过程中。据内部知情人士透露, deepsea 遭遇了一次较为严重的训练失败,训练方向内部也有争议,这一耽搁就是几个月。第二,规模翻倍,风险也翻倍, v 三用了十四点八万亿个跳杆训练, v 四直接升到了三十三万亿。 数据越大,训练越容易出现数值爆炸,某个参数突然失控,把整个训练拉崩。 deepsea 研究出了两套方法才把这个问题压住,但底层激励到现在还没人能完全搞清楚。第三,人走了, r e 的 核心作者被字节挖走了, deepsea 大 语言模型的核心作者去了腾讯,训练更大模型需要更多资金,融资窗口今年四月才刚刚打开, 而一之后,全世界都在盯着他们,每次更新都有人拿放大镜去看,每次出错都会被反复讨论。换芯片、训练崩了,核心人员被挖走,钱也不够, 四个问题压过来,还不能随便发一个将旧版本出来交差,这个处境比大多数人想象的要难的多。说完为什么慢?说说他带来了什么?给你三个数字。第一个数字,一百万。 从微四发布起,一百万 token 上下文是 tips 所有服务的默认配置。一年前,这是 gmail 的 独家武器,但光说支持一百万上下文还不够,更关键的是,他是怎么做到的?代价又是什么?论文给了一个数字, 在出力一百万 token 的 场景下,只需要上代 v 三点二,百分之二十七的计算量,百分之十的缓存。 deepsea 一 直是性价比的代名词,但这次不一样,百万上下文计算成本还不到上一代的三分之一 便宜,是因为真的做到了更高效,而且开源你可以下载,可以自己跑。 第二个数字,九分之一。 v 四 pro 的 api 定价是 gpt 五点五的大约九分之一,顶级模型的能力,九分之一的价格顺带一体, v 四发布当天, openai 同一天发布了 gpt 五点五, 两家同日放。 deepsea 选择这个时间点,就是要在同一个新闻周期里,让所有人同时看到这个价格对比。 第三个数字,二十三, v 四在全球顶尖竞技编程平台 code forces 上,评分达到了三千两百零六分,这个分数大约等于全球人类参赛者里排名第二十三位。 tips, 内部的测评也显示, v 四的编程体验已经超过了 cloudson。 四点五,代码交付质量正在逼近 opus 四点六, 在没有英伟大顶级芯片的情况下,训练崩过,人也走了一批,用了四百五十九天,做出了一个一点六万亿参数的模型,开源给全世界用。威斯发布稿的最后, deepsea 引用了一句寻死的话,不幼于欲, 不恐于匪,率道而行,端然正脊,不被夸声诱惑,不被骂声动摇镇定,路就坚定的走下去。其实回头看, 这条路或许在 r 一 开元那一刻就已经定了。开元给全世界用,就意味着全世界都在盯着你,每一步都不能将就,慢或许是必然的代价,可故事应该还没结束。