这几天一直在用那个 cloud code, 我 要报个大卦,所有用 cloud code, 正在用 cloud code, socket 包括 os 的 大家一定要发散一下,一定要把这个视频转出去。 这几天我用了所有的中转 a p i, 都声称自己是 socket 四点六,结果我用代码返回的方式,发现他们的知识点 全部是二零二五年四月份的。大家可以去看 astonropik 的 官方文档, solit 四点六的是到二零二五年八月的,二零二五年四月的知识库是 solit 四, 不是四点六,但是所有的中转的 api 全部给我按的 solit 四点六在收费。 solit 四点六大家知道是比 solit 四的价格远远要高的,所以说大家把这个视频 转出去,一定要让这些奸商不能多赚钱。如果你们有谁现在知识库返回是二零二五年八月份的,可以推荐给我,二零二五年八月份的才是真正的四点六。
粉丝5982获赞2497

给大家分享一个可以使用世界顶尖大模型的 ai 建网网站,可以使用满血 g p 五点二,谷歌最新的 java 三点一 pro, ai 香蕉绘画模型纳豆布纳豆 pro 编程最强的最新的科罗德收音四点六,我们点击立即使用,可以看到我们有改变网络环境就直达了 offi 官网。 左侧是可以切换模型的地方,支持 open n i 最新旗舰模型 g p e 五点二,思考更充分,回答更优质的五点二, thinking 二百美金一个月才能使用的 g p e 五点二 pro, 谷歌最新发布的旗舰模型 java 三点一 pro, 还有时下最火的 ai 绘画模型纳登五,纳登 pro, open n i 专为编程打造的 codex 编程最强的克罗地斯四点六,还有马斯克最新发布的格鲁格四点二,中间是可以输入提示的部分, 支持深度研究代理模式、学艺模式、网页搜索画布左侧是一个历史画部分,保留历史画记录,支持上百种 g p t s 插件,还可以新建自己的 g p t, 进行一个文件和代码库的附用。我们切换 g p 五点二,我是 g p 五架构的大型语言模型, 用过 open i 官网二十美到一个月的 plus 会员,小伙伴非常清楚这是一个满血的 g p 五点二,有兴趣的小伙伴可以使用这个 ai 建站来使用 open i 旗舰模型 g p 五点二, 谷歌最新的专利三点一 pro 画图的纳德沃尔 pro 编程的克劳德收听四点六,让全世界最强的人工智能为你打工。我们再通过 g p 五点二查一下最新的美元汇率,截至二零二六年二月二十四号,就是录制视频的这个时间,美元汇率是六点九四一四, 我们再切换编程最强的克劳德收听四点六,解决一个经典的华尔的算法题。克劳德收听四点六,给出了问题分析, 数据结构,算法带有详细中文注字的加减代码,详细的测试用力以及测试说明。我们再切换 java 三点一 pro。 java 三点一 pro 是 大家公认的写作最强大模型, 我们通过 java 三点一 pro 来完成一个高考作文题。苦难大地上升腾的民族魂。有兴趣的小伙伴可以暂停读一下 java 三点一 pro 写的文章,感受一下 java 三点一 pro 强大写作能力。我们再上传三个复杂的 pdf 技术文件,分别总结文件内容,三千字中文。第一个文件是元素矩阵不全。第 第二个文件 ai 写论文,提字词,指明大权。第三个文件 g m 基础。我们再根据第三个文件总结一份学术论文大纲啊。论文题目引言。我们再对每一个小节进行一个详细的描述, 这也是大家大家通过 ai 快 速写论文的过程。我们再切换 ai 渲染模型, nasubota pro, 就是 大家常说的相交渲染模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣的小伙伴可以使用这个 ai 矩阵模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣小伙伴可以使用这个 ai 矩阵模型。 g b 五点二, 谷歌最新的 dream 三点一 pro 画图的纳德沃纳尔 pro, 编程的克罗地斯四点六,让全世界最强的人工智能为你打工!

看过我视频的粉丝都知道我是 cc 的无脑吹捧者,并且我给 codex 和 gbt 的评价一直不是很高,但是呢,之前出的两期大模型套餐和 whatcoding 工具的视频里面,评论区都在说 codex 才是真的行, 今天我就以两个实际的案例,也是我自己高频会使用到的两个场景来做个对比,并且给出我的判断和理解。首先环境的准备,模型方面,因为我没有 gbt pro 那一档的会员,所以说这边就用两家第二档的模型,分别是 cloud 的 sonit 四点六和 open ai 的 gbt 五点四, agent 的话就是对应的 cloud code 和 codex, 然后我还给两个 agent 分别提供了两个对应的干净的文件夹,一个 cloud code, 一个 codex。 那接下来我们就进入第一个案例,生成 remotion 视频的封面图片。这边我们分别将问题扔给 cloud code 和 codex, 并且在指令里面非常明确的规定了他们不能使用任何的 skill。 可以看到这边 c c 和 codex 已经跑完了啊,那我们来看一下效果,这个是我们原本视频第一个场景的一个封面的一个布局,我们先看一下 c c 的, 首先十六比九的啊,整体的布局还是比较规整的,只不过里面些图片可能现在已经啊不在原本的位置了,所以说没显示出来啊,包括左上角跟右上角,还原度还是比较高的。我们再看一下九比十六的 啊,九比十六的话相对而言也还行啊,对吧,因为确实没用到 skill 啊,那像有一些 canadvas 的 skill 啊,那比较适合做这种封面,那我这边也明确跟他说不用 skill 了,所以说做出来的封面效果啊啊,只能说相对还可以啊。再来看一下 code, 呃,可以看到 codex 就比较抽象了,但整个的布局啊,就已经全都乱掉了啊,不光是这种一个重叠啊,包括像这种最基础的文本要在这个框里面 啊,也是比较奇怪的啊,并且最奇怪的是他下面会一段这个啊,参考 remotion 项目视觉风格的生成就是。呃,我感觉他是没有理解我的这一段话的意思啊,就是我是让他去帮我基于这个 remotion 的代码去生成视频的封面的啊,并不是说让他还需要记录一下我做的这件事情。 我们再看一下他这个九比十六啊,九比十六相对而言啊,会比十六比九好一点啊,包括啊,九比十六下面还出来什么奶油底加网格加噪点加成,黑杂质风。这个就是啊,在我看来就是完全不可用的,完全到不了 讲那种生产级别的一个呃的程度的。哇,这个就是第一个案例,那如果说第一个案例是比较有明确目的的,那第二个案例的话就是比较开放的,我这边让 cc 和 codex 分别帮我去制作一个像素风格的第一人称 fps 游戏, 两边的话考虑的都是比较全面的,像 cd 这边啊,有光线投射技术,包括射击系统里面会包含枪口的火焰特效啊,准心命中的一个检测 啊,包括也有对应的音效跟受伤的反馈。那 codex 这边的话也会有啊,敌人的这样一个机制,包括啊,弹药和医疗包的拾取啊,这边考虑的会比啊 cc 再多一点 啊,然后包括还有开始胜利失败的一个结束的界面啊,我们再来看一下啊,进到游戏内部的一个整体效果,还是先看 c c 的啊,我们 点击这个 hm 页面进去啊,我们点击开始可以听到这个时候是敌人接近,包括我们开枪是有声音的,是有音效的, 包括这个敌人在,哎,他打我的时候好像我也会掉血,哦不是,你看可以看到左下角,我这边是会掉血, 然后这个敌人会不停的去靠近,然后整体还是比较优秀的啊,当然他视角现在是比较固定的啊,不能上下,只能左右可以看到他的这些啊,也不会出现穿模的一个情况,包括这个,呃,墙壁也是跟地面也不会出现 分层的一个情况,哎,我七个。这边 ok 啊,这个是 c c 的一个,呃,游戏的一个效果,那接下来我们再看一下 collax 啊,还是双击这个 index h 前面啊,这边他会有个说明啊,用 wasd 移动,然后鼠标瞄准,点击射击啊,鼠标转向啊, shift 还可以冲刺,点击开火,我们来试一下呦, ok, 可以看到哇,他这个像素松 哦,整个人有点难受哎,我枪呢? 啊这这哦,这个是枪,那我如果去被打一下,哎。这还有血包,这什么这什么意思? 这什么意思?呃, codex, ok, 这个就打赢了啊,但是他这个整体的画风感觉有点啊,有点过于像素了,就是 包括中间这些是有些,呃,前端还是需要一些优化的,哎哎 哎,我怎么倒了呀,哎,我枪呢? ok, 那看完了前两个视频,不知道大家是觉得 c c 强还是 codex 强 啊?其实我觉得通过案例能够很明显的感受出两个 agent 的架构是不太一样的。那这个其实就是最近很火的一个概念,叫哈奈斯。 那对比这两家的话,就是两个极端, sopic 的 cold code, 他们崇尚的就是把哈奈斯做强做厚啊,他们认为只要框架足够健壮就能够撑得起复杂的任务。 那 codex 的话就是相反,他们觉得 honest 不应该无限的膨胀,应该做薄做轻,把能力回归模型,让模型来替代部分的 honest 的一些能力。所以为什么这边两家我会更推荐大家用 扣的,因为他的整个的框架搭的是非常的健壮啊,当然他的 token 的使用量也会相对偏高,但是他能够撑得起复杂的任务,稳定性非常的强。但反观 codex 的话,他因为是把能力更多的交给模型,那大部分人都是用不到 gbt 五点四 pro 那一档的模型呢?因为太贵了。 那如果只是 gpt 五点四的话,他本身的一个模型能力就并不是非常的强,然后又将整个呃就 aj 的一个就工作的编排全部交给模型自己来做判断的话,那稳定性会大打折扣。 ok, 那以上就是关于本期克拉扣的和 codex 对比的一个视频分享,希望能够帮助到大家。我是布鲁,我们下期视频再见。

大家新年好啊, prada 公司发布了这个 saw 的 新的版本, saw 的 四点六从四点五升级到四点六,那这个版本呢,用一句话来介绍就是 office 的 智力 saw 的 价格。那本期视频呢,来跟大家一起来详细的了解一下这个版本的一些说明。 saw 的 四点六从六个方面啊进行了升级。第一个呢就是编程能力 啊,编程能力比这个 saw 的 四点力提升了一小部分,还有电脑操控能力,因为他自己有这个 a 级的客户端嘛, co work, 然后对电脑的操控也得到了很大的提升, 还长文的推理以及这个设计能力啊,规划能力,这些能力都是得到了很大提升。那么在价格上跟 solo 四点五是保持一致的,这个输入和输出价格是跟 solo 四点五是保持一致的。 那么它上下文的窗口呢,来到了一百万张通红的上下文,所以这个已经是非常厉害了。那现在模型基本上是冲这个目标 说这个一百万的客户这个目标去来做这次版本迭代。那电脑操控呢?这个可能我们编程用的比较少啊,那么他自己推出这个 coco 客户端呢,是大量的用到了这个电脑操控的这个能力,所以说他已经成为了 coco 啊,一些内 cloud 的 一些工具的一个默认的啊模型。那编程能力呢?那所有的四点六哪些做的好呢?这里面有 有几部分呢?比比如说第一个他会先读懂全部的上下文,再去手动改改吗?那这个是非常重要的,这个类似于就说我啊上来的四点六,收到需求之后,他会先去阅读理解你的上下文,然后以便做出更准确的判断啊, 再去写这个代码。那么以前的这个可能是会读的是上下文的一部分,或者是最新的这个知识点,代码准确率可能是没有现在的更好一些。还有这个比较减少假装完成的幻觉。那这个可能我们在用 call 的 模式经常碰到啊,他告诉你说这个东西已经完美的实现了, 完美的完成了啊,已经可以上线了,那么很多其实内部细节上是有没有处理完的,那算那个四点六呢?在这方面就是会减少这个假装完成的幻觉啊,这个我觉得非常重要。还有一点就是多步骤任务持续进行到底, 那么因为有了更大的上看文,那么他就可以执行更长的任务,所以说这个任务中断,让你去去输入继续,或者说让你去 改变这样的提示词,那这一块我觉得是一个非常好的提升。那接下来就是一百万靠谱的上下文,那这个是可以把整个一个非常大的一个项目全部代码都扔到里面去,它也可以去读取啊,去阅读啊,它就是一百万靠谱这个实际的容量。

经常有人在后台问我,你用什么模型,怎么节省 taco? 或者怎么能买到便宜的 taco? 那 我今天回答这三个问题。第一个是我平时用什么模型,我主要是用四点六、 sony 四点六 这个模型基本上可以应付我大部分的工作场景,从我的经验来看,这一个模型就够了。如果你有更高的要求,比如你重新写一个软件的时候,你要对这个软件进行架构规划,这个时候你可以用欧普斯四点六。 我的经验来看就是新手不需要考虑怎么节省掏坑,因为新手期都是在摸索和探索当中,这个时候你就是需要大量消耗的掏坑, 这样你才能积攒经验,等经验积攒下来之后,你自然而然就会节省掏坑了,那个时候你的指令会更加精准,这样就能避免浪费掏坑。那还有就是怎么能买到便宜的掏坑。我推荐大家一个网站, 这个网站里有非常多 a p i 的 中转站,而且每个网站价格都不同,像便宜的桑内特四点六模型才八块钱一百万。 top 已经非常便宜了,基本上实现了代码自由。如果你要是有生图需求的话,像香蕉二模型 也才不到一毛一张。我这个视频估计要把卖 top 的 得罪了,以后没人再去网上买 top 了。

大家好,今天我们来聊聊 anarchic 新发布的模型 cloud sony 四点六。 sony 四点六模型这次更新覆盖了六个关键领域,编码、计算机使用、常上下文推理、代理规划、知识工作和设计。先说说编码能力。 根据安卓 app 的 官方数据,早期体验的开发者中有百分之七十的人更喜欢 sony 四点六,甚至有百分之五十九的用户认为它比去年十一月发布的旗舰模型 opus 四点五还要好用。 为什么会这样?因为 sony 四点六在代码理解、逻辑整合和指令遵循方面都有了显著提升。 他不再像以前那样过度工程化,也更少出现懒惰行为,比如随便应付几句就说完成了。兴奋的是计算机使用能力。想象一下, ai 可以 像人类一样使用电脑、打开浏览器、操作 excel、 填写表单,甚至在多个标签页之间切换工作。 在 osword 精准测试中,撒内四点六的表现稳不提升。早期用户反馈说,它在导航复杂电子表格或填写多步骤网络表单时已经达到了人类级别的能力。当然,它还赶不上最熟练的人类专家,但这个进步速度已经非常惊人了。 第三个亮点是一百万 token 的 上下文窗口。这是什么概念?简单来说,它可以一次性处理整个代码库涌长的商业合同,或者几十篇研究论文。 更重要的是, sony 四点六能在这么大的上下文中进行有效推理,这使得他在长期规划任务中表现出色。 在 vending bench arena 评估中, sony 四点六展现了惊人的商业策略能力。他在模拟的前十个月大量投资产物,然后在最后阶段果断转向盈利能力,最终成绩远超其他 ai 模型。这种长周期的战略规划能力,标志着 ai 在 复杂任务处理上的重大突破。 除了核心能力, sony 四点六还带来了一些实用的产品更新。在开发者平台上,它支持自适应思维和扩展思维。还有一个测试版的上下文压缩功能,可以自动总结就上下文,增加有效上下文长度。 在 api 方面, cloud 的 网络搜索和获取工具现在会自动编辑和执行代码来过滤和处理搜索结果,既提高了响应质量,又节省了 toc。 对于 excel 用户, cloud 的 加载项现在支持 m c p 连接器,可以与标普、全球、伦敦证券交易所集团等专业工具集成,让你在 excel 内直接获取外部上下文。那么, sony 四点六的发布对我们意味着什么? 首先,它打破了 ai 能力与成本的平衡点,以前需要旗舰模型才能完成的任务,现在用 sony 级别的价格就能搞定。 ai 的 普绘画进程正在加速,作为 ai 时代的参与者,我们应该保持开放的心态,积极探索这些新工具如何帮助我们提高工作效率,拓展创造力。 好了,今天的分享就到这里,如果你对科二三的四点六还有什么疑问,欢迎在评论区留言,我们下期再见!

antropic 重磅发布 cloud sonnet 四六大模型,主打电脑操控,自动化快,浏览器,多步骤复杂办公任务一键完成,办公效率直接提升十倍,定价仅为旗舰模型五分之一,性价比拉满。 这款模型被职场人称为摸鱼神器,效率救星。无需编程,基础语音指令即可操作,电脑自动整理表格、转写报告、发送邮件、解锁数据,彻底解放双手。二零二六年打工人必备 ai 工具。 logon 四点六核心能力颠覆传统办公模式,它能像人一样操作鼠标键盘,打开软件,浏览网页、复制粘贴数据、计算格式,排版全自动化, 支持 excel 函数自动生成 ppt, 一 键排版 word 文档就对邮件批量发送,货架报表一分钟搞定,原本一小时工作,现在五分钟完成。模型逻辑理解能力极强, 模糊指令也能精准执行。比如整理上月销售数据,生成柱状图发送给领导,全程无需干预,自动完成全流程。同时支持多任务并行,一边整理数据一边生成报告,效率翻倍。 相比 gdp, 五点二飘三奈斯六更聚焦办公场景,轻量化、低延迟、低成本, 无需高端显卡,普通笔记本即可流畅运行。本地部署保证数据安全,公司机密不泄露。支持主流办公软件,适配 word、 excel、 ppt、 wps、 钉钉企业微信全覆盖,兼容 windows、 mac os 双系统。个人版月费仅几十元,企业版按账号计费,中小企业也能轻松负担,真正实现 ai 普惠办公。 实测显示,使用 cloudsonnet 四点六后,职场人日均加班时间减少百分之六十,工作出错率降低百分之八十, ai 办公时代全面到来,工具替代重复,劳动人专注创意与决策。 cloudsonnet 四点六的上线,标志着 ai 从辅助工具变成办公搭档,文秘、行政、财务、运营、电商等岗位效率大幅提升。 对于打工人,学会使用 ai 工具是核心竞争力。对于企业, ai 赋能,降本增效,抢占市场先机。 未来,不会用 ai 办公的人将被淘汰,就像当年不会用电脑的人一样。现在入手 cosamax 六,提前拥抱高效办公,告别九九六,轻松搞定工作。

好的,随着 sony 四点六版本的发布, antropic 还推出了一些非常有趣且重要的开发者工具,但目前还没有人讨论这些工具。这些工具不仅能帮你省钱,还能提升你的智能体的性能。我特别想说的是,编程式工具调用 这个功能其实已经上线有一段时间了,其核心思想是,与其让你的智能体试图把所有内容都加载到上下文窗口中,不如直接通过编辑代码针对特定工具进行调用。通过这种操作方式, 你不仅能够大幅度的节省掉智能体所消耗的 tokens, 而且还能显著的提高调用的准确性。 ansaurus 最近在工程方面做了一些非常非常有趣的工作,而且他们也是少数会公开讨论自己创新成果的公司之一,这真的非常酷。那么问题来了,为什么这种方式比你为智能体提供的 jason 结构进行工具调用效果更好? 其实这些智能体或者说大语言模型是专门用代码进行训练的,他们并不是为了工具调用而训练的,而编辑代码对他们来说是非常自然的事情。那么问题来了,为什么我们甚至要关注这件事呢? 我认为 entropy 在 发布某些工具或技术时,业界其他公司往往会跟进采用,这在引入 m c p s。 也就是模型上下文协议时就发生过。 现在每家公司都在开发自己的 m c p s。 我 们在智能体技能方面也看到了非常类似的趋势, 几乎所有的编程智能体现在都在引入或支持智能体技能。我们唯一见过的另一次前沿实验室推出的东西被广泛采用,可能就是 open ai 的 聊天补全 api。 好, 那么把事情放到具体的背景下来看, 那么我们为什么需要程序化工具调用呢?为了解释这一点,我们需要看看每一家智能体公司都在努力解决的上下文窗口问题,而且随着像 mcp 这样的协议的引入,这个问题变得更加严重。现在通常会发生这样的情况, 假设你连接了一个 m c p, 它会有不同的工具,所有这些工具的定义都会被加载到你的大圆模型的上下文中。在与用户交互的过程中,用户会发起两次调用, 每次工具调用的输入、输出以及随后的两次调用也都会被放入上下文窗口中。你还会有系统提示 以及实际用户消息和回复中的用户记忆。因此你会发现,大部分的上下文窗口都会被一些你本可以避免的不必要内容所占用或污染。就在过去的一年里,我们开始看到上下文工程这个概念在各个技术领域频繁的被提及和出现。 这一理念背后最为核心的指导思想就是指在有限的上下文窗口中提供真正有用的信息, 而其他的无关内容则通通都给过滤掉或者直接舍弃。一般来说,我们的工具调用在这里起着非常重要的作用。现在通常会发生这样的情况,当用户的查询到来时,像 cloud code 这样的编码代理会发起一次工具调用,结果会被传递到上下文中, 然后他会再次发起另一次工具调用,这个过程会不断重复。每次你调用一个工具,结果都会传递给 cloud code, 并将其放入上下文窗口中。而程序化工具调用的理念则有些不同。在这种情况下, cloud 或你的编码代理不会直接调用工具,而是会编写代码,在沙河环境中调用特定的工具。 编码代理可以在这个沙盒环境中定义这些工具被调用的顺序。现在在这种情况下,我们会将编写好的代码和实际输入一起提供给沙盒,而唯一的输出将会是最终的总结或最终答案。所以 所有中间发生的事情都会留在沙盒环境中,因此编码代理只会看到最终的结果。因此你将会 相比于直接调用工具,这样会使用更少的 tokens。 现在有一点非常重要,这并不是某一家公司的独特想法,其他公司也在探索同样的思路。让我带你回顾一下时间线。早在二零二五年九月, cloudflayer 实际上发布了一份名为 code mode 更好地使用 m c p 方式的报告。他们还提出了这样一个想法,通过编程方式调用不同的工具,而不是在 m c p 内采用传统的工具调用方式等。他们展示了这一点, 如果你采用这种沙盒化的方法, token 的 消耗可以节省百分之三十到百分之八十。在二零二五年十一月, ansorpic 发布了一篇名为使用 mcp 进行代码执行,构建更高效的智能体的文章, 他们得出的结论几乎和 cloudflair 完全一样。然后在当月晚些时候, ansorpic 发布了完整的高级工具 使用,这其中包括了像工具搜索工具这样的工具。这是一种查找或寻找特定工具的另一种方式。 在 m c p 服务器内部,这可以为你节省智能题将要使用的 token。 与此同时,他们还提出了程序化工具调用的概念。当时他们的结果显示, token 使用量减少了大约三十七百分之,并且在多个精准测试中准确率有所提升。 就像 antropic 发布的任何东西一样,这项技术在开源社区中的使用也迅速爆发。因此你可以看到 block scuse agent 实现了代码模式的 m c p 支持,还有其他 github 仓库实现了程序化工具调用。一个很好的例子就是 light l l m。 他基本上为不同的服务商都增加了原声支持,这就把我们带到了今天。基本上这项功能已经从测试版转为正式支持了。他们还为网页搜索增加了动态过滤功能。 我们稍后会在视频中看到这个功能,但这两个概念结合起来,不仅能帮你节省投肯成本,还能提升性能。 代码执行自 gemini 二点零起就已经成为 gemini 的 一部分,现在连 openai 的 gpt 五点二也在其 api 后端支持了二十多种不同的工具。关键在于大模型是在数十亿行代码上训练的,特别是编程代理, 你能看到它们能生成和理解代码,但却难处理合成的 json 工具调用格式。所以你应该做的,或者让代理去做他们擅长的事情就是写代码。 那么在实际操作中,这到底是什么样子?你又应该期待什么样的结果呢?这正是我接下来在视频中想要讨论的内容。随着 snoop 也引入了两套不同的工具, 其中一个是网页搜索,另一个是动态过滤功能,这两者都由程序化工具调用驱动。这些工具以前就已经存在, 但现在 antropic 推出了这些工具的升级版本。他们表示,通过这些改进, cloud 现在可以在进行网页搜索时原生地编辑和执行代码, 以便在搜索结果进入上下文窗口之前进行过滤,从而提升准确性和令牌效率。以前这些模型就像疯子一样,每次进行网页搜索时,都会把所有内容都倒进上下文窗口, 这样会让上下文窗口充斥着无关的信息。他们表示,在完成初步搜索后, cloud 会编辑并执行代码,用来对查询结果进行后处理,并通过编程工具调用来实现。 通过动态过滤,他们会对结果进行后处理,只将相关的结果放入上下文窗口, 所以这是在将信息注入上下文窗口之前发生的一个步骤。他们特别关注了两个不同的基准测试, 一个是 browser comp, 另一个是 deep search qa。 他 们发现平均提升了百分之十一, 同时输入的 token 数量平均减少了百分之二十四,这是非常显著的。这种提升通常只有在模型进行重大版本升级时才会出现。 browser comp 精准测试, 测试代理是否能够浏览多个网站,找到一条特意难以查找的信息。现在通过这种新的动态过滤,他们看到 sonic 的 表现从三十三个百分点提升到了四十六个百分点。我们说的是将近百分之十三的提升,而 opus 则从百分之四十五提升到了百分之六十一。 同样,这在这个特定基准测试上是一个巨大的进步。但我们需要记住一件事,这并不总是会带来 token 使用量的减少。稍后我会解释原因。第二个基准测试, deep search q a 基本上是测试模型通过网络搜索找到所有正确答案的能力, 所以一个问题可能有多个正确答案模型需要找到这些答案。在这种情况下, 我们再次看到 sonit 四点六的 f 一 分数从五十二百分比提升到了五十九百分比,而 card opus 也有将近八百分比的提升。现在这里有一个最重要的点, 他们表示 token 成本会根据模型需要编辑多少代码来过滤上下文而有所不同。因此,在两个基本测试中, sonit 四点六的则增加了。 这意味着虽然 opus 最终输出的 token 数量减少了,但它写了更多的代码。为了过滤这些结果, opus 的 加权 token 或价格加权 token 实际上增加了。所以这一点很重要,需要记住,你并不总是会看到 token 价格的降低,但这是大家的预期。那么这到底是如何运作的呢? 如果你在使用 search api, 其实你什么都不用做,只需要像以前一样使用带有数据抓取功能的 search api 就 可以了。 antropic 现在会自动利用这个功能只返回最相关的信息,从而减少返回的 token 数量。现在 还有许多其他工具也已经结束,测试版现在已经全面上线,其中一个是代码执行杀核内存,另一个是以编程方式进行调用。 然后工具搜索和工具视力基本上是 antropic 提供的一些操作手册,他们还发布了详细的文档,介绍如何使用这些工具,并附有一些非常简明的视力。比如说,如果我们看这里,你只需要提供一个工具列表,其结构与常规方式非常相似。 工具定义时,你需要提供工具的功能描述以及名称。然后是输入模式,包括所需的参数以及输出模式,还有工具的定义。接着,如果 cloud 需要的话, 它不会像以前那样调用函数,而是会直接编辑代码来为你执行这个特定工具。现在 我猜测这很可能会像 m, c, p 和代理技能一样成为行业标准。如果你有这方面的具体用力,或者有什么想法,也请告诉我。 另外,如果你对如何将其与其他编程代理结合使用的详细教程感兴趣,也请告诉我。无论如何,希望你觉得本期视频有用,感谢观看,一如既往,我们下期再见。

我的 cloud cold 现在用的是昨天 deepsea 刚发布的 v 四 flash, 便宜还不用担心账号被嘎,我 cloud 的 账号已经被嘎三个了。这条视频呢,我会手把手带着朋友们把 cloud cold 的 默认模型换成 deepsea 最新发布的 v 四 flash, 不 然每天早上起来都要看 cloud 的 账号还在不在,太累了。 deepsea v 四啊,无论从官方发布的文章看,还是各方的测评看, v 四呢是完全可以媲美苏纳特四点六的能力的。 首先啊,我们打开终端,如果之前朋友们装过克拉的扣的,那我们要先完全彻底的卸载掉。我们要分五次执行这五段命令啊,它的作用是找到我们克拉的扣的安装地方,卸载,备份,删除, 清空确认。朋友们不用担心啊,这五段命令呢,我已经帮大家准备好了。然后呢,我们要执行这条命令,重新安装最新版的克拉的扣的。 当我们看到 installation complete 出来后啊,就安装成功了。然后我们要去 deepsea 开放平台,点击这个创建 api key 命名呢,朋友们随意啊,我就命名为可拉的 code 就 可以了。然后呢,点击创建,复制备用。接下来啊,我们执行这一组命令,装一下 cc switch, 看它开始安装了。 好了,安装成功了,这个时候呢,我们打开我们的 app 控制台,就能看到 cc switch 了。然后呢,我们打开进来呢,就是这样子的,然后我们定位到克拉的 code 上,再点击这个加号,下面呢会有很多模型的标签,我们选中 dbc 模型的大多数信息呢,它会直接写待啊,我们把前面复制备用的 ipr 拼音粘贴到这里,下面请求地址,完整 u r l 开关呢?我们 点开 a p r 格式呢,选择 as rock 与原声。最后我们把主模型下面的四个模型 id 都改成 deepsea v 四 flash, 当然如果不差钱呢, oppo 的 模型这里呢可以填 flash pro。 然后呢,我们点击下方的添加按钮,这样 模型就配置成功了。到了这里,我们打开终端,随便进入到一个我们的项目目录,运行克拉的命令,看,这不就起来了吗?现在我们看一下模型啊,看都是 deepsea v 四 flash, 现在我们执行一个任务,看看效果。

close sonnets 四点六,同样写代码做文档,有的 ai 贵十倍还记不住,你可能一直在白花钱。很多人用 ai 做正经工作,最后都卡在同一个坑,贵而且记不住。你把一个项目代码、几十页需求或者一份研究报告丢进去,他回答两段就断片, 然后你只能不断复制粘贴,反复追问,时间和钱一起烧。 cloudsonnet 四点六这次最反常识的点在于,它不是更强所以更贵, 而是把最关键的能力做上去,同时把使用门槛压下来。它在二零二六年二月发布,定位介于 cloud open 四点六和 cloud 嗨酷四点五之间。但官方给他的说法很直接,速度和智能的组合最均衡。先把两个概念讲明白,第一是上下文窗口, 你可以把它想象成 ai 的 短期工作台,工作台越大,一次能摊开的材料越多。 sonet 四点六默认支持二十万 token, 上到测试版 api, 甚至可以到一百万 token。 直观一点,整套代码库、一本书、几十篇论文或者超长合同,都能一次性放进来让它推理。 更重要的是,他不是只会装进去,而是被训练成能有效利用这些信息。还有一个常被忽视的指标,单次输出最长能到六万四千头啃,意味着他可以一口气写出很长不断裂的内容,比如完整的技术文档、分析报告,不用你一直喊弃选,再加上他支持图文输入表格,图表截图也能一起处理。 第二个关键点是价格。 sony 四点六的定价是,每一百万输入 token 三美元,每一百万输出 token 十五美元。对比 openai 的 gpt 四,每一百万输入 token 约三十美元,每一百万输出 token 约六十美元。也就是说,在这套计费方式下, sony 四点六大约是 gpt 四的十分之一成本。它还有扩展思考和自适应思考两种模式,本质上就是让 ai 在 难题上多花算力,在简单问题上少花算力。 你不需要每次手动调参数复杂任务,它会更认真想简单问题,它就快速给答案,而且你只为额外的计算付费。对企业或团队来说,这种按需加脑力的模式往往比一位堆最贵模型更划算。那它到底强在哪? 最有代表性的提升是电脑使用能力,也就是控制浏览器或桌面去完成真实任务。在 os word verify 的 精准测试里, sunnet 四点六在二零二六年二月拿到百分之七十二点五,几乎追平 cloud opus 四点六的百分之七十二点七。相比 sunnet 四点五的百分之六十一点四是大跳跃。 换句话说,两年内从十几分几乎不能用变成接近人类水平。若到日常工作,他能做的就是跨多个标签页,搜集资料、填复杂表单、处理电子表格,多步骤流程,不容易跑偏。 并且他在跟指令保持一致性方面更稳,所谓的偷懒现象更少,不太会跳步,也不太会把简单需求过度工程化。还有一个对普通人更实用的改进幻觉更低。他不知道的时候更倾向于直接说我不知道,而不是一本正经编答案。 如果你主要是写代码和改 bug, 这一代的组合权很强大,上下文加更强推力。你 可以把整个项目塞进去,描述一个 bug, 让他沿着调用链去追,也能让他补测试做重构解释架构。低塔布的产品副总裁也提到,他已经很擅长处理复杂修复,尤其是在大型代码库里定位问题。 但也别神话他,在最顶级、最难的任务上, cloud ops 四点六仍然更稳,比如超声理论推理、跨多个代码仓库的大型重构,复杂多 a 阵的协调。 如果你在做自主型 ai agent, 还要注意一个风险,他有时会过于积极,可能在没确认的情况下多做动作,甚至带着编造细节去发一封跟进邮件。解决办法通常是更严格的提示词和权限边界。 所以更现实的结论是,大多数日常生产力场景,写代码、做文档、读论文、跑表格、做自动化流程。 cloud sana 四点六给到了接近顶级模型的能力,但把成本打到了中档价位。当你的痛点是上下文不够、成本太高以及被幻觉坑过, 它非常值得直接拿来试一轮。如果只能选一个 ai 干活,你会换到 cloud sana 四点六吗?

大年初二海外就开始发新模型了,这次是 optimepic 率先发布了,它们称之为我们 six。 kart 称新模型对编码计算机使用 上下窗口。在价格方面,对于免费和专业版用户, kart 三年四六线已成为 kart 的 ai 和 ai 客 户。在 gdp v i l d a 测试 中, six 接下来就让我们仔细 看,仍处于实验阶段,有时操作繁琐且容易出错。 ai 计算 for 展示了 cut 模型的进步程度,该机准会在模拟计算机 上设置数百项任务。该机准也没有没有特殊的 a p i 或专用连接器。模型看到计算机,并与 其版子在过去的十六个月里 目标比较了多个三维模型在阿苏尔基本上的得分。这五 cut 三维有之前的得分。基于原始阿苏尔的测量,从三维四点五开始使用阿苏尔的 verifier, 二零二五年七月发布,是原始阿苏尔批准的原位升级 模型。 nintendo pick 致力于提高模型顶峰 第二台阶表现与 opus 四点六相近。评估科尔达萨姆斯 six 除了计算机使用科尔达萨姆斯,又在各项机准测试中均有提升。它的智能水平接近 opus 级别,但价格更实惠, 又与其它前沿模型的相对性能比强。 nintendo pick 的 早期科尔 code 测试发现,用户大约有百分之七十的 在指令遵循方面有明显改进。用户报告了更少的虚假成功, 数十篇研究论文。更重要的是三年四 点六,这使得他在长城规划方面博 学,通过早期投资潜能,然后在。

windows 和 mac 用户今天刚更新 cloud 的 桌面端的,你们是不是也谈了这个报错显示模型直接失效,第三方 a p i 连不上呢?不用担心,我已经找到解决方案了,只需要改一个参数就可以解决。先打开你们的 configure free party inference, 然后将你对应的那个模型 id 改成 cloudsonnet 四杠六或者靠的 opps 四杠七就行。目前比较好的解决方案就是这样的,你想继续使用的话,就把它改成靠的厂商的那些模型名字,也不影响使用, 也是可以正常用的。其他的 base, u, r, l 和 api key 不 用改,改完之后保存在本地,然后就可以正常的连接了。 测试完之后是可以正常访问的。虽然他的模型选择显示的不是以对应厂商的那个模型的名字,但不影响使用。

antropic 发布了最新 ai 模型 cloud sunit 四点六,该模型在操控计算机方面实现了显著升级,能够完成涉及多个步骤的复杂操作,如填写网页表单并跨浏览器标签页协调信息。 这标志着 ai 在 实际应用中的突破,不仅提升了任务处理的连贯性和复杂度,还在安全防护上有所增强,有效抵御了提示词注入攻击。相较于前代产品, s o n n e t。 四点六的进步速度惊人,短短几个月内,且在标准精准测试 o s w world 上的得分从百分之十四点九跃升至百分之七十二点五,接近人类操作水平。 这一能力对企业应用事关重要,尤其是那些依赖老旧遗留系统的组织。 antropica 的 这一举动不仅展示了其在 ai 领域的强大实力,也预示着未来 ai 与人类交互方式的新变格。

cloud, 这是一个智障,气得要死。今天早上来用的 cloud, 用的是它的上代的四点六这个版本,免费试用一下。我在跟他沟通的过程中,我发现这这这 cloud, 这是一个智障,气得要死。 为什么?因为我跟他问我说我现在做自媒体吗?我,那来给我一个方向,其实我同样的问题我已经问过恰的 g p t 了, 人家掐积弊器呢?跟你说一层一层一层的给你解剖这些问题,他给你解剖的时候,他会自动纳入你身份,怎么让你更好?就比如说批量的深层的图,你要去写什么工具?不是说光爱解决图的问题,你还得解决底层逻辑,比如说游戏,不是说光看图好看图,只是把人吸引进来的是底层的逻辑。比如说这个 u i 泰迪一眼要看啥?这些都是重点。 其实所有游戏都是这样,不说只有史诺斯这样,我所有的游戏都是这样,你第一眼看到啥?你沉不沉静于他的世界观?其实说史诺斯他世界观呢?其实没有太多世界观,但是如果说你能做一个这种连续的有世界观的这样的一个史诺斯,肯定是比你单独的每一个这样去做的话,我感觉他是一个叫另类的东西吧,应该有人开发,但是我不知道, 但是那个可好的他给我说什么?他说我问了他很多问题,但是我,我已经把 a a 当成你一个创业者合伙人,让他给你一些创意的建议, 这样其实对很多模型他是有一定的,他会有防御机制,因为这些问题其实挺难的,而且对他来说也没什么好处,他跟你说半天让你找了一个好的那种创意方式,到最后可能你没做出来,你还去怪他 cloud 的 就像一位勾搭就是超级高冷的敷衍者。为什么我问他的问题,我我我说半天他给我回复就就几个字, 我说你,你不要这么说呀,人家家里 qq 都给回答这么多问题啊,你一个可傲的。你都最牛的,我喜欢,只是我没有充钱,我免费试用。你这个泥要让我讲充钱呐,我一点不想充钻钱,他太高冷了, 我问他一怕辣他就给我给我回复这么一点说你,我现在不想陪你兜圈子了,你说那些问题你还不如自己实实际做一下,你就反复的问我,你还不如迈出第一步。 我请问了,我这个方向都没对,我肯定因为我焦虑,我所以不不断的问你啊,你就给我回复这么一点,最气人的是什么呢?到最后他直接访问我,他说你这个问题就很简单了,你现在能做到什么程度呢?我发给他看,他说啊,那你以前在公司做什么的吗?那你告诉我要怎么做吗? 我一我告诉你怎么做,我现在问你我怎么做,你现在访问我,我要怎么做?给我气的我的那东西哇,我绝对不充壳子,谁爱充谁充,反正这个四音个甜效果非常重要。 我要充我也充 gb 七。我就充 gb 七,拿 gb 七还能拴坨我一天给炸 gb 七送钱被骂一样。真的,你就老老实实给我出一点这种以信任见义我也会非常叫什么虚心的接受啊。你这个完全就不戳你,还反问我,你可唠的你算个屁,气死我。