给大家分享一个可以使用世界顶尖大模型的 ai 建网网站,可以使用满血 g p 五点二,谷歌最新的 java 三点一 pro, ai 香蕉绘画模型纳豆布纳豆 pro 编程最强的最新的科罗德收音四点六,我们点击立即使用,可以看到我们有改变网络环境就直达了 offi 官网。 左侧是可以切换模型的地方,支持 open n i 最新旗舰模型 g p e 五点二,思考更充分,回答更优质的五点二, thinking 二百美金一个月才能使用的 g p e 五点二 pro, 谷歌最新发布的旗舰模型 java 三点一 pro, 还有时下最火的 ai 绘画模型纳登五,纳登 pro, open n i 专为编程打造的 codex 编程最强的克罗地斯四点六,还有马斯克最新发布的格鲁格四点二,中间是可以输入提示的部分, 支持深度研究代理模式、学艺模式、网页搜索画布左侧是一个历史画部分,保留历史画记录,支持上百种 g p t s 插件,还可以新建自己的 g p t, 进行一个文件和代码库的附用。我们切换 g p 五点二,我是 g p 五架构的大型语言模型, 用过 open i 官网二十美到一个月的 plus 会员,小伙伴非常清楚这是一个满血的 g p 五点二,有兴趣的小伙伴可以使用这个 ai 建站来使用 open i 旗舰模型 g p 五点二, 谷歌最新的专利三点一 pro 画图的纳德沃尔 pro 编程的克劳德收听四点六,让全世界最强的人工智能为你打工。我们再通过 g p 五点二查一下最新的美元汇率,截至二零二六年二月二十四号,就是录制视频的这个时间,美元汇率是六点九四一四, 我们再切换编程最强的克劳德收听四点六,解决一个经典的华尔的算法题。克劳德收听四点六,给出了问题分析, 数据结构,算法带有详细中文注字的加减代码,详细的测试用力以及测试说明。我们再切换 java 三点一 pro。 java 三点一 pro 是 大家公认的写作最强大模型, 我们通过 java 三点一 pro 来完成一个高考作文题。苦难大地上升腾的民族魂。有兴趣的小伙伴可以暂停读一下 java 三点一 pro 写的文章,感受一下 java 三点一 pro 强大写作能力。我们再上传三个复杂的 pdf 技术文件,分别总结文件内容,三千字中文。第一个文件是元素矩阵不全。第 第二个文件 ai 写论文,提字词,指明大权。第三个文件 g m 基础。我们再根据第三个文件总结一份学术论文大纲啊。论文题目引言。我们再对每一个小节进行一个详细的描述, 这也是大家大家通过 ai 快 速写论文的过程。我们再切换 ai 渲染模型, nasubota pro, 就是 大家常说的相交渲染模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣的小伙伴可以使用这个 ai 矩阵模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣小伙伴可以使用这个 ai 矩阵模型。 g b 五点二, 谷歌最新的 dream 三点一 pro 画图的纳德沃纳尔 pro, 编程的克罗地斯四点六,让全世界最强的人工智能为你打工!
粉丝6648获赞4.2万

大家新年好啊, cloud 公司发布了这个 solid 新的版本啊, solid 四点六从四点五升级到了四点六,那这个版本呢,可以用一句话来介绍,就是 opus 的 智力, solid 的 价格。那本期视频呢,来跟大家一起来详细的了解一下这个版本的一些说明。 solid 四点六从六个方面啊进行了升级。 第一个呢就是编程能力啊,编程能力比这个 solid 四点六提升了一小部分,还有电脑操控能力啊,因为它自己有这个 a 型的客户端嘛, cowalk, 然后对电脑的操控也得到了很大的提升,还有长文的推理以及这个设计能力啊,规划能力,这些能力都是得到了很大的提升。那么在价格上跟 solo 的 四点五是保持一致的,这个输入和输出价格是跟 solo 的 四点五是保持一致的。那么 它上下文窗口呢?来到了一百万张 tokyo 的 上下文,所以这个已经是非常厉害了,那现在模型基本上是冲着这个目标 说这个一百万的 token 这个目标去来做这几个版本的迭代。那电脑操控呢?这个可能我们编程用的比较少啊,那么他自己推出这个 cooke, cooke 端的话,是大概能用的了这个电脑操控的这个能力啊,所以说它已经成为了 cooke 呀,一些内 cloud 的 一些工具的一个默认的啊模型。那编程能力呢?那所有的四点六哪些做的好呢?那这里面有 有几部分呢?比比如说第一个,他会先读懂全部的上下文,再去手动改代码啊,这个是非常重要的,这个类似于就是我啊上来的四点六,收到需求之后,他会先去阅读理解你的上下文,然后以便做出更准确的判断啊, 再去写这个代码。那么以前的这个可能是会读的是上下文的一部分,或者是最新的这个知识点,那代码准确率上可能是没有现在的更好一些。还有这个比如说减少假装完成的幻觉,那这个可能我们在用 color 模式经常碰到啊,它告诉你说这个东西已经完美的实现了, 完美的完成了啊,已经可以上线了,那么很多其实内部细节上是没有处理完的。那 solo 的 四点六呢?在这方面就是会减少这个假装完成的幻觉啊,这个我觉得非常重要。还有一点就是 多步骤任务持续进行到底,那么因为有了更大的上看文,那么他就可以执行更长的任务,不会说这个任务中断,让你去去输入继续,或者说让你去 改变这种提示词,那这一块我觉得是一个非常大的提升。那接下来就是一百万 token 上下文,那这个是可以把整个一个非常大的一个项目全部代码都扔到里面去,他也可以去读取啊,去阅读啊,这就是一 一百万 token 的 这个实际的容量。那接下来我们再看一下六大模型在精准测试里面不同的维度的一个数据对比,那这个数据呢?来自这个 osloopy 和官方, 那么这个皇冠呢,代表就是在这个维度里面排第一,分数是第一的。那么索尼的四点六里面的这个红色的这个三角箭头呢,表示跟这个 oppo 的 四点五进行对比,那么红色箭头表示比 oppo 的 四点五要差, 那绿色的箭头呢?表示比这个啊, oppo 的 四点五要好一些。那么我们可以看到在大部分维度里面,索尼的四点六啊,比这个 oppo 的 四点五都会好一些,所以说它是一个非常非常不错的模型。 从这个对比上看,基本上 oppo 的 四点五啊可以不用了,那么你可以用 oppo 的 四点六去做一些架构里面的一些分析啊,一些详细需求的书写啊,或者说复杂问题的推理。那么你可以用 oppo 的 四点六, 那平时干一些杂活,写一些详细代码,你完完全全可以用双面的四点六去代替这样的 oppo 的 四点五,那么在成本上是省省下了非常非常多。那我们来看看不同的维度,那每一个哪一个模型是表现最出色的?那终端代码 那排第一的是这个 oppo 四点六,那这个肯定是目前啊,我觉得是公认的,就是写代码是最强的,那么 jpd 五点二,甚至现在的五点三呢?我觉得是跟他非常接近啊,跟他非常接近。我们再来看其他的像, 那么视觉理解就是我们经常去做页面,或者说让发图片,让模型去识别图片里面的详细元素,那这个啊,界面三 pro 是 最好的, 那么研究生推理这种比较细的,我要比较深入的这种事情啊,那么 j p t 系列是 j p t 五点二是最好的,那我们在开发中呢,也是要选择不同的模型的优点来做做对应的任务,比如说我们做 ui 的 设计, 权当页面的开发,那我们可以优先选择这个 j m 三 pro, 因为我们可以看到在这个维度里面,视觉理解这个维度里面 它是排第一的,那么你前端做完之后,你要去做后台代码,对吧?你要选一些逻辑啊,那么你就可以优先选择 solo 四点六去完成这部分任务,如果这个任务很复杂,需要去深度思考,那么你也可以用这个 oppo 四点六,那么 oppo 四点五呢?这个 solo 四点六出来之后啊,这个 oppo 四点五基本上可以弃用了,因为 solo 四点六比它的 很多维度啊,只是比它差一点点,甚至大部分都是比它好。所以为什么说 solo 四点六是 opus 的 这个智力啊,和这个 solo 的 价格是非常非常推荐 去使用这个 solid 四点六去来进行编程编码测试。那现在 solid 四点六呢?已经在 cosuo 啊, anti gravity 啊, kilo 啊这些工具已经都可以去使用这个模型了,大家可以去体验一下,看下这个模型到底比这个 solid 四点五和 opus 四点五哪个会更好一些。 呃,速度啊,整个的响应速度啊,整个上下文的这个读取能力啊,各方面的呢,可以去对比一下。 ok, 那 本期视频就到这。

antropic 重磅发布 cloud sonnet 四六大模型,主打电脑操控,自动化快,浏览器,多步骤复杂办公任务一键完成,办公效率直接提升十倍,定价仅为旗舰模型五分之一,性价比拉满。 这款模型被职场人称为摸鱼神器,效率救星。无需编程,基础语音指令即可操作,电脑自动整理表格、转写报告、发送邮件、解锁数据,彻底解放双手。二零二六年打工人必备 ai 工具。 logon 四点六核心能力颠覆传统办公模式,它能像人一样操作鼠标键盘,打开软件,浏览网页、复制粘贴数据、计算格式,排版全自动化, 支持 excel 函数自动生成 ppt, 一 键排版 word 文档就对邮件批量发送,货架报表一分钟搞定,原本一小时工作,现在五分钟完成。模型逻辑理解能力极强, 模糊指令也能精准执行。比如整理上月销售数据,生成柱状图发送给领导,全程无需干预,自动完成全流程。同时支持多任务并行,一边整理数据一边生成报告,效率翻倍。 相比 gdp, 五点二飘三奈斯六更聚焦办公场景,轻量化、低延迟、低成本, 无需高端显卡,普通笔记本即可流畅运行。本地部署保证数据安全,公司机密不泄露。支持主流办公软件,适配 word、 excel、 ppt、 wps、 钉钉企业微信全覆盖,兼容 windows、 mac os 双系统。个人版月费仅几十元,企业版按账号计费,中小企业也能轻松负担,真正实现 ai 普惠办公。 实测显示,使用 cloudsonnet 四点六后,职场人日均加班时间减少百分之六十,工作出错率降低百分之八十, ai 办公时代全面到来,工具替代重复,劳动人专注创意与决策。 cloudsonnet 四点六的上线,标志着 ai 从辅助工具变成办公搭档,文秘、行政、财务、运营、电商等岗位效率大幅提升。 对于打工人,学会使用 ai 工具是核心竞争力。对于企业, ai 赋能,降本增效,抢占市场先机。 未来,不会用 ai 办公的人将被淘汰,就像当年不会用电脑的人一样。现在入手 cosamax 六,提前拥抱高效办公,告别九九六,轻松搞定工作。

朋友们,祝大家新春快乐,马年大吉!今天一早起来克拉斯尼的模型又更新了,那这次更新呢,有以下几个亮点是值得我们关注的。第一个就是所有的用户都可以直接免费使用,不管你是订阅用户还是普通用户,现在的 ai 大 厂在争夺用户方面真的是下出了血本。 第二个就是他现在几乎可以像真人一样去操作我们的电脑了,特别是像 excel 表格这样的软件,已经接近真人的使用水平了, 那未来呢,真的是可以一句话就做数据汇总或是 ppt 了。第三个呢,就是他现在有一百万透坑的上下文窗口,那这是什么概念呢?这意味着你可以丢几十篇论文进去,或者是一本书,甚至是你把整个代码库丢进去,他都是可以进行有效推理的。 那在之前的模型当中,这么长的上下文窗口模型是很难做到有效推理这一步的,那把它作为智能体的底层推理模型的话,是个非常好的选择,大家赶紧去试试吧。

上周是二月十七号,就是 azoropek 他 们发布了 cloudsonnet 四点六这个大模型,这个大模型应该来讲也是非常厉害的一个模型,我看了一下 cloud 的 他们的技术博克,他这个技术博克里面重点讲了一下 cloudsonnet, 当然这个模型不是 cloud 的 版本最强的模型,但是也已经是非常不错了, 这个版本改善比较大的。它里面我们原来也给大家介绍过有一个叫 computer use 这样的一个能力,让我们的视觉模型它可以去读取你这个 pc 或者手机屏幕,它可以自动的,你可以让它去了解哪里是按钮,哪里应该怎么填,它主要是做这部分的, 叫自动化的 u i 操作的。那目前它这个 computer use 我 看了一下,我觉得也蛮震惊的,那它是用了叫 os world 这样的一个评测集,它用了 ai 的 computer use, 在 一年前二零,在一年前它的得分 computer use 刚开始出来的时候,索尼三点五大概只有十四点九分, 那么最新的索尼四点六达到七十二点五分,所以呃增长很快,就在一年的时间里面增长到百分,准确率达到百分之七十二点五,这个有点让我想起来,原来写 ai 写代码叫 w e bench, 刚开始这个评测出来 ai 写代码的能力是很弱的,只有百分之四,现在 ai 写代码的这个能力非常强, 基本上是可以替代很多的工程师了。所以上周这个 isop 他 们发布的这个索尼四点六 应该会掀起新的一轮竞争,这个竞争可以让我们目前的 pc 或者手机上面的各种应用,它可以是什么样的?就是可以自动化。现在 ai 的 自动化它主要是依赖于这个命令行,通过这个命令 gli 的 这种方式。但是如果 computer user 这个技术成熟的话, 那么 ai 几乎是可以操作任何的这种 application 或者 app。 好, 这个是上周一个比较大的一个新闻啊,当然它也有发布了其他的一些功能了。 cloud 是 o p s, 它四点六这个系列它应该是最强的,但是索尼它这个系列,我看它编程 ai 智能体方面的这个能力也是不错的。


大家新年好啊, prada 公司发布了这个 saw 的 新的版本, saw 的 四点六从四点五升级到四点六,那这个版本呢,用一句话来介绍就是 office 的 智力 saw 的 价格。那本期视频呢,来跟大家一起来详细的了解一下这个版本的一些说明。 saw 的 四点六从六个方面啊进行了升级。第一个呢就是编程能力 啊,编程能力比这个 saw 的 四点力提升了一小部分,还有电脑操控能力,因为他自己有这个 a 级的客户端嘛, co work, 然后对电脑的操控也得到了很大的提升, 还长文的推理以及这个设计能力啊,规划能力,这些能力都是得到了很大提升。那么在价格上跟 solo 四点五是保持一致的,这个输入和输出价格是跟 solo 四点五是保持一致的。 那么它上下文的窗口呢,来到了一百万张通红的上下文,所以这个已经是非常厉害了。那现在模型基本上是冲这个目标 说这个一百万的客户这个目标去来做这次版本迭代。那电脑操控呢?这个可能我们编程用的比较少啊,那么他自己推出这个 coco 客户端呢,是大量的用到了这个电脑操控的这个能力,所以说他已经成为了 coco 啊,一些内 cloud 的 一些工具的一个默认的啊模型。那编程能力呢?那所有的四点六哪些做的好呢?这里面有 有几部分呢?比比如说第一个他会先读懂全部的上下文,再去手动改改吗?那这个是非常重要的,这个类似于就说我啊上来的四点六,收到需求之后,他会先去阅读理解你的上下文,然后以便做出更准确的判断啊, 再去写这个代码。那么以前的这个可能是会读的是上下文的一部分,或者是最新的这个知识点,代码准确率可能是没有现在的更好一些。还有这个比较减少假装完成的幻觉。那这个可能我们在用 call 的 模式经常碰到啊,他告诉你说这个东西已经完美的实现了, 完美的完成了啊,已经可以上线了,那么很多其实内部细节上是有没有处理完的,那算那个四点六呢?在这方面就是会减少这个假装完成的幻觉啊,这个我觉得非常重要。还有一点就是多步骤任务持续进行到底, 那么因为有了更大的上看文,那么他就可以执行更长的任务,所以说这个任务中断,让你去去输入继续,或者说让你去 改变这样的提示词,那这一块我觉得是一个非常好的提升。那接下来就是一百万靠谱的上下文,那这个是可以把整个一个非常大的一个项目全部代码都扔到里面去,它也可以去读取啊,去阅读啊,它就是一百万靠谱这个实际的容量。

close sonnets 四点六,同样写代码做文档,有的 ai 贵十倍还记不住,你可能一直在白花钱。很多人用 ai 做正经工作,最后都卡在同一个坑,贵而且记不住。你把一个项目代码、几十页需求或者一份研究报告丢进去,他回答两段就断片, 然后你只能不断复制粘贴,反复追问,时间和钱一起烧。 cloudsonnet 四点六这次最反常识的点在于,它不是更强所以更贵, 而是把最关键的能力做上去,同时把使用门槛压下来。它在二零二六年二月发布,定位介于 cloud open 四点六和 cloud 嗨酷四点五之间。但官方给他的说法很直接,速度和智能的组合最均衡。先把两个概念讲明白,第一是上下文窗口, 你可以把它想象成 ai 的 短期工作台,工作台越大,一次能摊开的材料越多。 sonet 四点六默认支持二十万 token, 上到测试版 api, 甚至可以到一百万 token。 直观一点,整套代码库、一本书、几十篇论文或者超长合同,都能一次性放进来让它推理。 更重要的是,他不是只会装进去,而是被训练成能有效利用这些信息。还有一个常被忽视的指标,单次输出最长能到六万四千头啃,意味着他可以一口气写出很长不断裂的内容,比如完整的技术文档、分析报告,不用你一直喊弃选,再加上他支持图文输入表格,图表截图也能一起处理。 第二个关键点是价格。 sony 四点六的定价是,每一百万输入 token 三美元,每一百万输出 token 十五美元。对比 openai 的 gpt 四,每一百万输入 token 约三十美元,每一百万输出 token 约六十美元。也就是说,在这套计费方式下, sony 四点六大约是 gpt 四的十分之一成本。它还有扩展思考和自适应思考两种模式,本质上就是让 ai 在 难题上多花算力,在简单问题上少花算力。 你不需要每次手动调参数复杂任务,它会更认真想简单问题,它就快速给答案,而且你只为额外的计算付费。对企业或团队来说,这种按需加脑力的模式往往比一位堆最贵模型更划算。那它到底强在哪? 最有代表性的提升是电脑使用能力,也就是控制浏览器或桌面去完成真实任务。在 os word verify 的 精准测试里, sunnet 四点六在二零二六年二月拿到百分之七十二点五,几乎追平 cloud opus 四点六的百分之七十二点七。相比 sunnet 四点五的百分之六十一点四是大跳跃。 换句话说,两年内从十几分几乎不能用变成接近人类水平。若到日常工作,他能做的就是跨多个标签页,搜集资料、填复杂表单、处理电子表格,多步骤流程,不容易跑偏。 并且他在跟指令保持一致性方面更稳,所谓的偷懒现象更少,不太会跳步,也不太会把简单需求过度工程化。还有一个对普通人更实用的改进幻觉更低。他不知道的时候更倾向于直接说我不知道,而不是一本正经编答案。 如果你主要是写代码和改 bug, 这一代的组合权很强大,上下文加更强推力。你 可以把整个项目塞进去,描述一个 bug, 让他沿着调用链去追,也能让他补测试做重构解释架构。低塔布的产品副总裁也提到,他已经很擅长处理复杂修复,尤其是在大型代码库里定位问题。 但也别神话他,在最顶级、最难的任务上, cloud ops 四点六仍然更稳,比如超声理论推理、跨多个代码仓库的大型重构,复杂多 a 阵的协调。 如果你在做自主型 ai agent, 还要注意一个风险,他有时会过于积极,可能在没确认的情况下多做动作,甚至带着编造细节去发一封跟进邮件。解决办法通常是更严格的提示词和权限边界。 所以更现实的结论是,大多数日常生产力场景,写代码、做文档、读论文、跑表格、做自动化流程。 cloud sana 四点六给到了接近顶级模型的能力,但把成本打到了中档价位。当你的痛点是上下文不够、成本太高以及被幻觉坑过, 它非常值得直接拿来试一轮。如果只能选一个 ai 干活,你会换到 cloud sana 四点六吗?

大家好,这一期视频的话呢,跟大家说一下骚耐特这款外机啊,跟咱们的遥控器的一些匹配啊,包括一些切换程序的一些简单操作 啊。首先呢,我们先把外机组装好,但是呢,像咱们这个电池和盖啊,不要推紧,呃,推紧了不就开机了吗?咱们要在这个外机关机的状态下,然后我们把这个线圈啊吸在遥控器 mt 啊 mt 这个按钮上, 哎,往这一吸,吸好了以后,然后我们把外机挡开机, 好,大家能看到啊,就是这两个灯刚才是亮的啊,那我再来一次,好离啊,我距离近一点啊,开机看一下, 好,大家能看到啊,这两个灯是亮的啊,证明这个外机和这遥控器啊已经匹配好了。这个时候呢,我就可以用这个遥控器去操作我的骚奈特这款外机了。那比如说我加减音量按加号减号键,那我对着外机按就可以了 啊,大家能看到吗?我按的时候啊,这个绿灯是闪烁的啊,接收到遥控器信号以后啊,绿灯是闪烁的。那比如说我调节这两个按钮啊,灵敏度啊, 他也是会亮的啊,啊,减音量也是一样的,他也是会绿灯会亮啊。然后我接下来呢是切换程序一二三四啊四个按钮,当我选择程序了以后啊,这个处理器上的小绿灯会随着程序的序号回去闪。 那比如说我按一好,闪一下,按二闪两下,按三号程序 啊,展三下,按四号程序 啊,绿灯会闪四下啊。接下来像这个 m 模式啊,代表像这个麦克风来接收模式,呃,声音的啊,像麦克风来接收声音,我按 m 啊就可以了。那如果说我这个时候连了蓝牙,我又想听那个周围的环境。音我又想听蓝牙的声音,这个时候呢,我去选择 mt 双模式 啊,这样的话呢,就是外界的声音,包括蓝牙的声音都是可以听到的。那么现在说我一个人在家里就想安安静静的听会歌啊,听会音乐,那我不想别人打扰我,那我就直接按 tm 是纯蓝牙模式啊就可以了。那么这个 t 纯蓝牙模式的话,是听不到外界声音呢?所以呢,这个 t 模式啊,大家根据自己的情况需要去选择就可以了。通常情况下,建议大家还是使用 mt 啊。如果说在不连蓝牙的情况下,我们默认使用 m。 好,那简单的像遥控器这些操作啊,包括藕和一些按钮的操作,咱今天就讲到这里。好,谢谢大家。

让 ai 帮你操作电脑,以前是能看不能动,现在是真能替你干活。上内四点六能自己填多步骤网页表单,在多个浏览器标签夜间整合信息,在操作能力上已经反超 oppo。 四点六, 价格上却只要三美元,输出十五美元,每百万 token 正好是 oppo 的 五分之一。这意味着你花中档的钱能拿到旗舰级的智能。这不是性价比,这是定价权的重新洗牌。关注我,带你了解更多 ai 资讯!

大家好,今天我们来聊聊 anarchic 新发布的模型 cloud sony 四点六。 sony 四点六模型这次更新覆盖了六个关键领域,编码、计算机使用、常上下文推理、代理规划、知识工作和设计。先说说编码能力。 根据安卓 app 的 官方数据,早期体验的开发者中有百分之七十的人更喜欢 sony 四点六,甚至有百分之五十九的用户认为它比去年十一月发布的旗舰模型 opus 四点五还要好用。 为什么会这样?因为 sony 四点六在代码理解、逻辑整合和指令遵循方面都有了显著提升。 他不再像以前那样过度工程化,也更少出现懒惰行为,比如随便应付几句就说完成了。兴奋的是计算机使用能力。想象一下, ai 可以 像人类一样使用电脑、打开浏览器、操作 excel、 填写表单,甚至在多个标签页之间切换工作。 在 osword 精准测试中,撒内四点六的表现稳不提升。早期用户反馈说,它在导航复杂电子表格或填写多步骤网络表单时已经达到了人类级别的能力。当然,它还赶不上最熟练的人类专家,但这个进步速度已经非常惊人了。 第三个亮点是一百万 token 的 上下文窗口。这是什么概念?简单来说,它可以一次性处理整个代码库涌长的商业合同,或者几十篇研究论文。 更重要的是, sony 四点六能在这么大的上下文中进行有效推理,这使得他在长期规划任务中表现出色。 在 vending bench arena 评估中, sony 四点六展现了惊人的商业策略能力。他在模拟的前十个月大量投资产物,然后在最后阶段果断转向盈利能力,最终成绩远超其他 ai 模型。这种长周期的战略规划能力,标志着 ai 在 复杂任务处理上的重大突破。 除了核心能力, sony 四点六还带来了一些实用的产品更新。在开发者平台上,它支持自适应思维和扩展思维。还有一个测试版的上下文压缩功能,可以自动总结就上下文,增加有效上下文长度。 在 api 方面, cloud 的 网络搜索和获取工具现在会自动编辑和执行代码来过滤和处理搜索结果,既提高了响应质量,又节省了 toc。 对于 excel 用户, cloud 的 加载项现在支持 m c p 连接器,可以与标普、全球、伦敦证券交易所集团等专业工具集成,让你在 excel 内直接获取外部上下文。那么, sony 四点六的发布对我们意味着什么? 首先,它打破了 ai 能力与成本的平衡点,以前需要旗舰模型才能完成的任务,现在用 sony 级别的价格就能搞定。 ai 的 普绘画进程正在加速,作为 ai 时代的参与者,我们应该保持开放的心态,积极探索这些新工具如何帮助我们提高工作效率,拓展创造力。 好了,今天的分享就到这里,如果你对科二三的四点六还有什么疑问,欢迎在评论区留言,我们下期再见!

好的,随着 sony 四点六版本的发布, antropic 还推出了一些非常有趣且重要的开发者工具,但目前还没有人讨论这些工具。这些工具不仅能帮你省钱,还能提升你的智能体的性能。我特别想说的是,编程式工具调用 这个功能其实已经上线有一段时间了,其核心思想是,与其让你的智能体试图把所有内容都加载到上下文窗口中,不如直接通过编辑代码针对特定工具进行调用。通过这种操作方式, 你不仅能够大幅度的节省掉智能体所消耗的 tokens, 而且还能显著的提高调用的准确性。 ansaurus 最近在工程方面做了一些非常非常有趣的工作,而且他们也是少数会公开讨论自己创新成果的公司之一,这真的非常酷。那么问题来了,为什么这种方式比你为智能体提供的 jason 结构进行工具调用效果更好? 其实这些智能体或者说大语言模型是专门用代码进行训练的,他们并不是为了工具调用而训练的,而编辑代码对他们来说是非常自然的事情。那么问题来了,为什么我们甚至要关注这件事呢? 我认为 entropy 在 发布某些工具或技术时,业界其他公司往往会跟进采用,这在引入 m c p s。 也就是模型上下文协议时就发生过。 现在每家公司都在开发自己的 m c p s。 我 们在智能体技能方面也看到了非常类似的趋势, 几乎所有的编程智能体现在都在引入或支持智能体技能。我们唯一见过的另一次前沿实验室推出的东西被广泛采用,可能就是 open ai 的 聊天补全 api。 好, 那么把事情放到具体的背景下来看, 那么我们为什么需要程序化工具调用呢?为了解释这一点,我们需要看看每一家智能体公司都在努力解决的上下文窗口问题,而且随着像 mcp 这样的协议的引入,这个问题变得更加严重。现在通常会发生这样的情况, 假设你连接了一个 m c p, 它会有不同的工具,所有这些工具的定义都会被加载到你的大圆模型的上下文中。在与用户交互的过程中,用户会发起两次调用, 每次工具调用的输入、输出以及随后的两次调用也都会被放入上下文窗口中。你还会有系统提示 以及实际用户消息和回复中的用户记忆。因此你会发现,大部分的上下文窗口都会被一些你本可以避免的不必要内容所占用或污染。就在过去的一年里,我们开始看到上下文工程这个概念在各个技术领域频繁的被提及和出现。 这一理念背后最为核心的指导思想就是指在有限的上下文窗口中提供真正有用的信息, 而其他的无关内容则通通都给过滤掉或者直接舍弃。一般来说,我们的工具调用在这里起着非常重要的作用。现在通常会发生这样的情况,当用户的查询到来时,像 cloud code 这样的编码代理会发起一次工具调用,结果会被传递到上下文中, 然后他会再次发起另一次工具调用,这个过程会不断重复。每次你调用一个工具,结果都会传递给 cloud code, 并将其放入上下文窗口中。而程序化工具调用的理念则有些不同。在这种情况下, cloud 或你的编码代理不会直接调用工具,而是会编写代码,在沙河环境中调用特定的工具。 编码代理可以在这个沙盒环境中定义这些工具被调用的顺序。现在在这种情况下,我们会将编写好的代码和实际输入一起提供给沙盒,而唯一的输出将会是最终的总结或最终答案。所以 所有中间发生的事情都会留在沙盒环境中,因此编码代理只会看到最终的结果。因此你将会 相比于直接调用工具,这样会使用更少的 tokens。 现在有一点非常重要,这并不是某一家公司的独特想法,其他公司也在探索同样的思路。让我带你回顾一下时间线。早在二零二五年九月, cloudflayer 实际上发布了一份名为 code mode 更好地使用 m c p 方式的报告。他们还提出了这样一个想法,通过编程方式调用不同的工具,而不是在 m c p 内采用传统的工具调用方式等。他们展示了这一点, 如果你采用这种沙盒化的方法, token 的 消耗可以节省百分之三十到百分之八十。在二零二五年十一月, ansorpic 发布了一篇名为使用 mcp 进行代码执行,构建更高效的智能体的文章, 他们得出的结论几乎和 cloudflair 完全一样。然后在当月晚些时候, ansorpic 发布了完整的高级工具 使用,这其中包括了像工具搜索工具这样的工具。这是一种查找或寻找特定工具的另一种方式。 在 m c p 服务器内部,这可以为你节省智能题将要使用的 token。 与此同时,他们还提出了程序化工具调用的概念。当时他们的结果显示, token 使用量减少了大约三十七百分之,并且在多个精准测试中准确率有所提升。 就像 antropic 发布的任何东西一样,这项技术在开源社区中的使用也迅速爆发。因此你可以看到 block scuse agent 实现了代码模式的 m c p 支持,还有其他 github 仓库实现了程序化工具调用。一个很好的例子就是 light l l m。 他基本上为不同的服务商都增加了原声支持,这就把我们带到了今天。基本上这项功能已经从测试版转为正式支持了。他们还为网页搜索增加了动态过滤功能。 我们稍后会在视频中看到这个功能,但这两个概念结合起来,不仅能帮你节省投肯成本,还能提升性能。 代码执行自 gemini 二点零起就已经成为 gemini 的 一部分,现在连 openai 的 gpt 五点二也在其 api 后端支持了二十多种不同的工具。关键在于大模型是在数十亿行代码上训练的,特别是编程代理, 你能看到它们能生成和理解代码,但却难处理合成的 json 工具调用格式。所以你应该做的,或者让代理去做他们擅长的事情就是写代码。 那么在实际操作中,这到底是什么样子?你又应该期待什么样的结果呢?这正是我接下来在视频中想要讨论的内容。随着 snoop 也引入了两套不同的工具, 其中一个是网页搜索,另一个是动态过滤功能,这两者都由程序化工具调用驱动。这些工具以前就已经存在, 但现在 antropic 推出了这些工具的升级版本。他们表示,通过这些改进, cloud 现在可以在进行网页搜索时原生地编辑和执行代码, 以便在搜索结果进入上下文窗口之前进行过滤,从而提升准确性和令牌效率。以前这些模型就像疯子一样,每次进行网页搜索时,都会把所有内容都倒进上下文窗口, 这样会让上下文窗口充斥着无关的信息。他们表示,在完成初步搜索后, cloud 会编辑并执行代码,用来对查询结果进行后处理,并通过编程工具调用来实现。 通过动态过滤,他们会对结果进行后处理,只将相关的结果放入上下文窗口, 所以这是在将信息注入上下文窗口之前发生的一个步骤。他们特别关注了两个不同的基准测试, 一个是 browser comp, 另一个是 deep search qa。 他 们发现平均提升了百分之十一, 同时输入的 token 数量平均减少了百分之二十四,这是非常显著的。这种提升通常只有在模型进行重大版本升级时才会出现。 browser comp 精准测试, 测试代理是否能够浏览多个网站,找到一条特意难以查找的信息。现在通过这种新的动态过滤,他们看到 sonic 的 表现从三十三个百分点提升到了四十六个百分点。我们说的是将近百分之十三的提升,而 opus 则从百分之四十五提升到了百分之六十一。 同样,这在这个特定基准测试上是一个巨大的进步。但我们需要记住一件事,这并不总是会带来 token 使用量的减少。稍后我会解释原因。第二个基准测试, deep search q a 基本上是测试模型通过网络搜索找到所有正确答案的能力, 所以一个问题可能有多个正确答案模型需要找到这些答案。在这种情况下, 我们再次看到 sonit 四点六的 f 一 分数从五十二百分比提升到了五十九百分比,而 card opus 也有将近八百分比的提升。现在这里有一个最重要的点, 他们表示 token 成本会根据模型需要编辑多少代码来过滤上下文而有所不同。因此,在两个基本测试中, sonit 四点六的则增加了。 这意味着虽然 opus 最终输出的 token 数量减少了,但它写了更多的代码。为了过滤这些结果, opus 的 加权 token 或价格加权 token 实际上增加了。所以这一点很重要,需要记住,你并不总是会看到 token 价格的降低,但这是大家的预期。那么这到底是如何运作的呢? 如果你在使用 search api, 其实你什么都不用做,只需要像以前一样使用带有数据抓取功能的 search api 就 可以了。 antropic 现在会自动利用这个功能只返回最相关的信息,从而减少返回的 token 数量。现在 还有许多其他工具也已经结束,测试版现在已经全面上线,其中一个是代码执行杀核内存,另一个是以编程方式进行调用。 然后工具搜索和工具视力基本上是 antropic 提供的一些操作手册,他们还发布了详细的文档,介绍如何使用这些工具,并附有一些非常简明的视力。比如说,如果我们看这里,你只需要提供一个工具列表,其结构与常规方式非常相似。 工具定义时,你需要提供工具的功能描述以及名称。然后是输入模式,包括所需的参数以及输出模式,还有工具的定义。接着,如果 cloud 需要的话, 它不会像以前那样调用函数,而是会直接编辑代码来为你执行这个特定工具。现在 我猜测这很可能会像 m, c, p 和代理技能一样成为行业标准。如果你有这方面的具体用力,或者有什么想法,也请告诉我。 另外,如果你对如何将其与其他编程代理结合使用的详细教程感兴趣,也请告诉我。无论如何,希望你觉得本期视频有用,感谢观看,一如既往,我们下期再见。

上个视频介绍了 everything cloud code, 很多人评论区扣一要安装教程,今天直接安排。上装之前,你得先有 cloud code, 没有的终端跑一句 n p m install 就 行。然后打开 cloud code, 输两条命令,第一条 plugin mark place add, 加上仓库地址。第二条 plugin install, 加上插件名,等它跑完就好了。 装完你就有了十三个 ai 专家,三十一个命令,四十三个技能,但还差一步, rules 要手动装终端里 clone 仓库,然后跑安装脚本,加上你的语言,到这一步就全部装完了。下面教你怎么用最常用的第一个 plan, 写新功能之前先让规划专家帮你想清楚。第二个 code review, 写完代码让审查专家逐行检查。第三个 build fix 翻译报错了,让修复专家直接帮你改。还有个省钱技巧,默认用的是 opus, 挺贵的。在 settings 里把 model 改成 sonnet, 成本直接降百分之六十,日常写代码完全够用,需要深度推理的时候, model opus 切回去就行。最后一个坑, m c p 服务器不要全开,每个 m c p 的 工具描述都吃你的。上下文窗口开太多,两百 k 的 窗口能缩到七十 k, 建议最多开十个评论区,还想看什么教程,扣在下面,下期安排。

大年初二海外就开始发新模型了,这次是 optimepic 率先发布了,它们称之为我们 six。 kart 称新模型对编码计算机使用 上下窗口。在价格方面,对于免费和专业版用户, kart 三年四六线已成为 kart 的 ai 和 ai 客 户。在 gdp v i l d a 测试 中, six 接下来就让我们仔细 看,仍处于实验阶段,有时操作繁琐且容易出错。 ai 计算 for 展示了 cut 模型的进步程度,该机准会在模拟计算机 上设置数百项任务。该机准也没有没有特殊的 a p i 或专用连接器。模型看到计算机,并与 其版子在过去的十六个月里 目标比较了多个三维模型在阿苏尔基本上的得分。这五 cut 三维有之前的得分。基于原始阿苏尔的测量,从三维四点五开始使用阿苏尔的 verifier, 二零二五年七月发布,是原始阿苏尔批准的原位升级 模型。 nintendo pick 致力于提高模型顶峰 第二台阶表现与 opus 四点六相近。评估科尔达萨姆斯 six 除了计算机使用科尔达萨姆斯,又在各项机准测试中均有提升。它的智能水平接近 opus 级别,但价格更实惠, 又与其它前沿模型的相对性能比强。 nintendo pick 的 早期科尔 code 测试发现,用户大约有百分之七十的 在指令遵循方面有明显改进。用户报告了更少的虚假成功, 数十篇研究论文。更重要的是三年四 点六,这使得他在长城规划方面博 学,通过早期投资潜能,然后在。

ansaurus 又又又发新模型了, cloudsonnet 四点六,注意,这是他们家的终端机,但是这个终端机在自己好几个核心测试上,直接干翻了自家前十二天刚刚发布的旗舰机 opus 四点六, 各位 get 到了吗?便宜的已经把贵的干翻了。具体来说, soulmate 四点六在办公任务、金融分析、工具调用这些真实场景上,已经全面超越了 oppo 四点六,价格呢,只有它的百分之二十,但你仔细想一想,哎, so pick 它傻吗?自己打自己脸吗?不,这恰恰是他们最聪明的地方。 oppos 是 探路的尖兵,证明了技术天花板在哪里。 solnet 是 工程的大军,用最低成本把能力扑到每个人的手上,先用贵的打出标杆,再用便宜的抢占市场。这招在商业史上其实屡试不爽,苹果的 iphone 和 se, 特斯拉的 model s 和 model 三全是这个套路。 最让我震撼的已经不是谁打赢了谁是速度啊。二零二四年的十月, cloud 在 电脑操作测试上只有十四点九分,但是二零二五年的六月四十二分,十月六十一分,二零二六年的二月,今天已经是七十二点五分了, 十六个月翻了将近五倍,这不禁让我自己回想,我的能力上一次翻五倍是什么时候呢? ai 已经不是在进步,是在加速进步,每一代的间隔在不断缩短,每一代的跃升在不断增大。所以今天看到这条消息,表面上 是两个模型的 pk, 本质上是一个信号。现在 ai 一 直在以我们想象不到的速度在不断的变得又强又便宜,留给我们的适应窗口真的不多了,不要等准备好了才开始先上车啊。