使用 card code, card code 现在越来越强了,我以前说它可以取代百分之九十代码工作量,现在来看它可以取代百分之百的代码工作量,但是我们直接用不了,而且即使你可以使用它也极其的不稳定。所以说我给大家讲一下啊,怎么直接使用? 那我们的镜像网页 m e s c i 记不住可以看我主页地址,进来之后直接点击 code 啊,我登录一下 这里,你可以使用 cloud code codex 和界面来,我建议大家尽量使用 cloud code 和 codex 比较好用一些。嗯,有两个步骤,第一步,下载 node js, node js 我 已经下载了,我验证一下就 ok 了。 呃,可以看到我已经正确安装了。然后第二步,安装 cloud code, 用户和 leo 使用户一定要将 s u t o 获取管理员的权限, 这里我们就安装完成了。然后我们输入 card 开始使用。注注,只要注意了下是如果你需要使用,必须使用兑换券激活,激活之后,然后就可以正常的使用。 这里就是 card code 最新的使用界面,我们看一下还有哪些模型。 嗯,昨天 coldcode 新出的二 boss 四点五,四点六模型已经上线了,然后这里有一兆上下文的也上线了, 大家尽量使用默认的,默认的更加计费更加合理一些,然后这里就可以解开对话,同时如果你还需要使用 gbt 等不将之的也有。行,就这样,谢谢大家。如果大家需要使用的话,看一下我主页地址,同时也可点个赞和收藏,拜拜。
粉丝1023获赞1.1万

就在今天, astonovic 放出了他们的最强模型 cloud office 四点六这个最强的头衔,它只保住了二十七分钟,半个小时不到, openai 直接在线狙击发布了 gpt 五点三 codex。 这里放一张今天特别火的图,美国的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道我的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道,我的模型评测风格一般,不去看一些奔驰实测, 两个模型同一个 problem, 正面硬钢,剧透一下哈,结果挺意外的,一个功能做全了,但代码有坑,一个代码漂亮,但他前端漏了功能,到底两个模型哪个写代码更能打?看完这个视频你心里就有数了。 好,我们下面来快速过一下模型树懒部分 off。 四点六这边三大亮点,第一个, 它的一个上下文翻了五倍,到了一百万 token, 但目前只能按 api 付费的用户才能去体验。第二个 agent teams, 多代理协助,不是以前那种只代理模式,是真正的团队多个 agent 并行干活,互相沟通,质疑,不通过这个负责人去中转。第三个的话,它整个的一个输出 token 啊,翻倍了,由原来的六十四 k 到现在一百二十八 k, 可以 执行一个更长的一个任务,不中断。好,我们来看一下 gbt 五点三 ko deck 这边在第一项这一块, terminal bridge mark 这个参数呢,它是比 office 四点五要强接近十二个百分点,并且 这个速度相较于它的上一代模型快了百分之二十五左右,我的一个体感非常的明显,特别快。第二个的话是它的一个 首个参与构建自身的一个模型,也就是说他用早期的版本来 diabag 自己的个训练管理部署,然后针对评估 ai 帮自己 diabag, 想想就挺科幻的是不是?第三个的话是以前扣贷干活你只能等着,现在你可以随时介入,随时去调方向,不用先停止了。 那真实项目这一块的话,我给他准备了两个项目,第一个让他去做一个跨项目的一个迁移认证体系,也就是说我有一个纹身图的一个 agent, 我 要让他去参考另外一个项目,把那部分啊,谷歌邮箱登录、 github 邮箱登录 认证全部给他摘过来,这个考验他对另外一个项目的探索能力、架构适配能力。但第二个项目的话,我之前做了一期视频,是讲 skill 的 加载原理的,那并且我也做了一个开源项目,把它放出来了,那个时候是一个终端交互的一个性质,现在我把它做成一个外部 y。 第一个是 cloud 四点六完成的一个落地页,大家觉得怎么样?就一般般吧。那它在登录这一块的话, github 谷歌邮箱注册全部搞定了,没有任何的问题,我们也可以试一下,点击 可以看到它能登录成功邮箱也是对的,那整体这一块的话,它是整个完成度还 ok 的。 我们来看一下 gbt 五点三 codex 表现怎么样。 首先落地说实话不太行,比较简陋,大家看它的那个集成登录的情况,只实现了 get up 后端的代码,谷歌那边它也完成了,但是它没有在前端上写一个按钮。整体这一块的话,我会把票投给 cloud off 四点六 单看功能这一块哈,但是后面还有坑,待会我再慢慢讲。好,下面我们来看另外一个项目,就是给一个 skills agent 去加一个 外部 ui 嘛,因为之前是终端,我们来看一下,也就说我有这样的一个项目啊,这个项目是去使用当前一点零去构建了一个 skills agent, 演示了这个三层加载的一个原理嘛, 那主要的一些特性的话,就是有一些流势输出,然后托肯的响应,显示工具的名称,执行的过程,展示三层 skills 的 一个加载过程。原来的话是通过终端 ui 去交互的嘛,现在我希望他给我们做成一个外部版本,我们直接来看结果, 这个是 cloud 的 off 四点六完成的,这个 ui 太简陋了。 ok 来给了一个这个平台的文章,让他去做 思考,他会去做加载技能,然后去分析,再提取,再做其他的一些任务,看他能不能做到。 ok, 可以 看到他有调用的 skill 去加载这一个 skill, 然后他去执行那些命令,他发现这是命令有问题,他这个时候需要去安装相关的依赖, 那这个的话就是 gpt 五点三 codex 完成的,左边是他发现了我安装了哪些 skills, 并且右边你可以开多个聊天框去聊天,我在提示词里面其实有让他去要去实现对应的一些指令,那 gpt 五点三这一边的话是完成的非常好的。好,我们来试一下, 可以看到这边它加载了就是新闻提取器,这个时候它会去执行霸性,跟那边一样,因为一些依赖问题,这个先忽略它,总之就展示这一个加载的过程嘛, 很明显 gpt 五点三 codex 完成这个版本会比 off 四点六会好很多,我感觉不管从 ui 上交互上, 这一轮我会给他投票。好,我们来看一下完整的一个对比结果。第一个项目就是给这个 agent 加上一个用户认证体系嘛,主要是 email, 谷歌认证 get up, 然后从另外一个项目迁移过来。我们来看一下评分情况, 对话人数大家都用了第一轮,那功能完整程度的话, off 四点六这边要完整一些,所以给了他九点五分。 那 gpt 五点三这边因为它漏了嘛,所以说它的评分要低一些,在 ui 上的话也是这边会好一些。在代码架构上这个就有有的说了,在代码架构上的话, off 四点六这一边就是快,但它整体的实现其实有有一些漏洞, 那 gpt 五点三扣带这边它就像一个更有经验的工程师一样,然后整体的代码架构,工程规范都很完美, 为什么会得到这一个评分呢?给大家解释一下这个评分怎么来的。他们两个模型把代码写完, get commit 提交完了之后, 我用了他们两个最顶尖的模型去 review 代码,先让 off 四点六去 review 啊,两个人写的,再让 gpt 五点三 code 是 两个人写的,大家得到的结果都一样,就是 gpt 五点三 code 写的代码要好, 只不过在功能实现上它漏了,以及在落地页上它的实线会没有 off 四点六那么好看。但是代码这一块的话, gdp 五点三扣袋子这边肯定是要厉害一点的。 那整体总结一下的话,在代码架构上扣袋子要领先一些,它全链路的用户隔离、迁移、脚本测试覆盖都写到了。但实际功能体验上的话, off 是 因为它三种登录都可用, 然后 codex 它这边缺少了一个谷歌的,我不知道它为什么会缺少的。哈,那 ui 设计上也是 office 更优。那第二个想法,就我们刚刚看到的,我们把这个 skills agent 的 一个终端 ui 变成一个 web ui 嘛,那这块的话, gpt 五点三就明显领先了,不管是在 ui 上还是整体的代码实现上, 都要领先于这个 off 四点六。所以说我觉得整个这一次的发布来看的话, off 四点六它的代码提升并不是特别明显,反而这个 gpt 五点三 codex 相较于 gpt 五点二 codex, 我 认为它们提升了蛮多的。因为这几天我也一直在用 gpt 五点二 codex, 以前是速度有点慢,现在是速度又快,质量又高,我觉得未来 g p t 五点三 codex 大家会用的特别多,不像以往一样,大家可能都用 cloud code 的, 现在的话多了一个选择,并且它更便宜。我做这一期测试,我把这个 off 四点六这个模型的 整个五个小时的窗口全部用完了,但是这个我只花了二十道订阅了,它还没用完,一直可用,一直可用,很爽,速度又快,那为什么不选择一一个便宜,质量又高的呢?所以这一轮总结来看的话,就是 codex 整个代码实现明显领先,功能实现也领先,整个 uiux 都领先,所以说我把票投给了 codex。 好,我们来一个总结,第一个项目去做跨项目的一个迁移认证,这轮 off 四点六渗出, 第二个把一个终端 ui 变成外部 ui, 这一个 gpt 五点三 codex 渗出。那整体平均来看的话, codex 是 要领先一些,因为它这一次提升真的非常明显,速度快,成本更友好,而且后续的话我会更加的去增加我整个 codex 的 一个使用频率。 ok, 这就是这一期视频的全部内容了,如果你觉得视频做的不错,可以给我一键三连,谢谢大家,拜拜。拜拜。

早上好,家人们,我是鬼子,昨天上午 opus 四点六发了,还发了一个 team agent teams, 我 早上用它做了个视频,说我一小时写了一个 cloud 的 桌面端, 当时我确实很震惊,因为这个事情就是 cloud 的 ui 和 cloud 的 core 的 本身其实连接这块儿很不好做,所以来介绍一下。 我昨天用了一天时间,我给 op 四点六,他给我做成一个客户端了,而且颜值高了非常多,所有的功能全部都齐全。来介绍一下 code palette, 昨天 op 四点六一天做的 cloud code 客户端,目前已经开源。这个客户端主要的能力,它几乎支持 code 的 所有的功能,你的 选择,选择文件夹,切换模型,我们的斜杠命令,你的 skills, 什么调用 skills 都可以。而且它有很多易用性的设置,比如说你可以可生化的去控制你的 cloud code 的 配置文件,你在这儿配置完直接就保存就可以,没有问题。它还支持第三方的 a p i 去配置,比如说这儿 你就可以配置你常用的第三方的 colocode, a p i 也可以。呃,当然,如果你 colocode 本身是授权安装的,或者是你已经改了环境变量,你不需要在这设置,它直接就能提取到。你不用管这个事,格式化的管理你的 skills 和 mcp 文件,还有你的 plugin 直接预览, skills 也可以直接新建,这儿可以新建,你也可以改以编辑和改 skills, 点 m g 可以 直接在这儿修改和预览,还有编辑删除都可以。然后在这里边你可以去 你所有的聊天记录都在可乐扣的最大的一个问题,对于很多小白最大一个问题,我找不着我聊天记录,很多人觉得我的聊天记录其实很有价值,但是我找不着,你用这个就可以找到你所有的聊天记录都保存这样,而且他跟你的文件夹是绑定的, 而右边的话你可以预览你文件夹里所有的内容,这就是你文件夹里所有的东西,它如果是竖的话,它会支持可以预览,但是可以预览, 然后目前只支持了那个文本。哈,后面我兼容一下这个多模态的这个,如果他遇到这个视频和图片的话,就让他打开玉兰,然后你可以改你这个标题,然后也可以去,然后我们这这里边的聊天里边,你看会有会有玉,就是这个你这句话说了多少钱的玉兰? 然后这边新版本可以快速复制,现在我这个是旧一点的版本,新版本可以快速复制,然后你可以在这里快速的查看你的 cologoldoc 的 连接状态,他会告诉你连接还是未连接,如果没有连接的话,你应该怎么去安装 cologoldoc 的? 都是有的, 包括说我们这个删除搜索,基本上跟你看到的市面上的所有的 agent 软件都一样,就等于我实现了一个 co worker, 但是呢比 co worker 更强大,因为它支持 cologoldoc 的 所有的功能, 而且它还是开源的,你可以随便的改。对,这就是昨天用 oppo 四点六和 agent tims 做的可乐扣的桌面端,叫 code palette, 当然我们也可以切换这个明暗模式,都非常漂亮,主要是都非常漂亮,昨天有人喷这个也叫 u i 喷我的人,看看现在这个算不算 u i 朋友们,这个算不算?然后你这个模式切换,这会有 左边会有显示,他会显示当前是什么模式,当前是什么文件夹,什么时候聊的天,同时如果这个聊天这个文件夹正在工作,你看这个文件夹如果正在工作,他会有个红点,你切到其他文件夹再回来,他也会告诉你,他会告诉你哪个文件夹正在工作,就是哪个聊天记录正在工作,这个也是非常好的。 好,就是这些,我们来看一下这个 agent teams 到底是什么东西,就是它可以将一个主的 master 智能体委派给你多个队友,就它会有一个主的智能体控制你多个角色的 agent, 然后让他们相互协助,然后展开调研、调试和构建工作, 然后他们之间是可以互相通信的。每个 a 阵的主 a 阵呢,可以实时的知道子 a 阵的进度,子 a 阵也可以主动汇报给主 a 阵的,所以他们的写作是非常顺畅的。如何起用?其实非常简单,你就找到这个官方文档,然后把官方文档的 扔给他,官方文档直接扔给可乐扣子,让他帮你起用就行,其实就改个参数,他直接就能可以帮你改,然后有一些使用技巧哈, 你可以看到官方文档里有那个使用建议的提示词,就说你要给每个 a 阵子设置角色,每个 a 阵子在干嘛?你可能很头疼,我就是一个任务,怎么我,我还得想这些,你,你还是老问题,你把官方文档扔给他,你就说我要实现一个什么什么任务,你帮我构建一个 a 阵的 teams, 然后你也可以说直接让他帮你去写提示词,写 a 阵的 team 提示词,然后写完以后你审核,也可以说直接让他帮你构建一个 team 词, 让他直接执行就可以了。第二个是前期调研是比较重要的,就是我在昨天写这个客户端的时候,发现前期调研非常重要,在一些客户端选型,在一些架构上,其实你的选错一步,后面就会非常难受。 这里建议就是你要增加一个调研的角色,无论哪个需求都要增加一个调研的角色,让他去查看目前可付用的市面上最好的东西的架构选型应该怎么去结合,要不要去切架构,这些都需要。 哪怕你,哪怕你是说你要去优化 ui, 你 都要去让他找市面上说最好的图标库是什么,然后组建库是什么,这些都要去做。 然后第二个是第三个是 team 的 角色,不要用原来的软件工程去设计,就是我们实际上人是没法变的,你知道就是你,你给你配了什么队伍,你很难配,除非说你开了重新招人干嘛的。但是这里边 team 不是, 就是你可以针对性的设置每一个软件工程的角色,甚至让他有特长。就比如说同样是 qa, 在 去测评逻辑的时候,它就是 code review, 然后去测评那个测评的那那个功能啊,功能逻辑,实现逻辑,然后如果是体验优化,那你这个就可以去搜查视觉,搜查体验就是它,它的长度可能在体验那边同时监 qa 和代码,这个都是可以设置的, 所以不要让自己原有的这个工程能力和工程思路固化。好,这个就是今天发的内容,主要给大家介绍一下昨天发的 logo 的 桌面端 code palette 和我昨天用 op 四点六和 ai team 四的一些感受。 这个时代确实不太一样,就是我发现真的只要你敢给 ai 花钱和敢给 ai 权限,他能做到非常厉害的事情。 你像写个 ios, 写个 macos 客户端,然后非常好用,没有 bug, 所有的功能都能用一天产出来。我以前是根本不敢想的,我觉得很多程序员以前也不敢想。最后说一下这个图标,图标很有意思,为了避免这个 cologne, 我 按所 pick 去,就是即使开源它也有,它也会说你侵权嘛。 所以我做了一个这样的图标,就是从它原始的那个图标的发放射性的那个菊花形状,变成了一个体束的放射性的形状, 你猛的一看有点像,但是他又是一个立体的提速的形状,也很漂亮。你看放在这一堆非常放在这一堆非常著名的工具里边,一点也不违和,而且非常漂亮。好,这就是藏师傅今天的分享,我们明天见。

open code 最近真是太火了, github 上已经有九万多 star, 我 估计全球的大模型厂上都在针对 open code 做测试调优。 open code 是 目前真正能凭借 cloud code 的 工具,也是二零二六年到目前为止最火的 ai 工具。 open code 呢,目前只提供了英文文档,我按照其英文的文档,同时结合了 cloud code 的 学习资料,梳理了一份详细的 open code 的 中文操作手册,包括安装 基础操作、进阶使用等,如果你需要,我也可以发给你。上期呢,根据文档手把手带大家安装了 open code, 相信很多朋友已经感受到了它的强大。本期是 open code 的 第二期,主要带你完成三件事,一、免费进入最强编程模型 gemini 与 cloud。 二、教你安装 skills 与 m c p。 三、安装超级增强插件 all my open code。 话不多说,直接上干货。首先先教大家如何不花一分钱接入 cloud 模型。这里我们要接入一个 google 推出的工具 anti gravity, 中文名是反重力,它本身呢是一个 ai 编程的 ide, 内置了 gem 和 cloud 的 这两个顶级的模型。 在 gethelp 上找到 anti gui 的 这个插件,复制这行安装指令,回到 open code 里粘贴 open code 呢,就会自动下载安装。安装完成后,重新打开终端,复制这行指令回车。 然后我们选择 google, 选择带有 anti gui 字样的这行回车,接着就会跳转到浏览器,登录自己的 google 账号,复制这个 url, 粘贴到终端回车。这样我们就配置完成了。 重新打开一个终端,进入 opencode, 输入 gunmodels, 我 们就能看到 gemini 三 pro 和 cloud 四点五 opus 的 这两个模型了。我们测试一下输入,介绍一下你自己可以看到它正常的输出,证明我们接入成功了。 从现在开始,全是顶级大脑在为你打工,有了顶级大脑呢,还得有强力的四肢。接下来我们要给 opencode 装上它最火的灵魂同版包 oh my opencode, 它内置了七个顶级的编程 agent, 通过多智能体分工协助,帮你自动完成写代码,查 bug, 梳理项目结构的这些开发工作,不用再手动处理很多繁琐的细节。据说呢,是作者花了二点四万美金才搞出来的。安装呢也很简单, 复制 github 上的安装指令丢给 opencode, 它会询问你是否有 cloud 的 gpt 和 jimmy 的 会员啊,你就如实的回答,大概需要一分钟的时间,插件就安装好了。 重启 open code, 可以 使用艾特命令,从七大智能体中挑选一个帮你执行任务。或者呢,直接在提示词里呢输入 u l w, 意思呢就是 ultra work 就 可以使用 oh my open code。 接下来教大家如何在 open code 中使用 scales, open code 呢,可以无缝衔接 cloud code 的 创建的 scales。 首先来到根目录,新建一个文件夹,命名为点 opencode, 再新建一个 scales 的 子文件夹。然后呢,把你的 scale 复制到这个文件夹,就可以在 opencode 中使用了。当然,我们也可以直接在 opencode 中创建 scale, 需要先安装 scale 杠 creator, 有 了它就可以用自然语言来创建 scale。 我 们让 opencode 自己去安装这个 scale 杠 creator。 安装完成后,我们测试一下,让它创建一个翻译功能的 scale, 它会根据你的要求自动执行并创建。创建成功后,重启 open code 就 可以看到这个 skel 已经有了。最后呢是配置 mcp, 我 一般呢都是让它自己来安装 mcp, 比如安装一个浏览器 mcp, 我 会这样在这个 open code 中输入安装 chrome mcp server, 稍等一会它就安装成功了。有些 mcp 呢,需要配置 k, 我 们也可以把 k 给他,让他自己去配置,这样我们就不需要自己去手动去配置了。 然后输入杠 m c p s, 就 能看到所有 m c p。 从白嫖顶级模型到手搓专属 skills, 再到部署全能 m c p, 现在的 open code 应该已经是你的超级 ai 助手。 open code 的 不仅能进行零代码编程,更能帮你处理文件、整理资料,智能写作。下一期我会带大家继续进行进阶的学习,大家点点关注哈,跟着阿亮学 ai!

不知道今天大家的微信和朋友圈是不是都被刷屏了,那不管你有没有领到免费的奶茶在大洋彼岸呢? cloud 重磅上新了它的 op 四点六模型,然后我自己的体验下来,我觉得它是一个超级聪明的人类实习生,我都要向它学习如何去解决问题。 那我觉得这个新模型有两个非常优秀的点,就是第一个是具体的问题主动解决,执行一步到位。那第一个需求呢?是我现在在用的这个白板,其实是一个需要订阅付费的软件,但它在 github 上开源了它的所有代码, 所以我希望它能不能帮我搭建一个基于本地的小软件。我把我具体的需求发给他了之后,由于这个整体的描述非常的具体, 所以 cloud 在 接到我的所有任务当中,他没有询问我该如何进一步的操作,而是自己跑到 github 上把整个代码下载下来,然后把它打包成了几个文件发给了我。 就是关于所有的具体问题,它都会一步到位的执行。同样的任务,我仍给 manage 和 gpt 的 时候,它们都是进行了一通分析,然后告诉我应该选哪个方案,但它们没有具体的帮我执行出来。我觉得第二个这个软件非常优秀的点,就是关于任何模糊的问题,它会询问用户具体的场景和具体的需求,就比如说基于它给我的这 五份文件吧,我就会有第二个需求了,我其实是一个电脑小白,我看到这些文件也是两眼一抹黑,所以我需要你给我一份安装这些文档的操作指南, 那这个时候他就会开始询问我,我是 mac 系统还是 windows 系统,是否安装了一些基本的数据库?包括他在询问我这个问题的时候是保留了我不知道这个选项的, 同时他的这个询问并不是让你在回答窗口自己打这个字,而是他会给你两个选项让你进行选择。其实这个功能在早期的模型里面是有安装的,但是我觉得当时可能是由于模型还不够智能,他并不能具体的去检测到你有这样子的意图, 包括如果你在使用 cloud code 的 时候,它其实也是会有这样类似的功能和操作。但是我觉得今天的这个体验就给了我一种啊哈 moment 的 感觉。 那我今天最深的体会就是我在和 ai 沟通的过程当中,它好像真的一个非常聪明的人类实习生,关于我给了它非常具体立即可以执行的需求,它会立马就去做这件事情, 不会再询问我的意见。而关于一些比较模糊性的问题,或者我自己都没有意识到我不知道问题,他会进一步的询问我的场景和需求,那我觉得这也是我未来作为一个人类实习生需要去模仿和学习的点。我自己在 那说完了优点,那 cloud 的 券在哪里?我的结论就是它真的太贵了。就我日常使用 cloud 其实不是一个频次非常高的人,但是我每周在使用的过程当中可能会有三到四天就会触及到它整个使用的上限了,然后会让我升级到一百刀的订阅。但是我自己在 同样频次或者说更高频次使用 jimmy 和使用 gpt 的 方面都是没有这样子的问题的,所以我觉得如果你不是一个 ai 的 超级重度用户,可以尝试体验一下 cloud 的 基础订阅版或者免费版本。我觉得他在模型能力上还是有一些会让你觉得很惊艳的地方,比如说你可以让他给你写个游戏或者做任何事情, 包括和他探讨一些哲学问题,我觉得这都是我觉得这些都是我觉得这些都是 cloud 的 这个模型表现的还不错的地方。

大家好,我是 kate。 opt 四点六和 gpt 五点三 codex 都在今天发布了,我呢会先介绍一下 opt 四点六, 它呢,目前为 pro 用户和 max 用户都提供了额外的五十刀的使用额度,我们需要在两月十六号之前领用,你可以在设置使用量这里,然后起用额外的用量。假设你是 pro 会员, 超过了五小时内可用的量,那你就可以起用额外的用量,无论在 c c 里或者是 cloud 的 官网上都可以用这个额度。记住呢,这个额度是有两个月的有效期, 现在正式看一下 office 四点六这次上下文呢,升级到一百万的 tock, 在 两百 k 以下的定价呢,是和之前的 office 四点五定价是一致的,超过两百 k, 它的定价的话就会有较大幅度的提升, 这次非常好,它的输出呢,最大是达到了一百二十八 k, 也就是说 opt 四点六现在能帮我们完成更复杂的呃, 需要更多 talk 的 任务。 ansocopy 这次特别强调。呃 opt 四点六呢,它是在办公方面表现得更好,无论是文档啊,电子表格还是演示文稿。 就在我的体验里, coreld 模型它在做 excel 电子表格的时候的确是做的是最美观的。但就搜索能力方面的话,我目前觉得还是 gbt 在 搜索方面更好。在 antisocopy 发布 opt 四点六的时候呢,它的 terminal bench 二点零 在当时还是呃目前最高的,但是后来 gbt 五点三 codex 发布之后,那就是呃 codex 更好。 这次呢, up 的 四点六在人类最后测试方面非常优秀,在上下文解锁方面也是非常优异。这张图呢,是呃 gbt 五点三 codx 的, 我们可以看一下它的 swbench pro 的 得分呢,非常高, 还有它的 terminal bench 二点零,达到了七十七点三。我们再看这样一个对比,上方是 opt 四点六,下方是呃 codex。 在 多语言编程方面, opt 四点六相对 opt 四点五呢,是进步有一些,但不是特别多。 在 agenix 设置方面呢, opt 四点六对比 sonic 四点五是进步非常多,还有一项机制呢,特别值得关注一下。 opt 四点六,它在有工具的加持下, 它的人类最后测试的得分呢,是要比 gbt 五点二 pro 要呃高上一些。 gbt 五点二是非常聪明的,但是使用的时候特别慢。 那我们现在看到 opt 四点六呢,居然在这个指标上是要超过 gbt 五点二 pro 了。 opt 四点六呢,现在是有四个努力等级可以选, 我们在 c c 里的话,可以通过斜杠 model, 然后通过左右按键来切换它不同的努力等级。四点六呢,现在接近上下文上线时自动摘要和替换旧内容,执行更长的任务不再受限。 而且 cloud 呢,现在可以自主判断何时需要更深入的推理。 ansosopik 还推出了 c c 里的智能体团队,还有 excel 里的 cloud 呢,表现更好。这次呢,他们还面向 max 会员推出了呃 ppt 里面的 cloud 插件。先来看一下 c c 里的 agent teams, 多智能体协助编排。我们现在看到的是 empercode 的 呃工程师,他使用 c c 里的 agent team。 起用之后呢,我们可以看到它是右边呢,有四个啊团队,这四个团队呢,它给它分配了这几项任务。什么时候使用 agent team 呢?官方给出一些例子,比如说研究和评选新模块或新功能, 它们是可以互不干扰,并行推进开发。还有竞争性假设调试, 跨层协调。 agent teams 呢,它会增加协调开销,并且比单个绘画呢消耗更多的 toker。 子代理和 agent teams, 它们的区别我们可以看一下。子代理呢,它会将结果返回给调用者, 而 agent teams, 它完全独立运行。 agent team 呢,它的队友之间还可以直接通信, 共享任务列表。 agent teams 默认是禁止的,所以需要启用一下,可以通过这样的视力提示词来提示它。它的显示模式呢?分进程类模式,还有分屏模式,您可以指定队友和模型, 要求队友提交计划审批,直接和队友对话等等。官方给出了呃,两个实战的案例, 我们可以并行代码审,也可以竞争性假设调查,通过让队友互相质疑,存活下来的理论更可能是真正的根音。目前 agent team 呢,它还处于实验阶段,有些限制。 opt 四点六,对比 opt 四点五, 它在 excel 表格方面的话,我们可以看到明显在 excel 表格上处理的样式。嗯,还有处理的维度, 表格展示的更好。它在 excel 表格方面,我们会看到它有这样的图标,对比下方也会展示的更美观。但就我自己体验。 office 四点六,它在 ppt 制作方面的话, 那我觉得的话,它的样式做的还是比较一般的。我之前呢尝试过,因为我是 pro 会员,在 excel 里用它的插件 让它做出来表格,的确排版比较美观,但是它实在是太好 top 了, 简单对话了几次,呃,那我当时五小时之内 pro 会员的可用额度就被就没有了。它的表格的深度是没有当时呃 gbt 五点二 thinking 做得好的,现在也可以在 ppt 里面使用 pro 的。 这是一个原声线路的侧边栏,不过目前呢,只有 max team 和企业用户可以去使用。官方呢,有一个呃,薄文介绍,用十六个智能体从零开始,用 rust 编写一个 c 翻译器, 最终呢,能够翻译呃 linux 的 内核接近两千次的 c c 绘画,两万 api token 的 费用。 最终呢, agent 团队呢,产生了一个啊,十万行的翻译器。通过 agent team 多个 crowd 的 实力,在共享代码库上并行工作,无需人类主动干预。为了驱动自主进展,作者呢,构建了一个支架,将 crowd 放入一个简单循环里, 当他完成一个任务的时候,立马接手下一个作者呢,他会告诉 crowd 要解决什么问题,并且要求他将问题分解成小块,跟踪当前工作进度,判断下一步做什么,然后持续工作。他认为病情调试多个问题呢,效率要高很多。 运行多个 cloud agent 呢,允许专业化分工。它的运行 cloud 实现非常简洁,一个裸的 get 仓库,每一个智能体启动一个多克容器仓库,挂载到 upstream, 每个智能体在 workspace 中克隆本地副本,完成后从容器啊推送到 upstream。 为了防止两个智能体同时解决同一个问题,那它们设计了一个简单的同步算法,可以通过写入 task 目录中的文本文件来锁定某个任务。 如果两个智能体同时任领同一个任务,那 get 的 同步机制呢,就会迫使第二个啊智能体选择其他的任务。当 crowd 完成任务之后呢,它会从 upstream 来拉取合并其他 agent 的 更改,推送自己的更改,并且移除锁定合并冲突的时候, crowd 会自己去解决,这样的话就会无限循环。他也分享了和啊 agent team 编程的一些教训,第一呢是要编辑极高质量的测试, 第二呢是站在 crowd 的 角度思考。作者不断提醒自己,这个测试支架是为了 crowd 编辑的,而不是为了我自己,所以要特别关注上下文窗口污染 时间感知的缺失。第三呢是让并行变得简单。第四呢是多个 agent 并行呢,也实现了多样化的分工, 他为不同的 agent 分 配了不同的角色。最终这个项目呢,它是花费了啊,非常多的费用,在大多数编辑器测试套件上面的通过率呢,非常高,编意并且运行了一个 dom 游戏,他也有一些已知的局限。有兴趣的观众呢,可以看一下 isoop 官方 开源出来的关于这个项目,我们看到它这里的提交有三千多次的提交。 antisociology 还发布了另一项博文,指的是四点六呢,它发现了呃五百多个漏洞, 开源仓库里的其中呢,约一百个呢,来自于呃 open crawl 项目。 antisociology 工程师介绍 opt 四点六呢,它的特别之处呢,就是开箱即用,无需定制脚手架或者专业提示,就能迅速找到高危的漏洞。它会像人类研究员一样阅读和推理代码, 研读历史修复记录,以找到类似的未解决 bug, 识别容易导致问题的模式 或深入理解逻辑来精确触发输入它们的实验方法呢,是将 cloud 放到一个虚拟机,可以访问开源项目的最新版本。 提供的标准工具有这些,还有漏洞分析工具,但不提供任何关于如何使用这些工具的特殊指令。然后 cloud 呢,它会聚焦内存破坏漏洞, 还有 cloud 自我批判和去同再之后呢,人工安全研究员来验证,他们发现了三个典型的漏洞。 第一个, ghost script 项目, cloud 最初尝试了模糊测试和手动分析两条路径,未获得有价值的发现。然后他就开始转向阅读 get 的 提交历史。接着他就检查其他调用同一函数的代码路径。 之后他就发现啊,有一个地方呢,维护者是修复了,但是遗漏了另外一个地方。第二个仓库是 open s c。 模糊测试再次失败后, crote 开始搜索仓库中频繁出现漏洞的函数。调用 crote 呢,发现这个缓冲区一出有漏洞。 查看模糊测试覆盖率统计后发现呢,传统模拟测试器极少覆盖这行代码,因为触发它需要满足大量前置条件。 crowd 呢,能推理哪些代码片段值得关注,而无需 而非无差别的均员分配经历?第三个仓库呢,是 c g f 这个案件。令人惊讶的不是 cloud 如何发现 bug, 而是它如何验证并表述概念。验证这个漏洞的话是 触发它需要是有概念性理解。即使 c g f 拥有百分百的行覆盖率和分支覆盖率,这个漏洞呢,仍可能不被检测到,因为它需要非常特定的操作序列,我在读这两篇文章的时候,真的是感觉非常有意思, 这完全说明了 office 四点六现在是有多么的强大。刚才我在介绍的时候用的这些页面呢,都是通过 office 四点六生成的, 它生成的页面还是挺美观,正确率也是非常高,速度也是非常快。再看一个我让它生成的 remote 动画来介绍 opt 四点六,我在提示词里面提示让它用到 iso 的 品牌色, 可以看到最后呢,它这个做的还是非常美观的。最后再给大家看一个轻松的画面,我让它做兵马俑跳舞的界面, 那先让他呢,呃,做计划,这是在 c c 里面做的计划,他在计划里呢做的美学方向是陶土色系,时间线呢,分这六十秒, 他设计了五个角色,包括战马,还有不同的士兵,还有将军永,将军永是这里最高大的, 而且他非常好的是呢,他有三个聚光灯,当哪个舞者在表演的时候,他的聚光灯就会啊随机的去切换到哪个精彩的表演画面。他在这里做的角色设计是说这样有一个马永, 他偷偷站起舞,被发现呢,就装没事,这个非常搞笑。以上呢就是今天介绍的关于 off 四点六的所有内容,后续的话我也会对他做更多的测试,非常推荐大家使用。

真的不敢想啊,这个 cloud open 四点六的模型啊,它真的一句话能给你用上百万的 token 呢。然后很多粉丝就说啊,还好我们有这个口手的无线续杯, 然后它是可以用这个 oppo 十四点六 x 的 模型,所以很多粉丝说还不知道怎么安装,然后我这样我重新说一下, 然后这个首先我们先点开这个小心心点一下,然后大家就发一个感谢吧。好吧, 以后点亮这个五角星,最关键一步来了,点击这个分享按钮,点这个分享链接复制起来,复制链接,然后回到桌面上,打开应用商店啊,这个打开这个小蓝鸟,他就会自己弹出一个允许粘贴,有广告就关掉就可以了, 然后点立即查看,点开了之后呢,你看这个就是我们工具,我分享过来了的,然后你们保存,先保存下来,然后点去查看, 然后你看这个工具,然后我们把它可以选择发到自己的这个啊,这两个那个上面,然后发到电脑上面,装去 qq 里面使用就可以了。

一天一个 ai 圈儿,信息差, cloud 的 性能天花板又刷新了 cloud opus 四点六正式上线,定位为 antriplex 最智能的模型,在多项测试中均处于行业领先地位。该模型首次引入了一百万 token 的 上下文窗口,能有效解决上下文记忆混乱的问题, 同时代码能力显著提升,能够更长时间地执行代理任务。这些增强的功能可以应用到一系列日常工作任务中, 比如进行财务分析,并在 excel 中创建表格。同时推出了 ppt 研究预览版,支持根据描述生成换登片,并保持品牌风格。它还新增了自主代理团队功能,用户可以组建代理团队并行协助。 除此之外, oppo 四点六欺骗、谩魅和拒绝正常问题的概率大大降低,在安全评估中表现极佳。


上一条视频我发了一个一个抠搜无限续杯,这个 obs 四点六的视频啊,但是呢那个链接被和谐了好像,然后很多粉丝啊要求让我重新再发一次, 然后我就把今天二月八号了最新版的就发给大家吧。啊,现在教大家怎么弄啊?首先把这个点一下这个爱心跟这个五角星,然后发一下这个 啊,大家都可以发一下啊,然后最关键一步来了啊,点开这里这个分享按钮,然后点这个找到这个复制链接,找到之后回到桌面,我们打开这个应用商店,然后这个应用商店,然后点打开这个小蓝鸟,它会自己弹出这个,我们点允许粘贴, 我们再点这个立即查看,这个就是我们的续费工具了,我们先保存到手机上,点去查看 啊,这个就是我们续费工具,然后你们就可以把它发到电脑上面去解压,然后到 cos 的 拓展里面安装使用就可以了啊。

看起来, entropic 最终给我们带来了另一款强势发布的模型,编号为五。对于之前发生的事情,我感到非常抱歉。不过说真的,我并不觉得抱怨,因为 entropic 正式发布了 opus 四点六,这是迄今为止最聪明的模型。这是一款升级版的 opus 模型,计划更周全, 能够更长时间地维持相关任务,并在大型代码库中更可靠地运行,甚至能够识别自己的错误。但最大的新增功能是能够处理一百万个 tokens 的 上下文窗口, 实在令人惊叹。 open 四点六与众不同,真正的特点是,但它现在不只是用于代码了。 andropik 显然也将这个模型定位为日常知识工作的工具, 包括财务分析、研究建模,以及文档和电子表格的创建与处理, 以及演示文稿。谈到精准测试, opus 四点六直截了当地在多个评估中处于最先进水平。通过 g c 图层,它的表现显著提升,尤其在多学科推理和知识工作中更为出色。以及代理搜索方面,它同样是新的最先进技术, 因此它的得分为百分之六十八点八,这相当了不起。说实话,你能切身感受到这一点,因为 oppo 四点六在推理上明显更出色。在精准测试方面,这个模型目前在终端精准测试二点零中排名第一。 在认知编码上,他也处于领先地位。在人类最后的考试中,在复杂的多学科推理方面,他在 gdp 测试中表现也相当优秀。与 g p c 五点二相比,他的表现 和 g p c 五点二更出色。他在 l 测试中的得分也更高,与 g p c 五点二相比,购买量为一百,而四十四的表现相当令人印象深刻。 最佳性能确实是借助其代理搜索功能。浏览器的表现非常出色,他在寻找难以定位的信息方面, 在这里表现变得相当有趣。 opus 四点六在 excel 中,而且 excel 的 表现更加出色,因为他能处理更长时间的任务。 在更大的上下文中,性能也更出色。它的新功能可以在行动前进行规划,支持如条件、格式等的计划,还支持数据验证,并且可以一次性处理多步骤的更改。 powerpoint 也如此。 因此你可以明显看到连 sophie 正在努力转向有价值的无编码工作流程。而且云代码刚刚获得了重大更新,引入了代理团队。这真是令人印象深刻,因为你现在可以同时部署多个代理, 以平行方式进行协助,一起解决复杂的问题。现在回到定价, opus 四点六的定价式与 opus 四点五相同,每百万输入代币五美元,每百万输出代币的价格是二十五美元。这个价格还是挺贵的,但从这个模型可以获得最佳输出。 该模型的知识截止日期是二零二五年五月。需要提到的是,一百万的上下文窗口目前处于测试阶段,并且在超过二十万待币时,这个价格是高端的。 现在大家还不能完全使用这个模型。我想诚实的说,关于这个模型,如果你的工作涉及复杂的编码和深度研究,深度研究或高要求的知识任务, 或者只是执行方案的工作,这就是你想要使用的模型。它确实很昂贵,但你可以显然使用 sunny 来处理较轻的任务 或更随意的使用。所以,如果把这两个模型结合起来,你应该能够获得最佳效果。但如果你想要真正的自主工作, 或者一些人称之为气氛工作的方式,那么你可以使用 opus 四点六来获得高质量的第一监督 ai 输出。这非常酷。我想提醒云订阅用户,你可以领取五十美元的免费试用额度。 这是在测试云 opus 四点六的内容。在使用设置中,在这里,你可以轻松点击按钮领取这项信用。 如果你现在想试用这个模型,目前你不能在云 ai 聊天机器人中试用它。你需要升级才能访问 opus 四点六。 不过,如果你想使用应用程序编程接口,如果您想免费访问该模型,可以这样做。您可以使用奥莱 marina 平台,这个平台已更名为 rena。 您可以在这里选择 opus 四点六的思维模式。您可以生成任何想要的内容来测试这个模型。您还可以通过像 openwater 这样的提供商使用另一个 api 或免费的 kilo code 使用。您可以使用 kilo 提供的二十五美元信用额度以 a p i 形式访问该模型。如果您想更快地使用 di 构建,我会分享我的工具和工作流程。在我的免费新闻通讯和下面的描述中,你可以找到相关的提示。 您可以免费订阅。现在来看看这个输出吧,因为这确实令人难以置信。这就是有人竟然一气呵成制作了一个我的世界克隆。使用 oppo 四点六的这个功能真是令人惊讶,包含了云代码的多团队特性。 它实现了我的世界游戏的所有功能。你可以探索多个地形,你可以进行动态移动,还可以在各种方块上放置物品,你可以破坏它们,还有更多的乐趣。这展示了该模型的整体生成效果。 现在给大家展示一个通过 opus 发来的很酷的演示。这是四点六版本,用来测试编辑 python 代码,模拟一个带红绿灯的单行道, 随机让汽车驶向红绿灯。你可以看到这个 python 脚本产生了完美的效果,它专注于展示单行道交通模拟, 你可以看到它做的非常棒。总的来说,所有通过的汽车速度都很高,通过 dick 功能展示并输出 python 代码。现在我们来聊聊前端。这个模型的代码得到了很大提升,你可以看到 它的用户体验设计中增加了新元素,它能为前端生成一些不错的内容,并请求它生成一个相关的代码。在这个版本中, oppo 四点六被请求创建一个对其页面。 被请求创建一款太阳系模拟。它在处理长上下纹时表现出色,全面覆盖了我们太阳系的所有组成部分。每颗行星都有生动的动画,也有对应的描述。更令人惊叹的是,它还编写了每颗行星的卫星,让人感到惊奇, 这真是令人惊讶的。我注意到这个模型的速度比我之前在 oppo 四点五看到的快的多。 这很有意思,它的推理速度不再像以前那么慢,质量也并不差,不过它的推理过程更快了。我还注意到在调试方面,这个模型表现的很优秀,现在有了更大的上下文。 它能够更轻松地处理大型代码库,而且效果也比之前更好。在接下来的步骤中,我请求生成 op 四点六扩展思维模式,生成了一只蝴蝶的图像。 在图像代码生成上,这个模型表现的非常优秀,而我根本没有请求他做动画。通过添加这些内容,他做的更好。外部特性使得效果更佳, 而且它的速度比 crock 四点一还要快。这部分仍在生成代码。接下来是我请求生成一幅画的 svg 代码。我没想到开放的四点六版本会生成这样的内容。这是这幅动画画作的精彩呈现。 蝴蝶在周围飞舞,花朵也在摇曳,这幅画的环境特征也被呈现出来,而且动画效果很好,运行的相当流畅。 但与四点六相比,这是输出结果,可以看到其中的层次。现在我们来看看下一个长时间运行的测试。游戏环境作为现实代理工作的替代方案, 因为这迫使人工智能进行规划,提前管理,资源优化,多个目标保持一致,而不是仅仅解决一个短题。是,这里是这样的, 有人对 oppo 四点六进行了比较,对 oppo 四点五进行了比较。而 oppo 四点六显得更具战略性。他在前期规划上花费了更长的时间,同时训练了多个技能,在战斗中埋藏骨头以清理库存。他高效地完成了所有这些步骤。 这表明 opus 四点六的操作更加谨慎,而且更加注重策略。与 opus 四点五相比,小测试展示了其实施过程的显著改进。 opus 四点六模型在 klo 代码中什么样的表现呢? 我要求 ai 机构为这个登录页面创建前端设计,它的输出表现非常出色,令人惊讶的是,它的成本非常低,实际只花了八十二美分, 输出的质量真的令人惊叹。你会发现这个前端的排版元素组织的非常美观, 并构建的很适合这个登录页面,因此它在为我们创建这个极简的登录页面方面做的非常出色。在 ko 代码中,我让 ai 代理为大西洋页面创建这个前端, 他这个输出的效果相当出色,而且出乎意料的,他的成本很低,花了八十二美分,而且质量在这里简直令人惊叹。 你会发现前端的排版元素组织的非常美观,这些元素是为适应登录页面而构建的。设计真成功为我们打造了这样一个极简的登录页面,真的很棒。现在这一切实在是太疯狂了。 这里有人用四点六版本制作了一个口袋妖怪克隆,而且这个游戏的所有功能都正常运作。 在这里你可以自由移动。背后还有一个故事,这一切都是一次性完成的。显然这种一镜到底的方式并没有什么特别的,但你拥有的所有这些组建其实是非常出色的。输出这样的大背景真是令人惊叹。比如说能够 与多只宝可梦对战,动作和音效都很出色。这里有人真正创造了一个飞行模拟, 不过我想这其实不是真正的飞行模拟,只是由 opus 四点五生成的,因为它确实使用了新的 gpc 五点三来生成实时计划。这个计划是 opus 创建的,而且你可以看到 gbt, 而五点三在代码能力上得到了巨大的更新。坦白说,他在整体规划上做得相当出色。 坦白说,我会诚实的说。在这里,我创建了一个启用开放四点六的浏览器操作系统,我让他在这里复制 macos 操作系统。在这种情况下,他的表现还不错,但我认为并不是最好, 其他模型的界面处理更好。不过从功能上来看,实际效果是明显的。这些功能确实都能正常工作。这些应用程序本身非常出色, 就设计而言,这是这个版本唯一的不足。而在其他方面,你有一些很好的功能,而且明暗主题也有效,挺不错的, 还可以更换壁纸。总体来说,这个操作系统的功能相当实用。这基本就是今天视频的内容。本次是关于 oppo 四点六的讨论,算是一次很不错的升级,它比之前的 oppo 四点五聪明多了, 而且将来会变得越来越好。这个模型在一成能力方面表现非常出色,无论是与编码相关, 还是与日常应用中的智能 ai 代理相关,例如在你的电子表格或 powerpoint 中使用的应用。 还有更多值得一提的内容,我强烈推荐你去看看这个下面描述中的链接。好了,感谢大家的观看,希望你们喜欢今天的视频,并从中获得了一些价值。我会提供相关链接,下方有这些链接,记得去看看哦。订阅第二个频道,加入邮件列表加入 discord, 关注 twitter 最后,有些问题大家可以订阅并点赞这个视频,请大家查看我们之前的视频,这样你就能了解最新的人工智能新闻,但这个团队会面时传递正能量,而且他很快就会离开。

前几天我不是做了一个免费版的 cos 无限续杯嘛,然后我发了一天用 cos 去 ai 编程的视频啊,后面很多小伙伴都来问我,我的这个无限续杯工具是怎么弄的? 然后现在教大家安装一下这个工具啊,一定要看到视频,最后教大家怎么完整的安装去使用。第一步我们先点右下角这个分享按钮,然后点这个复制链接,然后回到桌面上啊,打开这个,然后再打开小蓝鸟, 打开之后他会自己弹出一个允许粘贴,我们点一下就行了,然后他自己就会弹出一个立即查看,我们查看,然后就保存下来,保存,然后点去查看, 然后这个就是我们的工具了,你们自己把它发到电脑上,安装到扣手里面就可以了。

雨果告诉你,一份通常需要投行分析师熬上两三周才能完成的工作,现在只要几分钟,连 ppt 带数据分析全部搞定。你敢相信吗? cloud ops 四点六来了, 这次他不是来辅助你的,他是来接管你的工作。硬指标直接拉满一兆的上下文和一百二十八 k 的 超长输出。在代码和逻辑推理上,他在各项指标上全面超越 gpt 五点二。特别是在金融法律领域,他的一楼分数比 gpt 五点二整整高出一大截。 但最吓人的是它的原声 engine teams 功能。以前你用 ai 是 一人一号,现在它能自己分解出一个团队,一人拆解任务,一个负责写代码,还有一个负责交叉验证。它们之间会自己开会,自己吵架,自己修正,最后由 team leader 给你一个完美的规则。 对于打工人来说,这次的 co worker 和 office 集成才是真正的杀手锏,它能够直接读你电脑里的本地文件,一边跑出去,一边在后台 来做了参与分析。讲到 excel, 他 不再只是写公式、透视表、报表甚至财务对账意见深层进到 ppt 里面,他还可以直接调用你们公司的 ppt 模板,从字体到配色,深层的换图片,直接就能拿去汇报。从禁止调查到最终的 ppt, 教父 pro 的 op 四点六已经打通了认知工作的最后一公里。这就不是一个简单的工具升级,而是你真正拥有了一个不知疲倦的顶级专家团队。