就在十几个小时前,有开发者在 google ai 的 后台看到了一串陌生的模型代码,哎,零二零三是今天日期啊!消息一出,全网热议,紧接更多的线索被扒了出来,那么 as rapid 代码仓又更新,有人还截到了内部日记写的蒸馏成功,内部代号叫大耳狐。那么这个索尼五到底有多猛呢?据说啊,价格比 oppo 四点五要便宜一半上下,门窗口直接拉了一百万的 tokyo。 一百万套是什么概念呢?就是整套的哈利波特,一口气读完,还能跟你聊细节。另外还有一个热议的重点就是这个 cloud code 要搞多智能体了,以后可能会有前端专家、后端专家、测试专家,三个子 agent。 以前呢,是一个 ai 帮你写代码,以后可能是一群 ai 自己开会,自己吵架,自己出方案,然后你急需求喝咖啡,坐等结果。目前的现状是,老用户还没捂热,新模型随时上架啊,这种凌晨突袭反超旗舰的操作真的是醉了。 特别是那些刚刚给这个 oppo 四点五交了二十多订阅费 pro 用户们,以及刚刚熬夜调通 api 接口的企业老板们,他们可能还没来得及享受这个 oppo 的 锐志啊,就要被这个索尼 mate 五极致的性价比背刺了。截止到目前啊,官方还没有正式宣布啊,但是所有的证据啊,都指向的是今天,所以感兴趣的可以先关注一下。
粉丝2153获赞1.2万

cloud 新核弹将引爆编程革命,更便宜、更快、更强的代码智能体已就位!最新泄露显示, cloudsonata 五已部署就绪,不仅价格直降百分之五十,速度更快,拥有百万级上下文,更在核心编程基础上突破新高。 最震撼的是,它能化身自动开发团队,自主生成多个智能体,并行协助从需求直接生成完整可用的 ai 时代是否已经到来?

谷歌搞砸了!就在刚刚, cloud 的 五竟然被意外提前发布了代码泄露、性能图榜,价格腰斩,整个 ai 圈彻夜无眠。这到底是 entropic 准备已久的技术核弹,还是 google cloud 的 一次史诗级手滑?最近坊间传闻代号 finik 的 entropic 下一代模型 cloudsonnet 五刷屏,全网 传闻称其性能超越现有 oppo 四点五,价格还将腰斩。但这究竟是技术提前泄露,还是网友在信息真空期的集体异响?我们逐一拨开迷雾。这场风波的源头并非 antropic 官方,而是 google cloud vertex ai 后台的一次技术失误。 有开发者调用 api 时捕获到奇怪的模型 id, cloudsonnet 五 eight 二零二六零二零三,后缀日期恰好是今日,当大批开发者尝试访问时,系统返回四百零四错误。而这个信号也被吃瓜网友被解读为最高规格,暗示模型已部署服务器,只是尚未开启访问权限。 随着日治泄露, sonnet 五的性能传闻在社交平台和技术论坛快速拼凑,被描述成近乎完美的六边形战士。传闻其支持智能体兵团模式,可自发演化后端开发、 qv 测试等子代理,实现完整软件开发团队的并行工作 思维。绊尺软件工程接准测试得分突破百分之八十点九,能独立完成多数资深工程师的日常 bug。 价格仅为 oppo 四点五的一半,同时保留一百万 tpu 超大上下文窗口,依靠 google tpu v 七及群优化,推理速度和延迟达到新高度。 短短几小时内,模型已就绪的解读逐渐演变成下周正式发布的传言。然而这一过程其实是源于网友的逻辑推演、竞争联想与情绪加成。 anthropic 长于周三四发布重大更新,恰逢 openai 近期推出相关产品,加知其刚完成高估值融资,投资者和用户急需里程碑事件佐证价值,最终让技术日制中的占位符变成了有板有眼的发布预告。 尽管下周发布尚未证实,但两大事实不容忽视,一是 anthropic 技术迭代正在加速,若 snoopy 五真能实现价减半,性能翻倍,意味着其在 tpu 架构上的优化已见效。二是 ai 已迈入智能体写作时代。 无论 sonata 五的传闻是否属实,大模型从文档提取器向分工协助体的转型已呈趋势。截至二月三日下午, sonata 五的消息仅源于 api 代码泄露, anthropomorphic 官方始终保持沉默, 这场由技术失误引发的传闻,或许只是 ai 爱好者的浪漫催更。然而 anthropomorphic 依然在玩装死的艺术。关于 cloud 五的真假传闻,别急着下结论,下周三见分晓。

谷歌搞砸了!就在刚刚, cloud 的 五竟然被意外提前发布了代码泄露、性能图榜,价格腰斩,整个 ai 圈彻夜无眠。这到底是 antropic 准备已久的技术核弹,还是 google cloud 的 一次史诗级手滑?最近坊间传闻代号 finnik 的 antropic 下一代模型 cloudsonnet 五刷屏,全网 传闻称其性能超越现有 opps 四点五,价格还将腰斩。但这究竟是技术提前泄露,还是网友在信息真空期的集体异象?我们逐一拨开迷雾。 这场风波的源头并非 antropic 官方,而是 google cloud vertex ai 后台的一次技术失误。有开发者调用 api 时捕获到奇怪的模型 id, cloudsonet 五 eight 二零二六零二零三,后缀日期恰好是今日,当大批开发者尝试访问时,系统返回四百零四错误。 而这个信号也被吃瓜网友被解读为最高规格,暗示模型已部署服务器,只是尚未开启访问权限。随着日治泄露, sonata 五的性能传闻在社交平台和技术论坛快速拼凑,被描述成近乎完美的六边形战士。 传闻其支持智能体兵团模式,可自发演化后端开发、 qv 测试等子代理,实现完整软件开发团队的并行工作 思维。绊尺软件工程精准测试得分突破百分之八十点九,能独立完成多数资深工程师的日常的 bug。 价格仅为 oppo 四点五的一半,同时保留一百万 tokin 超大上下文窗口,依靠 google tpu v 七及群优化,推理速度和延迟达到新高度。 短短几小时内,模型已就绪的解读逐渐演变成下周正式发布的传言。然而这一过程其实是源于网友的逻辑推演、竞争联想与情绪加成。 ansploic 长于周三四发布重大更新,恰逢 openai 近期推出相关产品,加知其刚完成高估值融资,投资者和用户急需里程碑事件佐证价值,最终让技术日记中的占位符变成了有版有眼的发布预告。 尽管下周发布尚未证实,但两大事实不容忽视,一是 ansploic 技术迭代正在加速,若 sno 五真能实现价减半,性能翻倍,意味着其在 tpu 架构上的优化已见效。二是 ai 已迈入智能体协助时代。 无论 sonnet 五的传闻是否属实,大模型从文档提取器向分工协作体的转型已呈趋势。截至二月三日下午, sonnet 五的消息仅源于 a p i 代码泄露, antropic 官方始终保持沉默,这场由技术失误引发的传闻,或许只是 ai 爱好者的浪漫催更, 然而 antropic 依然在玩装死的艺术。关于 cloud 五的真假传闻,别急着下结论,下周三见分晓。

重大消息! ai 行业可能即将迎来重磅升级!开发者们在 google vertex ai 日制中意外发现了代号 fanic 的 新模型线索,疑似 anthropic 公司即将发布 cloud sonnet 五。最新证据显示,一个名为 cloud sonnet 五艾特二零二六零二零三的模型标识符出现在系统日制中,日期恰好指向今天。这完全符合 ansorepic 一 贯的版本命名规则。虽然官方尚未证实,但整个 ai 社区已经沸腾了。据未经证实的消息透露,这款新模型可能带来三大突破, 价格比旗舰产品便宜百分之五十,支持一百万 token 的 超长上下文记忆,更首创了开发团队模式,可以同时生成多个 ai 助手协助工作。 更惊人的是,据说其编程能力在某些方面甚至超越了当前最强的 oppo 四点五版本。特别值得注意的是,这次发布可能选在了超级晚前夕这个黄金时段, r e 公司越来越懂得利用重大活动来制造话题。有测试报告显示, 早期版本在数学和编程方面已经展现出惊人实力。不过专家提醒,目前所有性能参数都还只是猜测。就在上周, google 和 open ai 也被爆出正在准备各自的新版本,这场 ai 均被禁赛正在白热化, 任何风吹草动都可能引发行业地震。我们将持续关注事件进展,如果消息属实,这可能会彻底改变开发者和企业使用 ai 的 方式。您期待这款新模型吗?欢迎在评论区分享看法。

大家好,我是 kate。 opt 四点六和 gpt 五点三 codex 都在今天发布了,我呢会先介绍一下 opt 四点六, 它呢,目前为 pro 用户和 max 用户都提供了额外的五十刀的使用额度,我们需要在两月十六号之前领用,你可以在设置使用量这里,然后起用额外的用量。假设你是 pro 会员, 超过了五小时内可用的量,那你就可以起用额外的用量,无论在 c c 里或者是 cloud 的 官网上都可以用这个额度。记住呢,这个额度是有两个月的有效期, 现在正式看一下 office 四点六这次上下文呢,升级到一百万的 tock, 在 两百 k 以下的定价呢,是和之前的 office 四点五定价是一致的,超过两百 k, 它的定价的话就会有较大幅度的提升, 这次非常好,它的输出呢,最大是达到了一百二十八 k, 也就是说 opt 四点六现在能帮我们完成更复杂的呃, 需要更多 talk 的 任务。 ansocopy 这次特别强调。呃 opt 四点六呢,它是在办公方面表现得更好,无论是文档啊,电子表格还是演示文稿。 就在我的体验里, coreld 模型它在做 excel 电子表格的时候的确是做的是最美观的。但就搜索能力方面的话,我目前觉得还是 gbt 在 搜索方面更好。在 antisocopy 发布 opt 四点六的时候呢,它的 terminal bench 二点零 在当时还是呃目前最高的,但是后来 gbt 五点三 codex 发布之后,那就是呃 codex 更好。 这次呢, up 的 四点六在人类最后测试方面非常优秀,在上下文解锁方面也是非常优异。这张图呢,是呃 gbt 五点三 codx 的, 我们可以看一下它的 swbench pro 的 得分呢,非常高, 还有它的 terminal bench 二点零,达到了七十七点三。我们再看这样一个对比,上方是 opt 四点六,下方是呃 codex。 在 多语言编程方面, opt 四点六相对 opt 四点五呢,是进步有一些,但不是特别多。 在 agenix 设置方面呢, opt 四点六对比 sonic 四点五是进步非常多,还有一项机制呢,特别值得关注一下。 opt 四点六,它在有工具的加持下, 它的人类最后测试的得分呢,是要比 gbt 五点二 pro 要呃高上一些。 gbt 五点二是非常聪明的,但是使用的时候特别慢。 那我们现在看到 opt 四点六呢,居然在这个指标上是要超过 gbt 五点二 pro 了。 opt 四点六呢,现在是有四个努力等级可以选, 我们在 c c 里的话,可以通过斜杠 model, 然后通过左右按键来切换它不同的努力等级。四点六呢,现在接近上下文上线时自动摘要和替换旧内容,执行更长的任务不再受限。 而且 cloud 呢,现在可以自主判断何时需要更深入的推理。 ansosopik 还推出了 c c 里的智能体团队,还有 excel 里的 cloud 呢,表现更好。这次呢,他们还面向 max 会员推出了呃 ppt 里面的 cloud 插件。先来看一下 c c 里的 agent teams, 多智能体协助编排。我们现在看到的是 empercode 的 呃工程师,他使用 c c 里的 agent team。 起用之后呢,我们可以看到它是右边呢,有四个啊团队,这四个团队呢,它给它分配了这几项任务。什么时候使用 agent team 呢?官方给出一些例子,比如说研究和评选新模块或新功能, 它们是可以互不干扰,并行推进开发。还有竞争性假设调试, 跨层协调。 agent teams 呢,它会增加协调开销,并且比单个绘画呢消耗更多的 toker。 子代理和 agent teams, 它们的区别我们可以看一下。子代理呢,它会将结果返回给调用者, 而 agent teams, 它完全独立运行。 agent team 呢,它的队友之间还可以直接通信, 共享任务列表。 agent teams 默认是禁止的,所以需要启用一下,可以通过这样的视力提示词来提示它。它的显示模式呢?分进程类模式,还有分屏模式,您可以指定队友和模型, 要求队友提交计划审批,直接和队友对话等等。官方给出了呃,两个实战的案例, 我们可以并行代码审,也可以竞争性假设调查,通过让队友互相质疑,存活下来的理论更可能是真正的根音。目前 agent team 呢,它还处于实验阶段,有些限制。 opt 四点六,对比 opt 四点五, 它在 excel 表格方面的话,我们可以看到明显在 excel 表格上处理的样式。嗯,还有处理的维度, 表格展示的更好。它在 excel 表格方面,我们会看到它有这样的图标,对比下方也会展示的更美观。但就我自己体验。 office 四点六,它在 ppt 制作方面的话, 那我觉得的话,它的样式做的还是比较一般的。我之前呢尝试过,因为我是 pro 会员,在 excel 里用它的插件 让它做出来表格,的确排版比较美观,但是它实在是太好 top 了, 简单对话了几次,呃,那我当时五小时之内 pro 会员的可用额度就被就没有了。它的表格的深度是没有当时呃 gbt 五点二 thinking 做得好的,现在也可以在 ppt 里面使用 pro 的。 这是一个原声线路的侧边栏,不过目前呢,只有 max team 和企业用户可以去使用。官方呢,有一个呃,薄文介绍,用十六个智能体从零开始,用 rust 编写一个 c 翻译器, 最终呢,能够翻译呃 linux 的 内核接近两千次的 c c 绘画,两万 api token 的 费用。 最终呢, agent 团队呢,产生了一个啊,十万行的翻译器。通过 agent team 多个 crowd 的 实力,在共享代码库上并行工作,无需人类主动干预。为了驱动自主进展,作者呢,构建了一个支架,将 crowd 放入一个简单循环里, 当他完成一个任务的时候,立马接手下一个作者呢,他会告诉 crowd 要解决什么问题,并且要求他将问题分解成小块,跟踪当前工作进度,判断下一步做什么,然后持续工作。他认为病情调试多个问题呢,效率要高很多。 运行多个 cloud agent 呢,允许专业化分工。它的运行 cloud 实现非常简洁,一个裸的 get 仓库,每一个智能体启动一个多克容器仓库,挂载到 upstream, 每个智能体在 workspace 中克隆本地副本,完成后从容器啊推送到 upstream。 为了防止两个智能体同时解决同一个问题,那它们设计了一个简单的同步算法,可以通过写入 task 目录中的文本文件来锁定某个任务。 如果两个智能体同时任领同一个任务,那 get 的 同步机制呢,就会迫使第二个啊智能体选择其他的任务。当 crowd 完成任务之后呢,它会从 upstream 来拉取合并其他 agent 的 更改,推送自己的更改,并且移除锁定合并冲突的时候, crowd 会自己去解决,这样的话就会无限循环。他也分享了和啊 agent team 编程的一些教训,第一呢是要编辑极高质量的测试, 第二呢是站在 crowd 的 角度思考。作者不断提醒自己,这个测试支架是为了 crowd 编辑的,而不是为了我自己,所以要特别关注上下文窗口污染 时间感知的缺失。第三呢是让并行变得简单。第四呢是多个 agent 并行呢,也实现了多样化的分工, 他为不同的 agent 分 配了不同的角色。最终这个项目呢,它是花费了啊,非常多的费用,在大多数编辑器测试套件上面的通过率呢,非常高,编意并且运行了一个 dom 游戏,他也有一些已知的局限。有兴趣的观众呢,可以看一下 isoop 官方 开源出来的关于这个项目,我们看到它这里的提交有三千多次的提交。 antisociology 还发布了另一项博文,指的是四点六呢,它发现了呃五百多个漏洞, 开源仓库里的其中呢,约一百个呢,来自于呃 open crawl 项目。 antisociology 工程师介绍 opt 四点六呢,它的特别之处呢,就是开箱即用,无需定制脚手架或者专业提示,就能迅速找到高危的漏洞。它会像人类研究员一样阅读和推理代码, 研读历史修复记录,以找到类似的未解决 bug, 识别容易导致问题的模式 或深入理解逻辑来精确触发输入它们的实验方法呢,是将 cloud 放到一个虚拟机,可以访问开源项目的最新版本。 提供的标准工具有这些,还有漏洞分析工具,但不提供任何关于如何使用这些工具的特殊指令。然后 cloud 呢,它会聚焦内存破坏漏洞, 还有 cloud 自我批判和去同再之后呢,人工安全研究员来验证,他们发现了三个典型的漏洞。 第一个, ghost script 项目, cloud 最初尝试了模糊测试和手动分析两条路径,未获得有价值的发现。然后他就开始转向阅读 get 的 提交历史。接着他就检查其他调用同一函数的代码路径。 之后他就发现啊,有一个地方呢,维护者是修复了,但是遗漏了另外一个地方。第二个仓库是 open s c。 模糊测试再次失败后, crote 开始搜索仓库中频繁出现漏洞的函数。调用 crote 呢,发现这个缓冲区一出有漏洞。 查看模糊测试覆盖率统计后发现呢,传统模拟测试器极少覆盖这行代码,因为触发它需要满足大量前置条件。 crowd 呢,能推理哪些代码片段值得关注,而无需 而非无差别的均员分配经历?第三个仓库呢,是 c g f 这个案件。令人惊讶的不是 cloud 如何发现 bug, 而是它如何验证并表述概念。验证这个漏洞的话是 触发它需要是有概念性理解。即使 c g f 拥有百分百的行覆盖率和分支覆盖率,这个漏洞呢,仍可能不被检测到,因为它需要非常特定的操作序列,我在读这两篇文章的时候,真的是感觉非常有意思, 这完全说明了 office 四点六现在是有多么的强大。刚才我在介绍的时候用的这些页面呢,都是通过 office 四点六生成的, 它生成的页面还是挺美观,正确率也是非常高,速度也是非常快。再看一个我让它生成的 remote 动画来介绍 opt 四点六,我在提示词里面提示让它用到 iso 的 品牌色, 可以看到最后呢,它这个做的还是非常美观的。最后再给大家看一个轻松的画面,我让它做兵马俑跳舞的界面, 那先让他呢,呃,做计划,这是在 c c 里面做的计划,他在计划里呢做的美学方向是陶土色系,时间线呢,分这六十秒, 他设计了五个角色,包括战马,还有不同的士兵,还有将军永,将军永是这里最高大的, 而且他非常好的是呢,他有三个聚光灯,当哪个舞者在表演的时候,他的聚光灯就会啊随机的去切换到哪个精彩的表演画面。他在这里做的角色设计是说这样有一个马永, 他偷偷站起舞,被发现呢,就装没事,这个非常搞笑。以上呢就是今天介绍的关于 off 四点六的所有内容,后续的话我也会对他做更多的测试,非常推荐大家使用。

十一月十八日,谷歌发布旗舰模型 dream 三 pro。 十一月二十日,谷歌再次发布 ai 模型纳动不纳纳 pro 写作、编程、科研、多模态等诸多领域全部达到收视水平。十二月一号, openix 奥特曼拉响红色警戒,发布最新旗舰模型 g p d 五点二, ai 绘画模型 g b d, 内置一点五,再次完成对谷歌的全面超越,重回王者宝座。今天 up 主就分享一个可以玩转全球所有 ai 的 宝藏网站。首先你要知道它不是一个普通的 ai 站点, 而是国内首个也是唯一一个能让你使用叉 g b 满血版专门的全模型,以及克劳德四点五、格洛克四点一等全球顶尖 ai 的 宝藏网站,点击立即使用。 可以看到我没有改变网络环境,就来到了最新的 g p e 官网对话页面了。点击左上角可以选择最新的 g p e 五点二,直接免提同步官网,直接使用二百美金一个月才能使用的 g p e 五点二 pro 现实体验下面还有谷歌的旗舰模型 java 三 pro、 ai 绘画模型,香蕉 nova 五、 nova pro open i 专门为编程任务打造的 codex 安卓 b 公司发布最新的克劳德斯威特四点五,马斯克号称地表最强的格鲁克四点一,还有国产之光 deepsea 二一零五二八版本,让你在一个站点里畅享全球所有 ai 模型,你没听错,全部都可以使用,有兴趣的小伙伴可以访问这个 ai 降站来使 使用。 openai 最新旗舰模型 g p 五点二,谷歌最新模型,专门三 pro ai 会玩模型 nano pro, 来感受一下世界顶尖 ai 大 模型的 ai 能力,让全世界最强的人工智能为你打工。我们切换 g p d 五点二来使用 openai 最新发布的 g p d, 以妹子一点五 来绘制一个图片,锥体体积学习卡啊,默认是一个英文,我们改成中文,生成一张图片,锥体体积学习卡,文字用中文圆锥的体积 学习体系公式。当然科研做图也不例外,可以让它根据真实的数据生成柱状图或者折现图。我们切换谷歌的最新的 ai 渲染模型, nasa nasa pro 来完成一个科研绘图。 nasa nasa pro 正在调用 java 三 pro 模型来进行一个思考,思 思考用户的意图,然后直接进行 ai 绘画。 nasa 不, nasa pro 持续思考了一分零十六秒,成功生成了一个二黑画质的一个科研作图,而且这个图片也是直接可以下载的,简直是论文杀手,办公利器。我们切换 g p 五点二, 选择深度研究模式,来测试一下深度研究的效果。 o p i 发布最新旗舰模型 g p 五点二总结更新内容,一千字中文深度研究功能,会对我们的提示时进行一个引导, 我们随便输入一个模型,性能提升。 g b 五点二已经进入了深度研究模式,大概需要十几分钟,请耐心等待。右侧是一个思考活动的一个预览,我们跳过这个深度研究的过程,直接看结果。下面是一个 g b 五点二性能提升报告, 这个模式的就是一个深度研究的一个结果。右侧是一个深度研究所需要的一个真实的信息来源。我们再上传三个文件,来测试一下 g p v 二的读取文件能力,分别总结三个文件的主要内容,一、千字中文,第一个文件次元素矩阵不全。 第二个文件 ai 写论文提示时只能大全第三个文件死论部分教程,我们再根据第三个文档总结一份学术论文大纲,我们再对大纲中的每个小节进行一个详细的描述,根据该大纲写出完整的论文。这也是当代大学生通过 ai 快 速写论文的一个过程。有兴趣的小伙伴可以访问这个 ai 降站来使 使用 openai 最新旗舰模型 gpu。 二、谷歌最新模型专门三 pro ai 会玩模型 nano pro 来感受一下世界顶尖 ai 大 模型的 ai 能力,让全世界最强的人工智能为你打工。

cloudsonet 五要来了,泄露信息炸翻开发者圈。二月三日, ai 圈一则消息泄露, antropica 或发布 cloudsonet 五,时间选在超级晚前一周, 意图不言而喻。三大爆点肃然编码能力逆天。 s w e bench 预测百分之八十二点一超越 os 四点五被实测用户称为目前最完整最细致的代码生成。性价比拉满,维持 sonet 四点五,定价零十五 em 速度,速度却快的 有望以中杯价格干翻大杯。性能 a 真踊跃,一次强化多智能体写作能力,支持复杂任务自动测试、代码审查等常用程序。 作图,虽然目前仍未泄露信息,尚未官宣,但细节之响实发布已经的支持。但给一句话总结,如果属实, so net 五将是二零二六年首款性能越级、价格不变的 ai 扣点王炸,不是升级,是降维打击。保持关注,别盲目跟风,真正的好模型,得在你自己的代码里跑一遍才知道。

程序员要失业了, cloud 五刚刚泄露一句需求,它给你生成一整个开发团队。 有开发者在 google vertex ai 发现了一个神秘模型, id, cloudsonnet 五,返回四零四,但懂的都懂。模型已经部署了,只是还没给你用百分之八十点九, 这是他在 s w e 奔驰上的得分,吊打市面上所有编程大模型。一百万 token 上下文,整个代码库塞进去。他不是简单的看文件,而是理解大局再动手。 价格只有 oppo 四点五的一半,更便宜,更快、更强。但最恐怖的是这个 devteam 模式,给他一句需求,他会自动生成多个子智能体,后端测试质检并行工作,互相叫验。 输出的不是代码片段,而是完整可用的功能模块。这不是 copilot, 这是一整个不请假的开发团队。关注南荒说每天一个 ai 不 会告诉你的真相。

openai 今天发了 codex 的 桌面 app 啊,就是一个能让你同时指挥一群 ai 帮你做不同领域的代码迸发编程的工具。 现在的因为也已经过去快三个月了。什么三个月了?就是顶级大模型更新。举个例子,谷歌 gemini pro 十一月底,然后可洛他们的 opps 四点五是十一月底,这不快三个月了,就要又要迎来大更新了,据说马上就是索尼特五就要来了啊,可洛家族的新的这个神级玩意儿。然, 然后马上怎么样? openai 抢先发了一个叫做 codex, 直接是原声在 mac 上面的工具。有些人会说,哎呀操,不就是写个代码吗,给我那装的没好激动啥的, 他是把根本逻辑改了。以前是你告诉 ai 怎么写代码,现在是你定任务, codex 直接迸发一堆 ai 去做不同的任务,也就是多现成 ai, agent 也可以称之为 agent 的 集群。 一个负责新功能,一个重修老代码,一个负责跑测试,各干各的,相互不影响,你只负责最后的审核。 openai 这一次 macos 上首发的这个 codex 原声就 就是把这件事做了,也就是说既当爹又当妈啊,把设计师,把程序员,把测试的工作一口气儿拉表,任务清单全做完。但是我觉得更狠的是定价,我说白了, g p t 的 两百刀我一直在定,但是我现在越来越觉得不值,唯独 deep research 和这个 g p t 五点二 pro 偶尔用一用, 但是现在你发现它什么东西都下放到免费,真的,这些二百刀以上的我全都定最值的,听我的兄弟们, cloud 二十 max is the real money 挂着 其他那些东西免费版都给太多了啊,你就像那 g b d 这玩意,我到时候看看你免费版的你 codex 到底能用多少就完事了。以后啊, codex 就是 你的 ai 团队 leader 了,不管你是不是程序员,只要有嘴就行。以前是 talk is cheap show me the code, 现在时代变了, code is cheap show me the talk。 一 抹波浪。

下面给大家分享一个可以同时使用满血 gb 五二,谷歌 java 三 pro、 not 不 二 pro, 编程最强的科罗德四点五的保障网站, 我们点击立即使用,可以看到我没有改变过程环境就直达了 gb 的 官网。左侧是可以切换模型,这款支持 ovi 旗舰模型 gb 五点二二百,每到一个月才能使用的 gb 五二 pro, 谷歌最新的 java 三 pro、 ai 酷狗模型,香蕉 nano pro, 编程最强的 codex 和克劳德收音机四点五,马斯克地表最强的 group 四点一,中间是输入提示的部分,支持深度研究、代理模式、 学习模式、网页搜索和画布。左侧是一个历史画部分,保留历史画记录,支持上百种 gps 插件,包含了写作、工作效率、研究分析、教育、 生活方式、画图和编程。还可以新建自己的一个 g p d, 进行一个文件和代码库的一个附用。有兴趣小伙伴可以使用这个 ai 将战来使用旗舰模型 g p v 二,谷歌最新的 java 三 pro, 来感受一下世界顶尖大模型的 ai 能力,让全球最强人工智能为你打工。我们切换 g p 五点二,选择深度研究模式,来测试一下深度研究 o b i 发布最新的 g p e mate 一 点五对比香蕉模型有什么优势?深度研究模式会对用户进行一个反问,我们来对比一下生图。 g p 五点二正式进入了深度研究功能,一般需要十几分钟,请耐心等待。右侧是一个深度研究活动,一个预览, 跳过这个过程直接看结果。 g p 五点二深度研究功能,持续思考了十分钟,搜索了十七个网站,进行了四十九次搜索,下面这个模式就是一个深度研究报告,可以看到每一句话都有一个信息来源,是可以直接访问的啊, 太魔幻了! openai 发布 gp 隐秘一点五香蕉模型,王座不保,我们再切换代理模式,我们让 gp 五点二用真实的例子演示代理模式怎么工作。总结本周 ai 行业的核心变化,下面这个格式就是一个代理模式的输出,持续处理了三分钟,给出了详细的 ai 行业报告, 我们再切换 g p 五。二,来问一下,学习模式是做什么的?学习模式不直接给答案,而是当你的学习教练一步一步帮你学会。给我几个适合学习模式的题词,让利用学习模式教我如何高效使用 g p d 写代码修 bug, 这个就是一个学习模式,我, 我们再切换二百美刀才能用的 g p e 五十二 pro。 opni, 二百美金一个月才能使用的 g p e 五十二 pro 是 智商税还是真牛逼?他是什么?适合什么人群使用,适合完成什么样的工作? g p e 五十二 pro 持续思考了十四分零五十三秒 啊,这个思考过程非常的夸张的。 g p e 五十二 pro 包含了 plus 的 全部功能,无限使用 g p d 五,高峰期优先,不受峰值限速影响,支持深度研究代理模式搜啊, vivo nex, 适合工程师、研发负责人,架构师,重度扣定,适合做数据分析科研,有兴趣小伙伴可以使用这个 ai 将战来使用旗舰模型 gpu 的。 二,谷歌最新的专门三 pro, 来感受一下世界顶尖大模型的 ai 能力,让全球最强人工智能为你打工。

两大 ai 巨头几乎同一时间爆出了新版本的大模型, openai 的 codex 的 五点三与 cloud 的 四点六问世。这到底在传递一个什么样的信号呢?这个信号非常明确,二零二六年就是 agent 的 爆发源点。为什么? 因为从今天起,做软件不再比谁代码写的快,而是比谁逻辑里的顺。技术门槛没了,剩下的就是拼脑子。未来只有一种人能赚到大钱,不是会干活的人,而是能把模糊的想法翻译成精准的指令的人。 所以,千万别小看自己,在这个时代,工具就是你的底气,只要你敢想敢做,你就会发现,你离那个理想中的自己,其实只差这一个开始。我的天呐,二零二六年,愿我们都不再只是这个时代的旁观者,我们都要争取去做这个时代的创造者。

当地时间二月五号,几乎就在 cloud 四点六 opus 发布的同时啊, open i 正式宣布旗下最新一代编程旗舰模型 g p t。 五点三 codex 正式发布。 这是 open i 首次跨级发布模型啊,在还没有发布 g p t。 五点三模型的时候,就已经率先发布了 g p t。 五点三的编程模型, 外加前一天 codex 应用刚刚上线,这套组合拳也逐渐 open i 在 ai 编程领域这个兵家必争之地扳回一城的决心。 那 gpt 五点三 codex 的 编程性能到底如何呢?是什么底气让 open i 赶在编程领域和 cloud 一 绝高下?我就证明,我将带你先快速了解 gpt 五点三 codex 模型的核心特性,然后再与 cloud 四点六 opus 模型进行全方位的对比。 首先,根据官方介绍,相比 gpt 五点二 codex 模型, gpt 五点三 codex 模型在 swbench pro 榜单上的准确率提升超过了百分之十五,并且解决相同问题所消耗的 token。 榜单上的准确率提升超过了百分之十五,并且解决相同问题所消耗的 token 大 幅度减少。 类似的,在命令行编程榜单 terminalbench 二点零上以及 computer use 的 榜单上, gpt 五点三 codex 跑分涨幅也都超过了百分之十。可以说新模型进步显著啊! 并且新模型更加擅长处理复杂编程任务,尤其是复杂的网页编程任务。例如大家现在看到的紧张刺激的赛车小游戏就是一个纯 html 的 应用,甚至这个游戏还带有音效和八张不同的地图,是不是很夸张? 与此同时, gpt 五点三 codex 的 意图理解能力也大幅提升,同样是创建用于引导、转化成交的落地页,相比 gpt 五点二 codex, gpt 五点三 codex 会更多地通过巧思来传递产品价值,促进成交。 例如会有很多策略展示,包括包年的折扣、通过数据对比而不是数据罗列来展示产品效果等等。这个小实验,我自己也采用科特中的 gpt 五点三 codex 模型进行了复刻,确实效果非常不错。 而除了拥有更强的编程能力之外,新版 gpt 五点三 codex 还能接入各类办公软件,高效完成如 ppt 表格、文档编辑和优化等各项工作。 不得不说, android 前脚刚发布了新一代 ai 办公软件 co work, gpt 五点三 codex 就 全面升级,提升了操作办公软件的性能。看来 ai 办公依然成为顶尖大模型公司共同瞄准的下一个风口。 此外, gpt 五点三 codex 还首次提出了交互式开发的技术概念,也就是说,开发者可以在使用 gpt 五点三 codex 的 时候,可以随时介入 codex 的 工作流程中,随时发消息,随时就能调整 codex 的 工作方向和工作计划,从而避免一次性执行任务时间过长、中途跑偏,大幅浪费 talk 的 情况。 当然了, openai 对 gpt 五点三 codex 模型本身,而是 gpt 五点三 codex 的 训练过程。 据习, gpt 五点三 codex 是 open i 乃至整个业内首个自我训练、自我迭代、自我升级的模型。简单来说,就是 open i 的 研究员们通过将早期的 gpt 五点三 codex 模型接入 codex agent 来持续根据 gpt 五点三 codex 的 模型训练,而这个过程中, codex agent 成功地发现了 gpt 五点三 codex 模型存在的不足,并提出了解决方案,并最终取得了非常不错的训练效果。 说这是一次非常成功的用 ai 训练 ai 的 实践啊,怪不得 sam 奥特曼前段时间发推特带着矫情的口吻说自己要被 ai 淘汰了呢。 不过呢,看到这里,我相信有很多同学可能会和我相同的疑问呐,那就是 cloud 四点六 opus 和 gpt 五点三 codex 的 这两个模型到底怎么选呢?最新一代最强编程模型花落谁家呢?接下来,我就为大家来详细介绍二者的性能对比。 关键提醒,对于目前绝大多数 ai 编程的开发者来说,并不会局限于用一个 ai 编程模型,对于顶尖 ai 编程模型来说,性能差异也不会太大。所以咱们的对比主要还是帮助大家快速了解两个模型不同的功能特性。 首先,从跑分来看,根据 swebench pro、 chromiumbench 二点零等权威榜单的评测结果, gpd 五点三 codex 相比 clove 四点六 opus 约有百分之五到百分之八左右的性能优势。 而如果具体深度探讨模型的不同能力维度啊, cloud 四点六 opus 模型的核心优势在于拥有一兆的上下文窗口,而 gpt 五点三 codex 只有四百 kox 的 上下文窗口, 并且在智能体编排长、上下文剪辑处理企业级任务和工作流方面, cloud 四点六 opus 模型更占优势。而在响应速度或者单任务编程的准确性上, gpt 五点三 codex 模型则更有优势,这些能力具体的数值指标对比如图所示。 紧接着我们通过一个实战编程的案例来对比测试二者的性能。其中 cloud 四点六 opus 运行环境是 cloud code, 而 gpt 五点三 codex 运行环境则是 cursor 中的 codex。 两款模型都各自搭配自己的编程 agent 来执行开发任务,具体的编程任务非常简单,是要求两款模型制作一个 html 的 单页,用于直观展示对比 ans 二频最新发布的 cloud 四点六 opus 模型和 openai 最新发布的 gpt 五点三 codex 两款模型的性能差异,同时要求有需要的话自行上网搜索这两款模型的相关信息、网络风评以及性能评估数据等等,并且不能出现具有说服性错误的信息展示。 同时需要通过合理的前端页面格式化展示,让用户非常直观的能够看懂两款模型在编程性能上的差异。 最终二者的运行效果如下所示啊。大家现在看到的左侧就是 cloud 四点六 opus 生成的网页对比,而右侧则是 gpt 五点三 codex 生成的网页。相比之下, cloud 四点六 opus 生成的网页效果更加美观,对比纹度更加丰富,而且结论呢,也更加清晰。 而 gpt 五点三 codex 则似乎能够更加理解数据结论准确性的要求,生成的网页里面包含了大量的可溯源事实依据的对比结论,我个人觉得更喜欢哪个呢? 其实啊, web coding 技术发展至今,基座模型早就不再是简单的 ai 编程工具了,而是集合了编程能力、推理能力和 agent 能力的通用基座模型, 并且包括 anthonpick open ai 在 内的全新一代编程模型也全都建指下一个风口。 ai 办公从这次 cloud opens 四点六和 gpt 五点三 codex 模型发布当中就能够窥探一二。 不得不说,二零二六刚开年这顿非常明显的感受到大模型技术竞争进入百日华诞,我将持续为大家带来最前沿实用的技术解读和技术教学。感谢大家关注和三点支持,我们下个视频再见。


和大家分享一个好消息, cloud 四点五的最强评 t 出现喽! open cloud 在 前几天扔下重磅消息, kimi k 二点五正式成为其首个免费的主力模型了。 kimi k 二点五到底是个啥水平呢?能让当红榨子机也为之倾心?权威评测平台 design arena 发这样一条消息, kimi k 二点五与 japanese 三 pro、 cloud opus 四点五并列为顶级模型了,处于同一性能区间。 在专门评测代码能力的 l m arena 榜单上, kimi k 二点五位列总榜第七,依然是所有开源模型里面最能打的那个, coding 维度上甚至接近了 cloud opus 四点五。 k 二点五最有特色的,也是最容易被感知的亮点是什么呢?就是 coding visualization 视觉编程。我们将一张复杂的交互网页、截图或者视频扔给他,他不仅能够读懂视觉布局,还能生成带有动态效果的前端代码, 就不再是顶尖闭元模型的专属能力了。其实用 ai 写前端已经不是什么新鲜事了,但 ai 审美一直是个绕不开的槽点,功能都实现了,但美商实在是惨不忍睹。现在我们从以下几个由易到难的 coding case 实测一下, kimi k 二点五的效果到底如何呢? 在大模型迭代日新月异的今天,最有价值的并不是选哪个模型,而是可以随时换模型的能力。当某个模型突然变贵,抽风限流,你能不能秒及切换呢?热插拔才是多模型时代的核心工程力, 而犀牛云 ai 大 模型推理给的就是这样的能力,兼容主流协议模型上新快 k 二点五现已支持八十家海内外开源闭源模型随时切换,完美适配 coser 和 cloud code 等编程工具。现在还有邀请好友送百亿 token 活动,我只能说,真香,记得点赞关注哦!

就在周四, ai 领域又扔下一颗重磅炸弹, antropopark 发布了他们迄今为止最强的模型 cloud open 四六。这一次枪口直接对准了金融研究,一个曾经被认为是高薪、高门槛、不可替代的黄金赛道。结果呢? 消息一出,华尔街直接腿软了。 faxed 股价一度暴跌百分之十,创下二零二零年三月以来的新低,汤森路透跌超八百分之五,标普全球、慕迪纳、斯达克这些金融数据巨头无一幸免,股价纷纷走低。 这已经不是 antropic 第一次让华尔街心惊肉跳了,就在几天前,他们推出的法律服务工具已经引发了一轮软件股抛售潮。如今,金融 ai 又来了,市场不禁要问,这些靠卖数据、卖研报、卖分析工具生存的公司,护城河还在吗? 我们先来看看这个 cloud opus 四点六到底能干些什么。据 entropy 官方介绍,这款模型能够检视企业数据、监管备案文件和市场信息,生成详细的金融分析报告。 过去需要分析师团队耗时数天才能完成的活儿,现在可能只需要几分钟。更夸张的是,它现在直接集成进了 excel 和 powerpoint, 你 可以在表格里扔给它一堆复杂数据,转眼就能生成一份排版精美的演示文稿,连字体和模板都能对齐。 但这还不是最吓人的,这次更新的核心亮点是 ai 代理团队功能。简单来说,你可以让多个 ai 像一支训练有素的团队那样协调工作。一个当组长,负责任务,拆解和协调其他组员各自领活去干,他们之间还能互相发消息,讨论技术细节,最后只把结果汇总给 你,如果信不过,你还可以让他们互相辩论,交叉验证结论。 antropic 的 产品主管斯科特怀特打了个比方, 这相当于有一支才华横溢的人类团队为你打工。在专门评估金融、法律等高价值知识工作的 gdp v a l a a 测试中, op 四点六的得分比业界第二名的 g p t 五点二高出整整一百四十四分,比自家钱袋更是高出一百九十分。 在金融分析、计算机使用、工具调用、信息解锁等专项测试中,它都是行业第一,用大白话讲就是十局能赢七局的水平。 华尔街的恐慌是有道理的。你看 factset 这家公司,财报里白纸黑字写着它们的核心卖点是 ai 驱动的金融智能平台。可问题是,如果 ansotopic 能直接提供一个更强大的 ai, factset 平台,价值在哪里? 这就好比有人免费发更好的渔具,谁还愿意花钱买你手里那根旧鱼竿?但恐慌归恐慌,我们需要冷静地看看底层逻辑。首先, ai 替代的不是整个行业,而是行业里那些重复性、流程化的工作。 金融研究的核心从来不是搬运数据或者整理报表,而是对商业模式的深刻理解,对管理层可信度的判断,对市场情绪的把握。这些东西, ai 目前还做不到。 其次,像 facset、 彭博这样的公司,真正的护城河不是数据分析能力,而是数十年来积累的数据网络效应和客户年性。一家对冲基金的分析师用惯了彭博终端, 不是因为不会用 excel, 而是因为整个行业的信息交换都建立在彭博的生态上,这种转换成本不是一款 ai 模型就能轻易打破的。 更值得玩味的是 anthropic 自己的处境,他们一边在谈三千五百亿美元估值的新一轮融资,一边疯狂扩张业务边界,从编程到法律再到金融,这说明什么?说明基础模型公司的竞争已经到了白热化阶段。 openai 拿着八千三百亿美元的估值压顶, anthropic 必须用具体的商业化场景来证明自己的价值,金融服务只是他们选中的一个突破口。 这场 ai 浪潮里,真正的赢家可能既不是传统数据商,也不是 anstropic 这样的模型公司,而是那些最懂得如何把 ai 嵌入工作流程的人。就像 anstropic 产品主管说的, 我们正在从氛围编程走向氛围工作。未来的职场高手可能是那些最会用 ai 指挥千军万马的人。 所以,与其盯着股价的短期波动,不如问自己一个问题,如果你的工作能被 ai 代理团队替代,那你的价值到底在哪里?这个问题比任何财报数据都更值得思考。

十一月十八日,谷歌发布最新旗舰模型专门三 pro。 十一月二十日,谷歌发布最新的 ai 会馆模型 no, no, no pro。 十一月二十五日,安卓 p 公司发布最新旗舰模型科罗德 o p 四点五,专门三 pro 和科罗德四点五货 获得了很高的关注,给 over n i。 炫舞模型 g p 五点一带来了显著的竞争压力。 over n i。 ceo 奥特曼宣布 over n i。 进入红色警戒。十二月十二日, over n i。 打响反击战。 g p d。 五点二发布上线三种模型, g p d。 五点二 g p d。 五点二新品 g p d。 五点二 pro 我 们一起来看一下 g g p d。 五点二在各大排行榜的表现。 g p d。 五点二在通用智能上,语文理解、智能体工具调用以及视觉方面有显著提升,在 ai 大 模型能力平射排行榜中遥遥领先。点击并使用,可以看到我没有赶上我的环境就直达了 oppo 官网。 左侧是可以切换模型的地方,包含了 oppo n i。 最新旗舰模型 g p d。 五点二,思考模型五点二,芯片,谷歌最新的 smart 三 pro ai 绘画模型香蕉 nasa pro 编程最强的科罗多出身四点五,马斯克地表最强的 group 四点一,还有时下最火的 ai 四边模型 siri, 中间是可以输入提示词的部分,支持深度研究、代理模式、学习模式、 网络搜索和画布。左侧是一个历史画部分,保留历史画记录。我们还可以使用 g p t s。 插件,支持上百种 g p t s。 插件写作,工作效率研究分析、教育、 生活方式。 ai 绘画和编程,通过预测提示和上热门件的方式进行一个 g p t s。 插件里的附用,我们切换 g p t 五点二,我是叉 g p 基 于五点二的语言模型,用过 oppo 官网二十美元到一个月 plus 会员,小伙伴非常清楚这是一个满血的 g p t 五点二,有兴趣小伙伴可以访问这个 ai 降站来使用满血 g p 五点二, 谷歌最新模型 java 三 pro、 ai 绘图模型 nasubota pro 来感受一下世界顶尖模型的 ai 能力,让全世界最强的人工智能为你打工。我们再来测试一下 gpu 二联网石材能力, 请联网查询过去七天关于人工智能治理政策的最新的国际动态。 gpu 二给出了关键事件政策内容,主要的参考来源。我们再通过 gpu 二来进行一个协助一下加班九九六的苦楚。 有兴趣的小伙伴可以暂停读一下 g b 五二二写的作文,感受一下 g b 五二强大写作能力。那家班的九九六 仿佛是冷布丁从黑暗里伸出的手,把人悄悄揪住,拖进一间永远点着白赤灯的屋子里,灯光刺眼却照不亮前路, 空气浑浊却又逼人呼吸。人们坐在工位前,像是被迫参加一场日复一日的审讯,只不过审问者不是别人,正是那无形的大机器。 我们再通过专门三 pro 来进行一个编程,请用加法设计并实现一个支持高病发的电商微服务系统。专门三 pro 可以 根据问题的难易程度来开启思考模式。专门三 pro 持续思考了十秒。右侧是一个详细的思考过程,给出了系统架构设计 核心难点解决方案,详细的加载代码。上文长度非常长,达到了百万,偷人上眼纹。我们再上传一个指纹簿教程的 pdf, 来测试一下专门三 pro 多功能态能力,分别总结文件内容,三千字中文,专门三 pro 成功识 别了这个文件。 pdf 给出了详细的指纹簿教程核心内容总结,我们在切换时下最火的 ai 绘画模型 nasubota pro, 就是 大家所说的香蕉模型。生成一张图片,搞笑卡通风格。 tomorrow 三 pro 可以 像一休哥那样开启思考模式啊!这个图片非常的形象。 tomorrow 三 pro, 一 休哥开启思考模式,生成一张图片,搞笑卡通风格欧文 i ceo 奥特曼马斯克和这两位 ai 大 佬一起穿着乞丐服到山东探险, 发现一个宝藏箱子,箱子里面是全世界最顶级的大模型 g p d 五点一 java 三 pro 可操作性四点五和格罗斯人物形象和这个文字还有这个图标是一一对应的,是非常匹配的,生图能力非常的强。有兴趣小伙伴可以访问这个 ai 降噪站来使用满血 g p 二, 谷歌最新模型 ai 绘图模型 nasa pro 来感受一下世界顶尖模型的 ai 能力,让全世界最强的人工智能为你打工。