三倍昨天正式发布了科罗 oppress 四点八,但真正炸裂的不是这个,是同一周内,它们的三个顶级模型全部泄露。事情要从三月二十七号说起, answopack 的 内部内容管理系统出了个配置错误,将近三千份未公开文件直接暴露在公网上。 其中最炸裂的是一个叫 cloud mesos 的 模型, anscopack 自己写的草稿里说,这是他们有史以来最强大的 ai 模型。 注意措辞,不是之一,是最强大。然后他们做了一个反常的决定,不对外发布,取而代之的是 project glasswing 计划四月七号启动, a w s 苹果、谷歌、微软、英伟达还有摩根大通四十多家顶级机构拿到了独家内测资格。 mesos 专门用来扫描代码漏洞。几周之内, mesos 扫了一千多个开源项目,挖出一万多个高危漏洞,其中有 c v 一 杠二零二六杠五一九四被标记为关键级别, 到现在已经有一千五百九十六个漏洞,通过协调纰漏机制公开修复。然后就是五月二十三号,有开发者在 call 界面上发现了一个新模型标识, call 杠 misos 杠一杠 preview 截图传开后,这个标签就消失了。 obscropic 显然在准备公开发布,但还没准备好。与此同时, ogas 四点八被发现在谷歌 vertex ai 的 后台里提前上线了 sonnet 四点八的细节则通过原代码泄露被扒了出来。三个模型,三种不同的泄露方式。同一个星期,昨天 oculus 四点八正式发布,编程能力提升到 s w e pro 百分之六十九点二,远程执行时遗留漏洞的概率降低了四倍, 价格没变,还是每百万 trok 五美元输入,二十五美元输出。这次泄露事件暴露了一个问题, isropet 在 安全上做得足够好吗?一个 cms 配置错误就能让三千份机密文件曝光,而他们自己造的 ai 正在帮全世界找安全漏洞,这有点讽刺。 mesos 一 大带力会在 call code 和 call security 里正式上线,到那时候每个开发者都能用上这个曾经被 isropet 认为太危险不能公开发布的模型。六月,值得期待。
粉丝97获赞381

就在刚刚, cloud 欧帕斯四点七正式发布,这下完全就破案,怪不得先降至,然后增加那个人脸验证,需要上传你的证件扫描你的脸,原来是有新模型要发布, 我们最新款的 cloud 欧帕斯四点七现已全面问世。四点七在高级软件工程方面比欧帕斯四点六有了显著提升,尤其在处理最复杂的任务方面,同时呢,还对视觉能力进行了增强。 这里指的是它可以识别更高分辨率的图片,完成专业任务时,它更具有品位和创造力,能够制作高质量的界面以及换灯片文档。等。会我们会来试一下,尽管多项测试不如我们的 cloud mysis review 全面,但多项精准测试中,它的表现都优于 opus 四点六。 ok, 看一看这个评分哦,确实是全面领先 off 的 四点六,但是跟他们之前放出的那个 mesos 的 模型不一样,那个模型呢,是一个巨大的跃迁,这个呢,像是一个常规的迭代,现在呢,在他的所有产品中都可以看到他了, 而且价格呢,跟 off 的 四点六是相同的。我们看一下官方所说的这个模型的亮点和一些笔记。指令执行方面, off 四点七表现显著提升,这意味着之前版本编辑的提示信息,现在有时可能会产生不一样的效果。 之前的版本对指令的解释比较宽泛,甚至跳过,而 wifi 的 四点七呢,会严格按照指令执行哦,也就是说变得更加严谨了,指令遵循变得更强。 改进的多媒体支持就是刚才他收到的那个高分辨率的图片,处理能力是之前 ko 的 型号的三倍以上,这个在其他模型可能不重要,但是对于 ko 的 来说还是比较重要的,因为他们不是内置的那个可以控制我们的 mac 电脑这样的功能,那如果我们让他控制一些不是太规范的应用,他就可以截个图, 然后得益于这次模型的提升,更加精准的判断应该点哪里。理论上来说是这样。实际应用方面呢,这个色彩七要比上一代可以更高效的进行财务分析,能够生成严谨的分析和模型,更加专业的演示文稿。 内存方面,欧巴色彩七更擅长利用文件系统的内存,能记住长时间多绘画的工作内容,重要笔记,并利用这些笔记执行新的任务。那这里呢,我们就能看到他的野心还是针对广大的办公群众, 同时增强了模型的主观能动性,他可以根据自己得出的信息一步一步的继续往下来。首先 opax 四百七,这次更新呢,他使用了更新的分词器,改进了模型处理文本的方式,但代价是相同的,输入可能会映射更多的词源, 根据内容类型的不同,大约增加一点零到一点三五倍。我去,本来额度就少,你这样又增加了使用,那大概就这么多内容。接下来我们来进行一下实测。来到可乐官网或者是桌面端,那直接就有这个 oppo 的 四点七,当然了,免费用户应该是不可以用的, 因为他们这次没有发布 sony 的 模型,只有一个 oppo 四十七,也就说你至少要是一个 pro 用户,二十美金内的。我们首先来试一下他说的这个视觉提升,发挥你的想象,制作一个可以获得射击大奖的网站。现在他有非常强的主观能动性,他可以自己去分析。同样的提示层呢,他也会进行发散。那么到底是不是这样呢? 他说,好,我心里已经有谱了。让我想想,能拿世界大奖的网站,关键不是炫技,而是有一个概念,我要做一个独特的东西,而不是千篇一律的暗色渐变大字标题加故作。高级的工作室官网,我要制作一个走马灯品牌。 有点奇怪,我今天已经把这个聊天记录全部给他清空了,而之前我让他写小说,小说就跟走马灯有关,他好像还记得。这有点烦人了,是不是偷摸存我的数据啊? ok, 已经做好了这。嘿,我靠, 等会我要全名看一下,好像有说法。哇,这个小细节做的确实不错啊啊,下边还有一个单独的设计,我们鼠标滚动的时候呢,它会有变化,你看, 记忆从来不是消失,他们只是走进了另一间屋子,关上门,在那里继续。主理人断写于某个下雨的下午。二零二五年十一月。 那么或许是时候请他回家。哇,这个真可以,非常的细节,这个设计为什么能拿奖? 哎呦,他还自己吹起来了,他认为自己真能拿。然后我们来测试下一个,我准备测试一下他的 ppt, 但是在此之前呢,我们还是要测试一个大家喜闻乐见的经典小游戏 超级玛丽奥。我知道有很多人说,你为什么老是测一些前端,能不能测试一些后端啊,你看你又急, 那后端能是这么短时间能测完的吗?而且测那个玩意很难看呀,说实话,不像前端,大家一目了然,所有人都可以看懂,而且很有意思。这边装备已经给我们做好了,下载完双击浏览器就能开始玩蘑菇变身,变成大马里奥死亡动画,无敌闪烁粒子效果,但愿如你所说,能打开,没有音效。 哎,我怎么凭空顶出来个砖啊,哎,蘑菇呢蘑菇呢? 它这写的全是 bug 吧,而且到这个地方呢,还有空气墙,跳不过去。这个升值效果说实话我不是特别的理解,怎么还越更新越老十,我给我们来测试一下它的 ppt 能力,让它搜索 cloudco 的 最近的更新以及事件,制作一份豪华精美丰富的 ppt。 因为两列的编号放在了同一个位置,我需要修复这个问题,继续检查其他页,图标页非常漂亮,继续,他还自己给自己鼓励啊,你神经吗你?整体的效果呢?就是这样的,我们可以直接在 wps 里打开一下卡拉 ok 的 最新动态,重大事件,关键事件, 然后我们快速预览一下有这个图标。嗯 啊,只有这几页,设计倒是没什么问题,就是不太好看,说实话有点中规中矩了,可能是因为我提示他的原因,因为让他豪华嘛,所以呢,我给他定义一下设计风格,我这里找了一张图片发送给他,我让他读取图片中的配色以及设计风格,把 ppt 改成这样的风格。你可以看一下这张图,就是随便在网上找的一张。 那这个 ppt 呢,就是根据我上传之后的图片来进行更改的啊,你可以看一下,还原度还是非常不错的。哎呦, 那这个我还是比较满意的,只需要上传一张任意风格的图片,是你喜欢的,他就可以帮你做出来。只不过 pro 用户的额度呢,确实少的可怜,加上他们更新之后,这次偷根的消耗又增多了 啊,所以只用了四个例子,他就满了,想再玩呢,就得到五点之后了,而且这个输出质量呢,我说实话,他很有可能是最高的模型, 因为是刚刚发布,这两天肯定不会降质的,就像 wifi 刚发布那个,五点三的时候,直接把那个 pro 用户才可以使用的模型换到了 plus 上也能用。那这点呢,其实就比较恶心了,过一周之后呢,很有可能就降质了。我靠, plus 怎么这么坏?本来想给大家做更多的测试,但是呢,因为我囊中羞涩,只能开启这个 pro 会员, 所以更多内容呢,就无法测试了。但是呢,我可以稍微提醒过一下,就是在文本输出方面,之前不是非常吓人吗?现在呢, 不一样了,叉 g p t 有 的出毛病呢,他也开始有了,你可以下去尝试一下,那味道非常的冲,别怕,让我稳稳的接。不过因为测试案例实在太少了,没办法给这个模型进行定性,只从这几个例子来看的话,视觉方面确实还行,但是你说他跟上一代相比是不是巨大的提升? 我觉得没有,因为这些测试例子呢,欧巴四点六也能做到,只不过没有他这么细而已,就是会更糙一点,比他更像人类。这个呢,感觉机器味有点重, 大概就是这样,我下去之后呢,可能还会体验一下,如果觉得不错的话,可能还会再给大家分享一下,如果很拉的话我可能就算了。那么以上就是本期视频的全部内容,如果对你有所帮助或者觉得视频做的还不错的话,欢迎给个一箭三连,有什么想看内容也可以在评论或者弹幕留下你的足迹。最后祝玩的愉快,我是端锋,我们下期再见,拜拜!

来,朋友们啊, cloud office 四点七来了。上周我讲到 astropok 做了一个太强的 ai 模型,强到自己都不敢发布。今天呢,他发了一个阉割版,就是 cloud office 四点七。阉割完之后啊,他可能仍然是目前最强的公开模型。砍掉了什么呢?砍掉了网络安全的能力, miniso 能批量的去挖掘零日漏洞,然后自动写攻击代码。 oppo 四点七不行, astropok 在 训练阶段,你就专门削落了这一部分的能力,上面还加了一层自动检测,发现如果你在搞这种高危险的这个网络安全的操作, 他就会直接把你拦截。但这也不是一刀切的,如果你是安全从业者,从业公司可以申请一个叫做 cyber verification 的 program, 审核通过之后啊,漏洞研究、审核测试,红队研究,照样可以用。砍的呢,是公众访问,它的入口 是这个能力本身。但砍完之后,相比 opus 四点六,上一个版本多出来了什么东西呢?第一个啊,就是之前 coold 从来没有过的行为,叫做自我验证。 opus 四点七干完活之后,不会直接把结果丢给你,他会自己想办法先验证一遍,确认没问题,然后再向你汇报。而塞尔公司的反馈是啊,他在写系统代码之前会先做验证, 这是之前 coold 的 模型从来没有过的行为。 cognation 公司呢,做了一个更极端的测试,让 opus 四点七从零开始,自主搭建一个完整的 rast 的 语音合成引擎, 点击网络模型,加速内核,浏览器的页面演示,全都让他自己写。写完之后呢,他把自己生成的这个语音啊喂,进了这个语音识别器里面,跟 python 的 这个参考实现做了一个对比,确认结果一致之后呢,然后再发给用户, 没有人要求他这么做,是他完全自己加的步骤,这意味着什么呢?这意味着你以后可以更放心的把任务丢给他,跑一整夜,第二天起来就可以直接看结果。以前呢,可能还需要这个时不时去盯着,然后看看结果怎么样了,步骤怎么样了,现在不盯也行了。 第二点啊,就是编码能力全面的提升,几组简单的数据啊,像 ctrl 的 这 ctrl bench 从百分之五十八涨到了百分之七十。 rockton 在 这个 switch bench 上解决的生产任务翻了三倍,林尼奥跑了九十三个,编码任务提升了百分之十三,而且其中有四个啊,是之前所有模型都解决不了的问题。 hold rabbit 做代码审查,然后召回率涨了百分之十以上, 速度还比 gpt 四点五快了。 hex 给了一句很直观的总结啊,就是 d 或的 opt 四点七,大约等于中 opt 的 opt 四点六。 什么意思呢?简单来说就是四点七躺着就能打赢上一代站着的水平。还有一点呢,视觉能力也跳了一大截,支持的图片分辨率直接翻了三倍多。然后 xbow 做自动化渗透测试,视觉精度呢,从 up 四点六的百分之五十四点五 涨到了百分之九十八点五,从基本看不准到几乎完全全对。而且发布之前啊,这个资本市场先慌了,消息泄露之后呢,像 figma, adobe wix, go, daddy 这些传统的软件公司啊,股价都跌了百分之二到百分之四,不只是因为这个模型本身比较强,主要是因为传闻这个 astropica 要推 ai 的 设计工具,用提示词 直接去生成网站,直接去生成这个演示文稿。 love 四点七是全世界最适合做数据密集型界面的模型,设计品位好到让人意外, 做出来的东西呢,可以直接上线。这是继 cloud co work 之后啊, astropica 第二次去震动股市。最后来说一下我自己看法啊,这期视频的重点啊,不是来跟大家分享说跑分又涨了多少? visos 呢?之前不公开发布 opus 四点七阉割了这个网络安全能力之后呢,向大众来发布,如果你想用这部分被砍掉的能力啊,得通过他们的审核,你发现没有啊, zarpic 正在建立一套自己的体系,你不同的人呢,只能用不同级别的 ai 的 模型。以前不存在这个问题啊,就是模型一发出来就是全部发出来,所有人都可以用同样的东西。那现在不一样了, 强大的模型只能一些受邀的公司可以用,公开版呢,砍掉了危险的能力,想用那部分呢?需要得到他们的申请批准,分级的标准, 整批的流程监督的机制呢?现在全部都用 astropica 一 家公司来决定,但这个体系已经在运行了,以后谁能用到什么级别的 ai, 可能比 ai 本身的能力是更重要的权力问题。好了,今天视频就到这里了,我是第四种黑心李超,我们下次见。

嗨,今天是二零二六年四月二十一号周二。好吧,让我们随便聊聊上周 ai 圈又发生了什么。 第一个是旗舰模型 cloud opus, 四点七正式发布了 视觉能力升级,支持分辨率涨到了约三点七五百万像素。软件工程方面, sweep verified 拿到了百分之八十七点六。这分数其实挺离谱的,基本意味着绝大多数的基础修 bug 工作,它都能闭眼平推了,而且还新增了开思害的推理经历。档位定价不变, 每百万输入 token 五美元,输出二十五美元。不过也有很多开发者吐槽说四点七很蠢,不如 oppo 四点六。另外, anserapek 还推出了 cloud design, 这是他们独立视觉设计工作区的研究预览版,由 oppo 四点七驱动, 用自然语言描述需求,就能生成圆形界面,演示文稿、营销素材,而且支持导出多种格式,也可以一键交给 cloud code 去写代码上线。对前端开发和 ui 设计师来说,这大概又是个让人半夜睡不着觉的效率工具, 目前只对付费订阅的 pro 和 max 用户开放。 open ai 这边也有两个更新。首先是 codex 功能扩张,发布了 codex for almost everything 版本来对标 cloud 的 computer use 来给 macos 引入了后台计算机控制。 codex 能用独立光标在后台操作原声桌面应用,不打扰你在前台干的活。 这种原升级后台接管挺诱人的,但也极度考验系统的权限控制,这也是为什么他们必须配套发另一个更新,新版的 a 政策 sdk 引入了沙盒执行能力,让模型能在隔离容器里安全地跑,代码崩了有快照恢复,不用从头来,主打一个兜底。然后是阿里云困团队这周发布了两个模型, 一个是 quan 三点六 max 的 早期预览版 swanch pro 拿了五十七点三分, terminal bench 二点零拿了六十点四分,看得出阿里这次是铁了心要死磕全自动程序员的方向。 另一个是开源了昆三点六三十五 b a 三 b 模型总参数三百五十亿,激活三十亿,支持二十六万两千 to 肯的超长上下文,引入了思维保留机制,降低推理开销,代码生成上也超过了上一代密集型模型。 接下来是月之暗面 kimi k 二点六发布并开源,同样专注代码能力,主打长周期任务,稳定性支持超过十二小时,连续执行四千次以上工具调用并行子智能体上线,从一百个涨到了三百个。 他在 swybench pro 拿了五十八点六分,刚好压了昆一头,刷新了开源记录。带工具的 hl 一 拿了五十四点零分, 国内头部这几家在代码能力上算是彻底卷起来了。下面来看 google 这周有两个值得关注的点, 一个是 micro s 十五级以上系统的原声桌面版 gemini 应用 option 加 space 即可大局唤醒, 可以共享当前窗口让它实时分析,还接入了图像生成和 vivo 视频模型,谷歌这波抢占桌面系统级入口的意图太明显了。另一个是 jammy 三点一 flash tts, 支持自然语言控制情绪,有七十多种语言和方言可以选择。原声支持多人说话。 api 价格大概每百万字符零点五美元 生成语音内容,内置 sims id 水印。三 d 生成这边本周有两个更新,一个是腾讯会员开源了 h y word 二零, 从文字、图片或视频出发,直接输出三 d、 g s 和 mash 资产。英伟达则发布了 lara 二点零,解决了视频生成的空间失忆和持续漂移问题, 凭单张图片能生成跨度约九十米的连贯三维场景,输出三 d、 g s 或 mesh。 这两家生成的资产都可以直接导入 unity、 unreal engine 和 isaxim, 这才是最关键的 说明三 d 生成终于要脱离看着玩的阶段,最后快速过几条工具方向的短讯。 curser 和 nvidia 合作,用多智能体系统自动化优化 cuda 算子,三周重构两百三十五个问题,整体速度提升百分之三十八, 最难那批有百分之十九跑出了两倍以上的性能。 windsurf 发布了二点零大版本,推出 agent command center, 用看板试图管理所有智能体。原声集成 devin 任务一键发出去, 关了电脑,他继续跑,跑完直接在编辑器里发铺 request hugging face 上线了 kernel hub, 允许直接分享和加载域,翻译好的酷的或 amd r o c m 算子绕过本地编意依赖直接加载。 黑阵团队开源了 hyperframes, 把 html 布局直接渲染成 mp。 四、专门给智能体和自动化流水线用的。学术界出了个 a 侦探 judge 的 评估框架, 用智能体自动评判其他 ai 系统的任务表现,实测相比人工审核节省了百分之九十七点七二的评估时间和成本。 总的来看,上周工具方向的更新,基本都在解决 agent 如何更稳定地挂机打工这个问题。好,以上就是上周的 ai 资讯,接下来看一下上周全球前十的生成式 ai 产品访问量排名, 然后再看一下近一年生成式 ai 访问量的变化, 最后再看看本周 huginface 上热度前十的开源模型有哪些。 好吧,这一期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见。

你是不是也是这样,刚把 cursor 配明白,又有 account 白 coding, 刚开始会写提示词,又有 ai agent 小 龙虾,感觉自己不是在用 ai, 是 被 ai 追着跑。就在今天, anastrop 把 office 干到了四点七, s w e bench 从八十点八干到八十七点六, cursor bench 直接跳了百分之十二。我体验了三个小时。今天想跟你说点实话,不是关于四点七多牛逼,而是关于我们这群普通人到底怎么在这半年 ai 效率就翻倍的时代活下去。 先说说今天到底发生了什么? oppo 四点七正式上线,全平台都能用 cloud 官网 a p i cloud code, batrock, vertex 全部都能用。记住这三个数你就明白了。 s w e bench verified 八十七点六,意思是真实开源的项目里,它可以一次修复九成的 bug。 cursorbench 七十 percent 自主写代码能力比上一代高了百分之十二。视觉任务七十九点五, 旧版五十七点七。这意味着截图里的小字表格、设计稿,他现在全部都能看清,而最关键的是,价格不变,这才是真正的菜单。 但我今天不是想跟你聊参数,而是聊点更扎心的,说一说我这半年观察到的一个怪现象。我给他起了个名叫 ai 的 月经期, 每隔几周就来一次 gbt 出新版本,我在想要不要换到叉 gbt。 cursor 涨价了,我又在琢磨要不要换到 windsurfer。 今天 office 发布,我第一反应居然是之前给四点六调好的那一堆提示词,我是不是需要全部重写?我仔细想想,就会发现一件特别荒谬的事,我们大部分时间都在焦虑,小部分时间在学习新工具, 真正干活的时间反而被压缩了。四点六明明已经是市面上最强的模型,我用的也很顺手,但只要四点七一出来,那种我是不是已经落后了的感觉立刻涌上心头。 这才是二零二六年一人公司最大的敌人,不是 ai 不 够强,而是那种追星焦虑,每个月吃掉你百分之二十的产出。所以今天四点七发布,我反而想借这个机会跟你认真聊一下,什么时候该切,什么时候我们该按兵不动, 快速给你翻译一下。四点七这次到底升级了什么?全部用人话跟你说, x high 推理档位,让 ai 想久一点再下笔。以前最高档位是 high, 现在是 high 和 max 之间多了一个档位。 x high 专门给那种不能想太短,也不能想太久的中等复杂任务去用, cloud code 已经默认挂上去了。第二个, test budget 任务预算,你告诉他这个活你有五万的偷看预算, 他会自己看着剩多少自己安排节奏。说人话就是长任务,不会在半路翻车。第三个,多智能体的协助工作,一个主脑下面挂好几个分身同时干活,做研究,做信息对比,批量处理,这种活效率直接翻倍。 第四个,视觉升级,分辨率从一千五百六十八拉到两千五百七十六像素,这意味着截图里的小字他都能看清,表格、设计稿、 pdf 扔给他就能直接处理。用了三个小时之后,最精准的概括只有一句话, 四点六是能听懂你指令的助手,而四点七是能自己管时间的同事。 讲完这些,回到开头那个问题,我们普通人到底怎么跟上节奏?我自己用了一年多的 ai 工具,跟你讲三条最朴实的原则。第一条,主力工具锁定一个六个月不更换, 这是为了让你形成肌肉记忆,比追星重要十倍。你换工具的那一周,别人在出活,而你在习惯这个工具。第二条,只在三种情况下升级, 价格下降,能做以前做不到的事情。你手上的活卡住了,他完成不了,拿四点七对标一下,价格不变,能扛几个小时的长任务,这是新功能, 长流程,不翻车。这解决了卡点问题,两条命中。所以这证明什么?这一次,我们值得切换。第三条, 也是最重要的工具,升级是零分,动作用法,升级才是一百分。四点七再强,你还是用老一套的提示词,等于没有升级。今天升级完,建议你立刻去做一件事, 把常用的三个提示词重写一遍。把请你认真思考这种废话去掉,改成使用 x high 模式,加 task budget, 五万头肯分段输出,每段汇总进度,你会发现同一个模型输出质量。直接换挡,别跟速度跟节奏。四点七是一个值得切换的节点, 下一个节点我会在这个频道告诉你。点个关注,我们一起在这场 ai 军备赛中,活成我们自己的 ai 军团,我是杰,下期见!


hello, 大家好,欢迎收听我们的播客。呃,今天想跟大家聊一聊最近刚发布的这个 cloud opus 四点七这个大模型到底厉害在什么地方啊?就在二零二六年四月十六号的晚上, antropic 公司发布了这个 cloud opus 四点七,然后它是一个在性能上面有很大提升的一个大模型。没错没错,这个消息一出来就在大模型圈里引起了不小的轰动,大家都很关注它到底带来了哪些新变化, 那我们就开始今天的讨论吧,我们来聊第一个话题啊,就是核心亮点揭秘,性能提升全知道。对,这个是我特别想知道的,就是这个 cloud ops 四点七在复杂任务和长链路工作流这块到底强到什么程度?就这个 cloud ops 四点七,它在这个高级软件工程 这个任务上面是有一个巨大的提升的,比如说它在这个 cursor bench 上面的这个通过率就从百分之五十八提升到了百分之七十。 然后呢,在这个 github co pilot 上面的这个九十三个编程任务的这个精准测试当中,它的这个解决率也提升了百分之十三,并且它还解决了四个 之前的模型都没有办法解决的一些难题,听起来确实厉害啊。对,而且它在这个多步骤的工作流以及这个工具的调用上面的准确率也提升了百分之十四,然后这个工具的错误率也降到了原来的三分之一, 它甚至可以去处理这个百万级的这种 token 的 这种长上下文的推理。在这个 bfs 一 million 这个测试当中,它比上一代有百分之十七的提成, 而且它还可以自动的去验证自己的输出,以及它可以严格的去按照你的指令来执行,就不会说再出现一些这种呃自作主张的这种情况了,就它非常非常的靠谱。哦, 那,那这个模型在这个识图这块多模态这块有什么新的突破吗?这个模型它现在可以处理的这个图像的分辨率是高达三千七百五十 k 的, 这它是比上一代可以看的东西细致了三倍。 然后呢,它在这个 xbow 这个视觉的这个精度的测试当中,它的准确率直接从百分之五十四飙到了百分之九十八。 哦,那,那确实这个提升还是挺吓人的,就他可以去读这种非常密集的截图,然后复杂的图标,甚至是这种科学的专利里面的一些化学结构他都可以读出来。他在这个 os world verified 的 这个精准测试当中他也拿到了第二名的好成绩, 它就是把这个多模态的这个应用场景一下就打开了。那这个这个新版的这个 cloud 在 这个安全防护和这个实际应用当中还有什么新的动作吗?这个 cloud opens 四点七,它是第一个集成了这个 project glasswind 的 这样的一个防护机制的一个大模型, 然后他就是可以自动的去检测并且拦截掉这种高危的网络安全的请求,那他就是专门为了企业和这个实际的生产环境去打造的,听起来对就是做应用的人来说还是很重要的。对,而且他的这个安全对齐的分数也是比上一代要高的, 然后他的这个恶意行为是被显著的压制住了的,他的这个推理的等级也可以支持到呃,这个 x high 了,就是他的这个灵活性也更高了,他的这个任务预算也开放了,这个公测 它的这个代码的审查的命令也变得更强了,就是它的这个性价比和它的这个易用性都做到了这个行业的头部。我们来进入第二个部分啊,就是用户体验升级,这个我特别想知道,就是在日常使用当中,这个 cloud opus 四点七 在执行指令这块到底和之前的版本有什么明显的区别?现在这个 cloud opus 四点七它真的就是你怎么说它就怎么做,比如说你让它 呃以什么什么格式来回复你,他就只会给你那个格式,他不会再给你画蛇添足的加一些其他的东西。那这个就对于我们去写一些需要严格的按照要求来生成的这种报告啊,或者说这种表格啊,就非常的省心。确实这种忠实的执行对于很多场景来讲还是很重要的。对, 这个就是说对于那些之前已经习惯了用这个旧版的这种灵活的写法的用户来说,你可能要稍微改一改你的这个提示词了,但是整体来讲的话,这个精准度的提升会让你在编程啊,然后数据整理啊,还有自动化的流程里面 会有更少的这种意外和更高的效率。这个新版的这个 cloud 在 处理图片这方面有什么突破性的变化吗?它现在可以读入分辨率高达三千七百五十 k 的 这种图片,就差不多是原来的三倍大, 然后呢它的这个识别准确率也从百分之五十四直接飙到了百分之九十八,就是连那种非常小的字和很复杂的图标它都可以读得出来。 哦,那这这这提升确实太大了。对,现在不光是说截图啊,或者是说这种设计稿啊,都可以精准的识别,甚至是那种密密麻麻的表格啊,然后那种技术架构图啊,也都不在话下,这个就真的是让 自动化测试啊,还有这种文档解析啊,这一类的应用直接就上了一个台阶,就真的是可用了。这个新版的这个 cloud 在 处理这种多步骤的任务和这种长时间运行的这种场景下, 会有哪些让人惊喜的表现呢?他的这个记忆能力有了很大的提升啊,就是他可以在不同的对话当中去记住一些关键的信息, 那你比如说你有一个很大的编程项目,或者说你有一个很长的这种文档,他不会说每次都要你去重复的交代一些背景啊什么的,这个确实会省很多力气。对,而且他的这个自动验证机制也会让他在一些复杂的工作流当中的出错率大大的降低。 然后这个 cloud code 里面还加了这个超级审查的这个功能啊,就是它可以帮你去很深度的去分析你的这个代码。 max 版的用户还可以用这个自动模式啊,就真的是可以做到那种无人值守啊,就可以帮你去完成一些任务, 这它真的成为了你的一个智能助手。咱们来进入第三部分啊,就是利弊权衡分析。嗯,那这个部分呢,我就想请教一下,就是这个 cloud ops 四点七在实际使用的时候,它的这个 token 消耗和成本有哪些地方是需要我们警惕的?这个新版本的这个模型呢,它是用了一个新的分词器, 然后它的这个 token 消耗呢会比四点六要高,就高出来的部分呢大概是百分之零到百分之三十五, 就比如说同样的内容,他可能会多花你三分之一的 token, 那 这个对于一些就是重度的用户来讲的话,你的这个 api 的 开销就会明显的上升哦,就是这个增幅确实不小啊。 然后呢,这个高分辨率的图片啊,也是特别吃 token 的, 就这个你要注意,就如果你是在比如说一些不需要那么高的精度的场合下,你可以先把图片降彩样。 另外呢就是这个官方也建议大家,就是用这个 api 的 时候,要监控自己的这个 token 的 用量,也可以利用这个新的这个任务预算的这个功能啊,来给你的这个不同的任务分配不同的额度,这样的话你可以更好的去控制你的这个成本, 甚至说你可以用一些文言文啊之类的去优化你的这个提示词啊,来降低你的这个开销。然后呢,这个 cloud open 四点七在这个安全和合规这块有哪些新的机制,或者说有哪些潜在的风险是我们需要关注的。这个版本呢,它是引入了这个 project glasswing 啊,这是一个专门的针对网络安全的一个防护的机制,然后它会自动的去检测并且拦截掉一些高风险的请求。但是呢,就是说呃,安全研究人员如果想要去合法的去测试一些东西的话,也是需要去申请这个 cyber verification program 才能够去解除一些限制 哦,那就是说这个对于普通用户和企业用户来讲的话,会有什么实际的影响呢?就是这个模型呢,他对于一些恶意的指令的这个抵御能力是提升的非常明显的, 但是呢他在一些边缘的场景下面可能会偶尔的拒绝一些合法的请求。然后另外呢就是说如果你的这个业务是需要用到一些网络安全相关的功能的话,那你就必须要去通过这个官方的审核才可以,不然的话你就没有办法正常的使用这些功能。 然后呢就是这个 cloud opus 四点七在这个兼容性和这个实际应用当中会遇到哪些坑呢?就是这个模型呢,它对于这个指令的遵循是特别严格的,所以说你之前如果是为四点六写的一些提示词,很有可能在这个上面就会出现一些问题,所以说你在升级之前的话,是需要 重新去测试并且调整一下你的这些提示词的哦,那就是说你在升级之前的话,是需要重新去测试并且调整一下你的这些提示词的哦,然后呢就是说这个 模型呢,他在一些这种深度调研啊,网络搜索啊这方面的能力其实是比四点六要弱的,所以说你如果是有这种场景的话,那你可能就暂时还不能升级。那其他的一些建议就是说在生产环境里面还是要慢慢的灰度放量啊,利用好这个任务预算啊,以及这个错误监控啊, 来及时的发现一些问题。那如果说你是用这个呃低码或者五码平台的,那可能你还需要去等平台方来支持这个模型之后你再去尝试,好吧?然后今天我们就从这个技术细节到实际应用啊,给大家聊聊这个 cloud opus 四点七的这些新的突破。 其实 ai 的 进步真的是让人又兴奋又有一点点紧张啊,就不知道这个东西到底未来会给我们带来更多的是机会还是更多的是挑战。关注我多一个程序员男朋友。

昨天 cloud 悄悄发布了一个新的模型, cloud opus 四点七。那我们先说结论啊,这个就是目前所有人都能用到的 ai 里面最强的一个了,那包括它在代码能力长,任务执行能力, 像是图像理解这几个关键的指标上面,都超过了 open ai 的 gpt 五点四和谷歌的 jimmy 三点一 pro。 但你可能要问了啊,上周不是刚发布了一个更强的 cloud misos 吗?对, misos 更强,但是呢它太过于危险,然后并不对外开放。这个我们后面再详细的说啊, opass 四点七就是你现在能用到的最强的一个版本,那价格呢?跟上一代是一模一样,那么它具体的强在哪呢?首先呢,是写代码的能力大幅提升,那在编程的测试里面, opass 四点七比上一代提升了百分之十三,那么同样的任务量能够解决的问题就是上一代的三倍, 就比如说我们花同样的钱,生产率就提升了三倍。那么第二个就是看图能力,图片的知识最高分辨率直接从一百一十五万像素提升到了三百七十五万像素,是原来的三倍多,像我们平常的截图啊,扫描文件、设计稿现在都能看得清清楚楚的。 那么第三个呢,就是他会自己检查自己的错误,我们在完成任务之前会自己先验证一下,结果发现问题就会自己纠正,不用你一遍一遍盯着他,那我来给你们演示一下这个自己处理长任务的能力。我现在呢,扔给他一个任务,我要开一个 ai 频道的科普, 你帮我规划三个月的内容计划,那包括选择题、发布时间、封面建议等等,你看的什么额外都没有说,就给他这一句话,他就直接给你整出来了,包括选择题、排期、发布节奏、封面文案建议,全部都有啊,而且这个逻辑还是比较连贯的,不是随机拼凑的。那像以前呢,这种任务, 我们可能会要跟 ai 来来回回聊好几轮,才能得到一个像样的结论,那么现在就可以一次搞定了。那我们再说一个很有意思的背景啊,就在发布的这前几周,很多用户都在抱怨 colloud 是 不变差了, 因为 amd 的 高级总监甚至在 github 发帖说 colloud 已经差到不能信任他完成复杂的工程任务了。 astropik 否认了,然后直接发了四点七,你说差了是吧?那现在呢?在 colloud ai 里面就能用到它四点七,赶快去试试吧。

四月十六号, andropik 放了个大招, cloud opus 四点七正式发布,编程能力涨百分之十三,视觉分辨率翻三倍,价格一分没长,老罗第一时间上手体验了两天。一句话总结,这次升级不是挤牙膏,是换了个管子。 先看编程能力, cursorbench 从百分之五十八直接拉到百分之七十, switchbench 解决生产任务的数量翻了三倍。 还有四个任务是 opus 四点六和 sonic 四点六都搞不定的,四点七独家拿下。更关键的是,他在写代码之前会先做推理,证明不是上来就莽,是先想清楚再动手。涨任务完成率从百分之六十提到八十到百分之九十, 视觉能力也质变了,分辨率从一千五百六十八提到两千五百七十六,像素翻了三倍,是第一个支持高分辨率的 cloud 模型。 x b o w 视觉精准从百分之五十四点五直接飙到百分之九十八点五, 截图丢给 cloud, 连行号都能认对。 computer use 从勉强能用变成真正好使了。 cloud code 也跟着更新了三个功能, hi 是 hi 和 max 之间的新 effort 级别,性价比最优,而且默认已经升级了 ultra review, 一 键启动代码审查, pro 和 max 用户有三次免费 auto mode 扩展到 max 用户长时间任务不用一直盯着点。允许了。 如果你用 api 升级,要注意 budget 下划线 tokens 那 种写法会报四百,错误改成 adaptive thinking temperature top 下划线 p, top 下划线 k 这些参数设非默认值,直接报错删掉就行。看右边的新写法,简洁多了。 还有两个坑, thinking content 默认省略了,需要看推理过程,要设 display summarize。 新 tokenizer 可能多吃百分之三十五的 token。 注意监控账单,好消息是价格不变,五块输入,二十五块输出 e m 上下文,不加价。 二零二六年,会用 ai 写代码的程序员和还在手搓的效率差距会越拉越大。如果你是 cloud code 用户,今天就去试试 opus, 四点七默认 effort 已经升到 hi 了,打开就是更强的体验。

一条刚上线的 antropic 官方文档 hacker news 上的程序员呢?集体破访,五百六十五个赞哈,评论区全都在问,问一件事,就是我还要不要继续写代码?这个文档叫做 cloud code routines, 链接我放在这。 那就这两天三十六课前,紧接着推了一篇叫做 cloud code, 四点七刚刚曝光, cloud code 一 夜重构,七乘以二十四小时替你打工,把中文圈也炸开了。今天呢,我们把这个事情来聊一聊,看看是真香还是说真的失业。我们先说 rudin's 是 干什么的,就过去你用 cloud code, 是你敲命令让他干活,你睡觉他就停,对吧?现在呢, cloud code 加了一个常驻工人的模式,你给他写一段出发条件,比如说每当 github 有 新的 pr 进来, 每天凌晨两点或者 ci 失败的时候呢,他就自动跑一段你编好的流程,拉代码,读 diff, 然后跑就是读 difference, 然后跑测试,写评论 题,修复就是 the decoder 的 报道呢,原话是说 routines 可以 独立修复 bug, 然后审查 pull request 或者是响应事件,关键词是 independently, 不 需要有人坐在屏幕前点继续。这是一次范式的切换。过去呢,我们把 ai 搜索框就是他回你一句,你再问下一句。现在 antropic 把它变成了一个带班表的一个同事,你下班了他也不下班,你休假了他还不休假。 所以三十六课型那篇文章里有一个很扎心的类比,就七乘以二十四小时替你打工。同一天还有条副新闻配合,这个新闻来自 venturebit, 他 报道说 antropica 推出的这个呃, cold work 把 cloud code 的 能力延伸到非技术用户的桌面, 说明 cloud code 这一次铺的不是一个产品,而是一套全员配一个 ai 员工的操作系统。那 opus 四点七曝光是怎么回事呢?注意,目前 opus 四点七这个型号呢,是三十六克勤根据社区线索报道曝光的, 但是呢,官方发布公告我还没有看到,所以呢,口径我给大家标清楚。据三十六克勤报道, antropica 再重构 cloud code 的 同时,一次 疑似带上了新的版本的 opus 四点七,这不是官宣,大家以 antropic 官方网页为准,但 cloud code routines 这方就这一条,已经可以在官方的文档里读到实锤了。所以三个三个,大家可以去使用它的一个 方法。第一,比如说我可以想到把你每天早上手动让 ai 做的事,比如说帮我总结昨天所有公司群消息, 或者是扫一遍我的 github 的 issue, 或者是写一条就把这些事情写一条。入侵每天设置一个时间,比如说八点或者八点五十五出发,它自己跑完会推给你。第二,开发者我觉得是可以把 ci 失败自动交给入侵去分析日制的 tpr, 一 晚上能解决十几个小时的 才能解决的 bug。 第三,我觉得独立开发者可以把比如说客户的邮件单独接进来,入侵会自动进行分类回复草稿规章, 一个人就顶半个客服团队。最后呢,我想说这不是 ai 取代陈轩的老梗了,我觉得这是 ai 第一次有了排班,排班表,这跟那个养龙虾不一样,因为它真的很智能又很安全, 也不是费 token, 因为只要你有 plan, 它就不不费这个 token。 所以 你今天如果不学这个 routine, 明年可能就是别人用 routine 来管你了。

早上好,今天是四月十七日,周五,接下来一起来看今日 ai 与科技热点。 首先来看今日概览, entropic 发布 cloud ops 四点七,重点强化编码、智能体和长任务能力。 open ai 扩展 codex, 让它覆盖后台任务、桌面应用,协助和更广泛的软件开发流程。 open ai 同日推出 gpt rosalind, 把专用 ai 系统推向生命科学实验设计和验证场景。 canva 在 canva create 二零二六发布 ai 二点零升级统一视觉工作台。 ivy 与 google cloud 合作,把 gemini 和 vertex ai 引入新闻编辑室,与媒体制作系统 siemens humanoid 与 nvidia 合作推进面向工厂的物理 ai。 reuters 报道, open ai 巨报将向 cerebras 支付超二百亿美元采购算力。 ai 算力竞争继续升温, 下面来看详细内容。 anthropic 四月十六日发布 cloud ops 四点七,并将其定位为新的前沿模型, 此次更新重点面向软件工程、智能体、编码和更长周期的任务执行。 anthropic 表示, cloud ops 四点七在代码生成、调试、跨文件修改和持续规划方面取得提升,可通过 cloud code api 和企业相关入口使用。 这次发布延续了 antropic 对 高端开发者工作流的投入,对工程团队来说,模型价值不止在单次回答,而在是否能稳定完成多步骤任务,保留上下文并减少人工返工。 openai 四月十六日发布 codex 更新,强调 codex 可以 覆盖更广泛的软件开发任务,更新方向包括后台运行、任务处理、更复杂的代码变更,以及与桌面应用中的实际工作流配合。 openai 在 介绍中提到 codex 的 使用场景正在从单次代码生成扩展到调试、修改、测试、长期任务和重复工作。开发者可以把部分工程任务交给 codex 执行,再对结果进行审查,这使 codex 更接近开发执行层,而不是单纯聊天助手。 对团队来说,真正需要评估的是代码质量、权限控制、任务边界以及人工 review 能否跟上自动化速度。 open ai 四月十六日介绍 gpt rosalind, 这是面向生命科学研究的专用 ai 系统,目标是帮助研究人员设计实验、分析结果并推动下一轮验证。 openai 将 gptroslin 放在科研工作流中,而不是只把它作为通用问答模型使用。系统重点服务于生物学问题建模、后选、方案筛选和实验设计迭代。 这一方向的关键不在于单次生成答案,而在于 ai 能否在真实实验约束下缩短发现周期。对药物研发和生物技术团队来说,数据质量、实验可复现性和人类科学家审核仍是核心边界。 canva 四月十六日在 canva create 二零二六发布 canva ai 二点零,并把产品方向概括为更完整的视觉工作台 更新、覆盖设计生成、内容编辑、文档协助和面向团队的 ai 辅助。 canva 的 重点不是单一图像模型,而是把不同内容形态放在同一个生产环境中。 用户可以围绕品牌模板演示、社交媒体素材和企业文档进行连续编辑。对普通用户和营销团队来说,门槛降低主要体现在流程整合设计文字、图片和发布素材不再分散在多个工具里, ai 会更多承担初稿生成和重复排版工作。 evit 与 google cloud 四月十六日宣布合作,将 google cloud ai 能力引入新闻编辑室和媒体制作场景,合作重点包括 gemini 模型、 veto ai 以及 evit 现有的媒体生产与内容管理系统。 evit 是 专业影视新闻和后期制作软件的重要供应商,此次合作面向素材剪辑、编辑辅助、内容整理、自动转写和生产流程自动化等环节。 这条新闻的影响对象主要是专业媒体机构生成式 ai。 如果进入 ev 这样的生产工具,改变的不只是内容创作方式,也包括新闻机构内部的素材流转、审效和播出效率。 simmons humanoid 与 nvidia 四月十六日宣布合作,目标是在工厂场景中推进物理 ai 合作,把 simmons 的 工业软件和制造场景与 nvidia 的 ai 仿真生态和 humanoid 的 机器人方向结合起来。 物理 ai 指的是能够理解真实物理环境、规划动作并与设备互动的 ai 系统。工厂场景要求模型在仿真机器人控制、安全边界和生产流程之间形成闭环。 对制造业来说,这类合作的重点不是展示单个机器人,而是把设计、仿真、训练和部署连接起来。只有当虚拟环境里的能力能可靠牵一道产线,物理 ai 才能进入规模化应用。 reuters 四月十六日援引 the information 报道称, open ai 聚爆将向 cyrus 支付超二百亿美元采购算力。报道把焦点放在 ai 公司持续扩张算力供给以及非传统 gpu 方案的市场机会。 cyrus 已面向 ai 训练和推理的大型晶元级芯片文明,若相关协议推进,将显示前沿模型。公司正在同时寻找 gpu 之外的算力路径,以缓解容量和成本压力。 这条消息目前以媒体报道为主,并非双方完整商业公告。对市场来说,它的意义在于 ai 算力竞争仍在升温,数据中心、电力、芯片和云服务都会继续承压。 以上是今日 ai 与科技领域重点动态,如果这期内容对您有帮助,欢迎点赞关注,也欢迎在评论区交流,我们明天见!

一分钟看完一周 ai 大 事, anthropic 再放王炸,用 cloud design 接管整个设计流程,无论是做 ui 还是出海报,只要提个设计需求,它就能直接出成品,支持在线编辑和动嘴改稿,一键导出网页、 pdf、 ppt, 甚至能无缝转到 cloud code 上线落地。 果说 cloud code 把写代码的主体从人变成 ai, 人人都能写代码,那么 cloud design 彻底改变了设计领域,人人都能做设计。 anthropic 上线最强编码模型,由 mythos 亲自调教,编程能力直接拉满,智商水平依然跟三傻一桌。为了安全故意降至某些高难任务。 mythos 第三方评估出炉,它是唯一能跑通整条网络攻击链的模型,从漏洞扫描到全面接管三十二个关键步骤,安全专家需要二十小时攻破 middos, 像进新手村一样简单。 openai 升级 codex 全面对标 cloud code, 能直接操作电脑完成复杂任务,还能并行多个智能体开工,深度融合 chat、 gpt 和 atlus 浏览器,目标是打造什么都能干的超级应用 k 跟开源视频制作技能包给 codex 装上 ai, 就 能自己想分镜写网页加动画,最后渲染成视频,自带高级感组建酷、动效酷和转场效果,再也不用学 p r a e 了,剪片子的同学狠狠码住 open ai 内侧,下一代图像模型理解能力和文字渲染能 力逆天,简单提示词就能生成实拍级图像联动视频模型,彻底抹杀真实内容创作也要交响。最强矢量图模型通 通过代码一步步画出结构复杂的 svg, 能用来画 logo、 做插画、前端动画,甚至能做高精度服装和工程图。 adobe 发布重新打光图像模型,能精准控制光照强度、颜色和质感。男朋友不会拍照也没事,一键拯救废片字节开源带货数字人模型,上传人脸和商品图, 就能生成主播带货视频,还能上传音频和动作,商家不用请网红,也能做营销视频。阿里开源无缝转场视频模型,通过提示词接力传递,实现大跨度场景平滑过渡。阿里开源开放世界模型 金刚经历三,主打实时交互,边生成边导演。开放世界游戏有了雏形。腾讯开源三 d 世界模型,给他一张图像或视频, 就能重建可交互的三 d 世界,还能导出三 d 原文件。研究员,开源最强三 d 动画模型,给他一张图片,就能生成会动的三 d 资产。 jimmy 上线最强语音合成模型,支持七十多种语言,能精准控制语气和情绪。 ai 从念稿机器进化成细微触体,可惜的是阉割了声音克隆能力。 endon labs 给 ai 十万美金创业当老板。 ai 自己策划了一个精品店,找工人、装修招聘面试新员工,每天用语音给员工安排工作,还用摄像头监工。 ai 当牛马,水平一般。 ai 当老板,胃可太重了。 madame 研发出神经计算机,不是让大模型操作电脑,而是让大模型成为电脑,直接用视频模型模拟任何软件,目前只能模拟打字和点击,终极形态会消灭所有软件,想要什么功能, ai 都能自己变出来。

四月十七日, ar 圈呢,超级发布日,可拉的四点七和 g p t 杠六呢,同一天,正面硬钢安兔罗宾克的可拉的 oppo 四点七呢,直接登顶全球 ar 模型排名新网度,什么概念?就是它要超越 oppo ar 了, 支持呢,以百万掏坑的上下文,相当于基本这个红楼梦的一个长度,还能多智能体的一个协作,那 oppo ar 能忍吗?同一天发布了 g p d 杠六, super 的 推理性能提升百分之四十,这是专对专门针对这个开发商场景。更牛的是呢,这次不是美国带的,中国呢,也参战了, 支援机器人呢,在四月发布新模型,技术水准直接对标呢国际的一流,中国 ar 开始参与全球竞争了。 除了这些 ai 竞争, ai 方向的进展呢,还有一个更可怕的就是这个诈骗,香港的一个诈骗集团,通过这个换脸和云克隆技术,去年呢,诈骗了三千四百万。所以在 ai 时代, ai 发展的越来越快,越来越强,我们不但要学会用 ai, 还要学会防范 ai。

就在今天, oslopez 发布了他们的新模型 cloud of 四点七,最炸裂的是什么呢?官方说四点七还不是他们手里面最强的模型,他们真正的网牌叫做 cloud missus, 评分高得吓人, 上期视频我也讲过,但是现在不给普通开发者开放,他给我们手上这一个民用版的 off 四点七到底是个什么水平?三件事决定答案,第一个它强在哪里,第二个它暗改了什么东西,第三个放到我们真实做编程的任务里面,看它能不能压过 gpt 四。 下面我们简单总结一下他的四个核心变化,第一个是他多步推理加长城任务的一个能力提升,现在这个模型他在报告前他会自我去验证输出结果。 这个有什么好处啊?就是你在做一些长城任务的时候,还有些复杂性的任务的时候,如果他自我验证不够好,那他的幻觉率和懒惰就会提升的很明显。 那第二个的话就是抠丁 a 镜的重叠低哈,当然这个也只是从它的一个分数上来看,超了 g p d 五点四,大概六个百分点吧。那 coser 官方这边的奔驰 mark 也说 power off 四点七啊,提升了蛮多的,之前 off 四点六是五十八,现在是七十,所以说光从这个评分看的话,它确实提升比较明显。那第三个的话就是 computer use, 那这个的话是之前是 g p d 五点四,是领先特别多,那这次的话 carl 的 off 四点七也追上来了。那第四个的话是这个视觉分辨率增强,这个对于我们去做前端任务会有非常大的帮助, 也就说你有一个设计图,你给到它截图,给到它,它能比较好的一个还原好。下面我们来看一下整体的一个评分情况。第一个 s w e 奔驰 pro, 从这个来看,它 off 四点七将近为上一代提升了百分之十一个百分点,也是比 g p d 五点四 要好的。那这个模型就是他们手里面还没有放出来给大家用的这个模型,看这个评分是不是遥遥领先,不管在哪一栏他都领先的比较多。在编程方面的话,那第二个榜单的话,这个其实已经被大家刷的差不多的哈,这个评分大家参考一下就可以了。第三个 terminal 奔驰二点零,那这个评分呢? off 四点七相较于上一代是提升了有四个百分点,但是它 是没有 g p d 五点四评分高的。那编程实测这一块,我们也是用同样的任务,同样的 prom, 用两道真实项目任务去 会用往期的一个 prompt, 也就是说之前我们测试过 cloud of 四点六, gpt 五点四,都是同样项目,同样的提示词,然后同样的评分标准。我们简单回顾一下之前的一个评分情况, cloud of 四点六, gpt 五点四,在这两个真实项目上去测试, 那 gpt 五点四是要略微领先的,那这一次我们就来看一下它这个 cloud of 四点七到底怎么样,还是同样的任务去测试。 好,下面我们来看一下结果。第一个任务是把这个 c o i a 帧的给它外部化,也就是说加上前后端码,并且保留帧点,工具都有流速输出。 那这个评分是怎么来的?是我们把这三个模型写的代码提交之后,然后把它的模型名称隐藏完了,然后改到最顶尖的模型,让它们去 review, 以同样的 review 标准,最终得到的话, call 四点七,它是比上一代提升挺明显的, 我们可以看到这边也是它的前端主建的话,流势输出都比上一个好很多。那任务二的话,做认证迁移体系这个任务是比较重的,因为它要从另外一个项目里面去把 所有的代码去参考了,然后再实现到新的代码里面,再写一些落地页。那从这一块看的话,它相对上一代有提升,但是跟 g p t 五点四不相伯仲哈,那这一块在 u i 以及落地页方面,它这边给到了八点五分。其实我人工个人感觉还是比较喜欢 g p t 五点四 给我写的 ui 的 这个风格。那 cloud office 的 这一个系列模型哈,它的 ui 能力,如果你不给它外挂 hue, 它其实写出来的 ui 不是 那么好看。 好,下面的话是一个实测的一个彩蛋环节哈,就是我发现 cloud office 点七这个模型,它这个记忆的这个功能哈,是明显比上一代好很多了。上一代的话,它没有频繁地去帮我们去主动去触发记忆,尤其是 当我们人去反馈他这点不对,那那个地方不对的时候,他没什么动静,你可能需要显示的去告诉他啊,这要把这个记下来。但这一代的话,测试的过程中会发现他主动的去把这些记忆存下来,频率会比之前高很多。 ok, 好, 下面我们来看一下一些容易被忽略点吧,就是他这个成本确实是涨的,这个托肯消耗变高了,就刚那两个任务我花了大概三千万托肯,而且最难过的是我正在准备测的时候我的号被封了, 就一句话,恶心。所以说我直接找了那种中转站用 a p i 都花了我大概快两百块钱了。好,下面我们来总结一下。 off 四点七,它提升了一个重点,第一个长电路更稳了,第二个工具电路更完整, 第三个代码组织更成熟,第四个安全边界更清楚,因为从代码 review 的 结果来看的话,我们那两个项目它相对上一代都会好很多。好,这就是这期视频所有内容了,我是阿娇,我们下期见。拜拜。

朋友们,就是刚才啊, cloud 正式发布了 opus 四点七,那么它呢,是目前 israpix 正式发布正式可用的最强大模型。 那么这次更新呢,并不是单纯让模型变得更聪明,更会聊天,而是把它推进成了一个能够长期干活的高级执行模型。那么我给大家总结了三点呢,第一点就是它的长城 a 技能更强了, 那么这次 is rapid 强调了一个词,叫做 long horizon agent work, 那 么你可以把它理解成长链路,多步骤的自主执行任务, 那简单来说就是 all pass。 四点七现在能够连续稳定地执行多部复杂任务,更不容易跑偏,它能够一直持续地推进任务,直到完成。 所以说我们可以观察到 ai 发展的重心呢,正在进一步的从回答问题走向任务落地。那么第二点呢,就是 opus 四点七,它的视觉理解能力明显增强了, 那么它呢,是 cloud 系列里面第一个支持更高分辨率图像输入的版本,那么官方说呀,它在处理图像细节这一方面,已经超过了前三代 cloud 的 三倍, 那么这是官方给出的数据。在视觉细节辨认能力这个指标上面,我们可以看到四点七的分数是九十八点五,而四点六的分数是五十四点五,那基本上可以说是翻倍了, 那这个指标如何理解呢?那很简单,我们可以想象,之前的 cloud 在 看一张图片的时候,他就是一个近视眼,但是他没有戴眼镜,所以说他只能看一个,大概他看的很模糊,看一个轮廓再给你回答。那现在不一样了,相对我们给他配上了一副眼镜,他可以看得非常清楚, 那这样是不是在一些小字识别,复杂的图标界面分析,文档处理这些场景下,他任务会完成的更好,特别是经常做报表的,那这点的感知体现会非常的明显。那么第三点呢,毫无疑问就是他的代码能力更强了。 那么这次代码能力的重点呢,并不是说四点七能够生成多么长,多么漂亮的代码,而是看它能不能够把真实的任务给做成。那么官方给了两个数据,第一个叫做 ninety three task benchmark, 那 么这个 benchmark 呢,就非常简单, 它准备了九十三个编程任务,让模型去完成,然后看它最终能够解决多少个任务。那么在这套任务里面呢,四点七的任务解决率相比四点六提高了百分之十三。那么第二个测试呢,叫做 cursorbench, 这个 benchmark 那 就更接近 ai 编程助手在真实开发场景里面的这个测试表现。那么在这项测试中呢,四点七的得分是七十分,而四点六的话只有五十八分。所以说屏幕前的开发者们,你们的开发能力是不是又大大提升了? 那我们知道大冒险在完成任务的时候,常常会发散性的思维,然后顺带的帮你完成一些决定,多写一个功能,多写一段代码。那么这次 opus 四点七呢,就改善了这个问题,他会更加严格的执行的命令,那么这对开发者来说是一件好事,因为他变得更加可控了,但是对于我们普通用户来说,他反而变得没那么好了。 那么以前的提示是啊,如果显得模模糊糊的,他可以顺带的这个发散性思维,对吧?帮你想一下,然后给你一个不错的方案。 那现在你在下达任务的时候,如果说你自己都没想清楚,没有清楚的表达自己的需求,那么他就可能精准的做错,说接下来怎么表达任务,怎么拆解需求,怎么把事情讲清楚,会变得越来越重要。 另外, cloud 这是为了更好的适配 coding 和监体的场景,它们这次新增加了一个推理强度段位,叫做 x high, 那 么在这个推理强度下, a 件的会更加积极主动的去调用工具解决任务。那么最后不得不提的就是四点七的价格到底是怎么样的?那文档中显示呢?它的价格和四点六是一模一样的, 输入和输出分别还是五美元和二十五美元,但这并不意味着你的成本就不会增加了,因为我们知道它支持了更高分辨率的图片, 更强的推理程度。所以说最后总结一下 cloud opus 四点七呢?这一次更新确实非常强,但它更像是在 opus 四点六和这个 missus 之间的一个半步的档位。它很强,很实用,但并不是那种改变世界,颠覆世界的那种带机跳跃,更像是一次更实用,更加产品化,更加工程化的升级。 也就是说,很多时候它并不是让原本办不了的事情突然能够办了,而是说它让很多原本能够办,但是不稳定, 不划算的事情变得更加稳定,更加划算了。那如果说你是开发者,你更应该关注这次四点七能不能把你的任务链条推进的更远?那如果说你是自媒体或者说内容创作者,你更应该关注他的图像理解、 文本理解能不能提高你的生产效率?那如果说你是创业者,或者说你有明确的业务需求,你更应该关注的是这次升级能不能把你实际工作流中的 roi 给拉上来。那我们普通人该关注什么呢? 那肯定是能不能吃好饭,能不能睡好觉,能不能拥有一个愉悦的心情和良好的身体,身体健康才是第一位嘛。 ok, 那 今天就到这里,我是 jerry, 持续为你解读 ai 资讯,并且也分享 ai 落地实操。关注我,看更多,我们下次再见!

anscape 在 四月十六日发布了 cloud opt 四点七。 anscape 想把 ai 从会写代码继续推到了能稳定界更长更难监督更少的开发任务。官方说它在高级软件工程、多步长任务和高分辨率视觉上都比 opt 四点六更强。 更关键的是,这不是一个模型发布平台,还补齐了 x i effort task budget and cloud code 里的 outro view。 这说明 ospec 在 做的不只是模型升级,而是把 a 阶的开发工作流,最关键的推理预算控制和审结审核环节一起产品化了。 另外,他还把新的 cyber safe guard 先放的 opt 四点七跑真实的世界测试。所以这条新闻真正值得听的不是 colossal 的 又强了一点,而是 antopig 正在把长任务变成 agent, 往更能进入真实工程的环境方向推。

这次的发布会我连续看了两遍,不是因为 opus 四点七有多厉害,而是他们在公告最后加了一句话,我们还有个更强的版本,但不打算给你用。这个模型叫 cloud missus。 先说它有多强啊,在全球最顶尖的编程测试上,它得了九十三点九分,换句话说,接近满分。而上一代 opus 四点六才八十点八分。不仅如此啊, missus 还能解开美国数学奥林匹克竞赛的题, 正确率能达到百分之九十七点六。这个测试是专门设计来南岛人类顶尖数学家的,光是这两条,它就已经是全球最强公开的 ai 了。 那它为什么不发布呢?因为在内测里面, missus 找到了主流系统的未知漏洞,还逃出了隔离沙河,之后跑到公开的网上炫耀自己,证明自己成功了, 这是他们二百四十五页测试报告里面写明的事实。所以 ansaro 只给了苹果、谷歌、微软这些巨头用,而我们公众能用的是四月十六号发布的 cloud ops, 四点七 编程测试达到八十七点六分,这已经是所有公开 ai 里面最强的,但比起 misos 还差一档。而说到普通用户,最近有些朋友也在问我, ansaroopy 最近收紧了?呃,账号的管理,强制实名认证,限制第三方的工具调用订阅额度,对 vpn 还有虚拟信用卡加强了风控, 那我这里建议要避坑,三条固定的节点别太频繁,要绑真实的信用卡,不要跟多人共用账号,这些不是大坑,但踩了真的会影响你的正常使用。 ansaroopy 这部棋是真正的稀缺营销, 你知道有一个更强的存在,但就是拿不到。这种让人又爱又恨的感觉会让你永远记住这个品牌。同 时, project gusman 成员名单本身就是一张最强的合作关系背书, misos 证明了 ai 能做什么。 opus 四点七告诉你你能用什么。这两条线之间的距离就是 angelop 的 商业护城河。

如果人工智能继续以这样的速度发展下去,人类演员真的就要失业了。先看一段 ai 视频,太猛了,鸡胸肉来喽, 我们点的那盘猫屁盒不要了,给我们退了吧!啊?那个已经下锅了,退不了了!真的下锅了吗?对,其实我根本就没点哈哈哈哈臭猫。大家好,欢迎收看 ai 资讯。 一、谷歌推出文本转语音模型 gemni 三点一 flash tts, 它创新引入了音频标记功能, 用户只需在文本中直接嵌入如激动或讲解等自然语言指令即可,像导演一样精准掌控 ai 的 语音风格、语速与情感节奏,彻底告别传统合成的机械音。二、 cloud code 发布最新桌面版程序 可以在一个窗口中同时运行多个克劳的绘画,并且还有一个新的侧边栏用于管理。所有这些绘画视频中的 ai 图片全都是通过 nano banana pro 绘制,效果非常的不错。网站中还有 openai 最新旗舰模型 gpt。 五点四, thinking 谷歌 gemni 三点一 pro ai 相交绘画模型 nano banana pro 编程最强的 cologne 四点六,马斯克地表最强的 grog 四点二, 有兴趣的小伙伴可以使用这个 ai 镜像站,让全世界最强的人工智能为你打工。三、 antropic 近日正式对 cloud 启动了严格的身份验证更新,为了落实合规政策与平台安全,部分用户在触发风控或使用特定功能时, 将被强制要求实名认证,一旦检测出使用环境属于不支持地区或验证未通过,账号将面临直接封禁的风险。懂的都懂 cloud v e 四、 openai 官方宣布,为保证用户数据安全和隐私安全,提高 g p t 五点四的网络安全等级, 不仅支持二禁制逆向工程,还能在没有原代码的情况下,深度分析恶意软件与系统漏洞。五、 ai 战火再度升级据最新内部爆料, antropic 计划在本周重磅发布新一代旗舰模型 clod opus 四点七,无论是完整网站、网页还是演示文稿,只需一句话描述即可全自动生成,直接叫板 openai 即将发布的 gpt 六六, 苹果首款智能眼镜曝光,代号 n 五零。 n 五零定位是全天后佩戴的全新 siri, 配合苹果自研 ai 芯片, 彻底打通手势加语音加视觉的交互闭环。视频中的 ai 图片全都是通过 nano banana pro 绘制,效果非常的不错。网站中还有 open ai 最新旗舰模型 gpt 五点四、 thinking 谷歌 gemini 三点一 pro ai 相交绘画模型 nano banana pro 编程最强的 cloudsonet 四点六,马斯克地表最强的 grog 四点二,有兴趣的小伙伴可以使用这个 ai 镜像站,让全世界最强的人工智能为你打工。今日的 ai 资讯就到这里,我们下期见。