粉丝17.1万获赞87.0万

终于来了,杰米妮三点一 pro 今天正式发布,说实话,我期待这一刻已经很久了, google 最近的日子确实不太好过,有段时间给人的感觉是,每当他们刚发布新产品 open ai for entropic, 紧接着两周后就会甩出更强的东西,然后大家转头就把 google 给忘了,这就是过去一年来的常态。但这次给我的感觉完全不同。我这话绝不是随口说说, 我研究了他们今天发布的所有资料,也看了演示视频,我觉得谷歌这次是真的重回巅峰,拿回了话语权。话不多说,我们直接切入正题。大家现在看到的是我让这两个模型分别开发的一款提速风格游戏,一个是谷歌最新的 jamming 三点一 pro 预览版,以及 entropix 推出的最新模型 cloud ops 四点六。 接下来我们来看看这两个模型的表现,对比一下他们的实际效果以及各自的优劣。老实说,这两个模型的表现都让我感到非常惊艳,因为我做体塑农场、体塑瀑布这类测试已经有一段时间了, 我发现深层的画面越来越清晰,互动性也越来越强,而且这些模型还增加了不少新功能。比如你看我一开始输入的指令是创建一个有动物的体塑农场,就生成了农场, 但我希望能跟这个场景进行互动,所以我就接着输入,帮我跟农场互动,或者做点什么操作。你看这些都是很随意的提示词,非常简单,这两个模型都能做到这一点。我们先来看看 jamini 的 表现,我把它全屏展示一下,大家一眼就能看出这个体速农场看起来非常精美且准确。 这边有一头牛,这里有几只鸡,还有几头猪,那个是什么?我看像是一堆干草。这儿还有绵羊,这是一个农场,大家仔细看动画效果和整体画面非常丝滑,没有任何卡顿或画面错误。 这边是谷仓,我可以点击作物进行种植或收割,也能点击动物收集产物。比如我要是点击这头牛,你会看到我的牛奶积分增加了,所以我再多点几下,每次挤奶这牛都跟疯了一样。 然后再点点鸡,收点鸡蛋。大家看这边,接着是绵羊,剪点羊毛,多来点,然后是猪, 猪给什么呢?松露,有点意思,我都不知道猪还能出松露,再看看还有什么,我能点这甘草吗?看来甘草点不了, 不过我可以把库存卖了,所以我把它卖了,进账四四十美元。这我没意见,这钱我收下了,而且还能种点作物。大家看,这一切都是模型生成的,我只是跟他说,嘿, 给我做一个体速农场,再整点能交互的东西,可以看到树正在长,现在能从这收点东西,还能种点东西什么的, 看看我拿到了什么是作物。那我现在可以把作物卖了,能重新再种吗?这能行吗?还真行,这样我就能卖作物了,虽然我已经种下了作物,我就无法再操作它了。这个设定挺好, 所以我可以使用资金了,而且能把它卖掉或者重新种植,这挺酷的。以上就是三点一生成的效果,现在来看看 cloud opus 四点六生成了什么。我们在新浏览器窗口里把它打开, 点击任意动物选中,然后喂食或者抚摸它们,或者收集产物换取金币。作物点击任意作物即可交互,给生长中的作物浇水。我们可以看出 opus 的 四点六 至少在目前在交互性上增加了很多元素。不过我们来看看地图做的怎么样。地图看起来相当不错,我没什么好抱怨的,但可以看到奶牛好像飘在半空, 绵羊也飘在半空,跟那个比,它确实加了不少动物。再来看看还能做些什么。我要是点一下这个金牛,我喜欢这种游戏化要素,像幸福度什么的, 你看幸福度在下降,如果我摸摸它,继续摸的话,数值就会长。要是喂它的话,我还能喂牛什么的,还能收集产物, 这点也挺不错的。加入了这么多新功能,我倒觉得挺好的,没什么可挑剔的。所以这两款模型,显然它们都各有优劣。我们正处于这样一个阶段,各大模型的能力都已经变得非常强悍,它们之间已经很难拉开差距了,但我对这两者的表现都很满意。 至于 ai 社区对此有什么反应,那是 ai 社区现在彻底炸锅了。讨论的焦点主要集中在它的推理得分上。在 ark agi 二基准测试中,这是由 francesco challet 设计的,专门作为模型无法作弊的基准,要么靠真本事推理,要么就别想拿高分。 此前顶级模型的分数一直卡在百分之五十以下,三点一 pro 达到了百分之七十七。尽管大家谈及 agi 时人很谨慎,但这种跨越式的提升确实不容忽视。 现在画面上是 jammy 三点一在网页端模拟生成的 windows 系统首先你可以观察到的是,这一版生成的效果看起来要专业得多,而且它对 windows 系统的还原度也更高。相比于我们见过的其他模型生成的版本,可以看到它能生成全新的桌面环境,还能创建非常相似的侧边栏, 就像 windows 的 原声。外观上面不仅有 teams 之类的应用程序,底部还有这些新功能区,可以调节亮度、音量等各种设置。由此可见,该模型的编程能力非常强悍。与我们过去看过的其他演示相比, 这次的演示清楚地证明了这一点。为了展示更多细节,我们来看看文件资源管理器。大家会发现,这模型不仅能生成这些组建, 而且看起来还挺逼真,跟真实的 windows 界面非常像。而且项目中还藏了一些小彩蛋,如果查看下载之类的文件夹,会发现有安装包、音乐应用和图片, 甚至还能更换壁纸。此外,还有一个照片应用,还能做些什么呢?还有个天气应用,定位设在印度加尔各答,这挺酷的,我们可以移动它或者展开查看。此外还有截图工具、控制面板, 里面的系统和安全图标我觉得跟 windows 很 像,其实我平时用的是 mac, 所以 也不太确定。接着是设置,可以在这儿进行全方位的个性化调整,我们可以自定义背景,还能切换深浅色模式,这点很棒。 因为这一功能我在其他模型中还没见过,至少没达到这种水准,所以能看到这个真的很不错,看看还有什么?这里还有日历功能,跟 windows 相比,它看起来倒更像 macos 的 日历,不过我不介意这做的相当不错。然后是计算器, 再说是计算器又是满满 windows 风格,比起其他版本。好了,我们来看看具体数据。其实这值得一聊的内容远不止 google 博客里重点强调的那一项精准测试。先从最重磅的那个指标开始说起, 奥特 a g i 二只在测试模型能否处理全新的逻辑模式,即那些他从未见过且无法仅靠模式匹配就能蒙混过关的难题。他是目前最难的推理精准测试之一。而 jimmy 三点一 pro 拿到了百分之七十七点一的高分, 这 mini 三 pro 的 得分是百分之三十一点一,这是它们的上一代模型。所以这可不是一丁点的进步,相当于从通过率的三分之一跨越到了四分之三。作为参照, cloud opus 四点六的得分是百分之六十八点八,而 gpt 五点二则是百分之五十二点九。在这项基本测试中,三点一 pro 不 仅超越了自家的旧版本, 也明显甩开了其他竞争对手。有意思的是,在旧版的 ark a g i e 测试中,三点一 pro 拿下了百分之九十八的高分,这项测试目前已基本宣告功课。而在 science g p q a diamond 这一项,这是一项考察研究生水平科学知识的测试, 这类题目要求综合分析,跨越多个学科,而非单纯记忆事实。三点一 pro 拿到了百分之九十四点三的高分,再次领跑全场。 cloud opus 四点六的得分是百分之九十一点三, gpt 五点二则是百分之九十二点四。虽然差距不算悬殊,但谷歌依然稳坐第一。在编程能力方面,有两个精准测试值得关注。首先是 swbench verify, 该测试考察模型在真实 get up 仓库自主修复 bug 的 能力。 三点一 pro 得分百分之八十点六,与百分之八十点八的 cloud opus 四点六不相上下,这两款模型可谓是棋逢对手。 接着是 livecodebench, 它主要侧重于竞技编程,也就是考察算法以及高压环境下的解析能力。三点一 pro 的 e o。 分 数达到了两千八百八十七,相比之下, demo 三 pro 为两千四三九 g p t 五点二,仅为两千三百九十三。那么在纯代码能力方面,这次升级的提升非常显著。 而在监制任务中,也就是 apex agents 测试,这项测试很有意思,因为它衡量的是长程专业任务,而非单次问答,而是需要模型持续进行规划与执行的多步工作流。三点一 pro 为百分之二十三, office 四点六则为百分之二十九点八, 可见 google 在 该领域再次领跑,相比上一代 jamming, 这次的跨越非常惊人。还有衡量工具调用能力的 m c p atlus 精准测试,三点一 pro 得分为百分之六十九点二。此外,还有 browser com 一 项针对网页浏览与研究能力的精准测试,它的得分达到了百分之八十五点九。 不过坦白说,这并非全线胜出, cloud sonic 四点六及其扩展思考模式在长文本性能上与三点一 pro 持平,两者在 m r c l v 二中的得分均为百分之八十四点九, 实际上在专家任务评估中处于领先。采用了另一项 e i o 风格的精准,虽然在某些领域竞争对手依然能与之抗衡,但在顶层竞争中差距已非常微小。另外还有一点值得一提,它的定价与 germany 三 pro 维持不变,这意味着在性能大幅提升的同时, api 用户却无需支付额外费用。相比 antropica 的 opus 系列模型, google 的 单头肯成本也明显更低。但总的来说, google 在 十六项精准测试中取得了十三项领先。它没拿第一的那三项大多属于极端测试 或是竞争对手数据不全的类别,包含推理、科学、编程及智能体任务。这是迄今最强的一套。 google 发布的精准测试成绩足以媲美甚至超越 openai 和 antropica 的 顶级模型。 没错, google 强势回归了,至少目前如此。至于三点一 pro 在 日常使用中能否经受住来自 openai 和 astropik 竞品的考验,我们拭目以待。但从参数表现和演示效果来看,这是他们许久以来最让人眼前一亮的作品。我 会把博文链接放在简介里,如果你想亲自阅读,如果你是开发者, ai studio 可以 免费试用,值得用你自己的提示词跑跑看,体验一下手感。希望大家喜欢。本期视频,我们下期见。