粉丝17.1万获赞192.9万

自从这个宝可梦跑酷皮亚出来以后,这个小子一有空就在这里玩。我都没有时间玩 switch 了。不行我也得玩。作业写完了吗?写完了。 你英语都背会了吗?你去把你书拿过来,我考一下。五月 m a y may 十月。嗯,不会,赶紧去再背一下去。终于轮到我玩了。

哈喽,大家好啊,又是久违的一期购物分享,今天忍不住就是去了一趟香港,然后分享一下我去香港最想买什么。然后首先嗯,是我主要是会去无印良品,无印良品的一些东西就是大部分买不着都会很喜欢。 然后首先是这个就是呃,一个磨砂的洗面奶,好像是三十八,我看一下 应该是三十八一管,然后是 一百五十克,真的很好用,然后它一点都不刺激,然后我这次我就直接买了三瓶,有一瓶要送, 然后我自己自用两瓶,我又买了三瓶,因为今天我买的时候那个店员说也是刚补货没多久就一直在断货,然后我还他家还有这种,就是小支装的也是这个磨砂,然后我准备当旅行装用,买了两个当旅行装用,我真的觉得很好喝,只有香港货,澳门有没有,反正在香港买的。然后第二个就是 他的巧克力,他的巧克力是这几款我经常每次都必买,一个是叫蜜桃果干巧克力,然后一个是这个铁观音茶巧克力,然后一个是叫金钻凤梨果干巧克力, 这三款我每次都是买的,会送人,会自己吃,这次我买的是送人,然后他们家这个好像也是大陆买的巧克力也很好吃。另外再说到送人的话,我每次买一点这个,其实这个大乐坊也有曲奇四重奏, 就是我这次买的这种包装的,因为我想有两个人,但我觉得一个铁盒只能送一个人,然后价格是一样的,因为这个是一百多。哦对,刚刚这个巧克力稍微有点小贵吧,三四十一盒,这个可能会相对来说便宜一点,因为这个是薄片,它里面每个都是独立包装的,这种一颗一颗一颗的,我觉得非常好, 反正我觉得因为我明天要把这个送,所以就直接那什么 ok, 然后这个就是这样,然后 然后接下来是这个蜡烛也是目的的,但是五一良品我不知道现在大陆版是什么样的,但是这个我买了一个葡萄柚,我想试一下,因为当时闻这个味道真的觉得很清新,我很需要果香的,这种清新的,无论是柑橘还是别的什么果,我很喜欢这种果香的,然后 这个是小只装的,然后应该是不到四十块钱,三十八港币。呃,我不知道算回来是算了多少,但是我就配它配了个盖子,它不像是一个裸的。这种我现在某网上也买过,就是有一家专门卖香薰袋子的,但是我想换一下,因为它总是讲味道,我这次我试一下这个,嗯, 反正他这个普通味道都很清新,就是这个叫什么?呃, quick food, 我 觉得很喜欢,我很想到这种味道,然后就入了一个小支的,然后这是之前都买过的,那当然那就是第一件,然后另外几个是没有买过的,一个是这个,呃,他当时写的是啊,这叫泥膜,就是美白的一个泥膜好像, 然后但他自己写的药用,然后包括后面我也翻译了一下,就是也是无良品的,然后我想试一试啊,这一支好像是一百多吧,我能用很久很久,它是 一百五十克的,也是我觉得很想用,因为他们都说是很好用,然后断货了很久,我之前都没有见过。另外一个是 这个应该是晚安面膜,也是个面膜来着,也是一百多,然后这个大概是 没看到多少克,应该是就十几克,哦,这是四十五克,这也是个晚上面膜,然后我刚才看它质地是白白的,我还没有打开,我就准备试一下,这这上面也写了一个,哦,这个没有写药用,这个也写的药用,这个面膜是我走的时候我就问了一嘴,我说这个面膜没有,然后这个断货了很久,也是刚补, 我就是这,这个是七个,然后里面是一百二十八七个,相当于一个是十九块钱,当然这个是港币,我不知道合人民币多少钱,因为它是有一个药用,就比如说晒痧啊,或者是很痒啊,扣着脸我会忍不住扣脸,然后我就觉得这个很好用,然后 不是很好用,就是我想我想找个新的,就这样的小片,然后,嗯, 想试一下,反正对预算来讲的话,反正我觉得这次是超了整个无印良品,我可能就是因为本来想在无印良品买点巧克力,但是这些东西这三个一个都一百多,然后有点超预算,但是想试一下,万一好用呢?就跟我这个 磨砂洗面奶一样,万一好用呢?这个真的万一真的很好用,然后这个主要是还能洗身上,我就会拿这个就省事了,就直接多挤一点全身就行,因为是磨砂,而且非常非常温和的磨砂,我觉得真的是非常舒服, 就是这样,反正,嗯,基本上前面就是这样的无印良品的产品,然后这次重头戏就是为什么我突然想去了香港,就是因为这个 switch two, 然后是因为我之前我不想买,因为我刚只玩了宝可梦的游戏,然后我觉得别的也就一般般,但是他们之前就说那个这个叫什么 ok, ok pia, 很好玩,然后就是那个保托邦嘛,福托邦的那个词改过来的叫保托邦, 我就完蛋了。然后最近真的很心情很低落很燥,然后就买了个这个,因为香港那边好像便宜一点,然后我就买了,然后我买的是他跟这个的同款机, 他会里面有一个呃,一个一个兑换码兑换一款游戏,然后我就先他有一个快闪店,我就直接去快闪店买的,然后还有一大堆就是插曲挺累的,今天就是暴走了, 我去玩那个,买完以后我又跑到 k 幺幺买了一个这个就是我主要想玩这个破片,破片破片,那是破破破片啊,那个店员一直跟我说破片啊,我就觉得好怪哎,我一直想说乌托邦,我想乌托比亚,然后 我就我我他玩的是语言乱码的状态,然后我买这个是特点,他说我买的时候他说只有四个了,我就第四份,然后还有三份就卖完了,然后是他的特点是会给一个这个万年历 正面在这里,万年历我忘了,我当时没有拍,我就着急走,他应该是从这里这样是一个,我在门口看了有没拍他可以组装起来怎么样,我得求助下别人。这手工是零分的一个人,然后就是这个一个手挂件好,这个是这三个是一个,我专门跑去批发买的,然后就回来了, 然后就是除了他这个同款机,他会呃,因为是快闪电吗?会给个明信片好看的。然后是这个灯是个灯座,我到现在都不知道是个啥,我演示了一遍,我完全没看懂,就是会亮,后面能磁吸,我的理解是一个发光的冰箱贴,仅此而已。我当时就觉得,嗯,一般吧, 然后他给了一个应该是立牌吧,就是我觉得这个说实话比这个因为这个消费还升到十二楼,四楼是他的快闪店,然后消费了一块专门跑到十二楼去兑换这个我觉得,嗯,没有这个立牌,这个立牌真的很沉甸甸的,而且很多小配件,我觉得超级玛丽欧的这个,我觉得这个真的会比这个好,说实话,哎, ok 捡回来了就是,然后我为了因为相当于省一部分钱嘛,省一部分钱,然后他当时让就如果快闪店需要你刷任何的,比如说支付宝或者是卡什么的,只要线上支付要收百分之三的手续费,然后我就跑到了 附近的一个中国银行,然后我发现我的我代理有卡,然后我就拿这个卡去了,虽然也有一笔手续费吧,但是我觉得你高低都会,因为真的不知道手续费这个事情。然后我就入了一个这个, 这是方向盘,因为他这个本来就是马车的一个健康码,然后这个码在里面我没拿,这是完全是个马车的健康码, 所以我就我就想说,哦,该有那个马车酒的话,马车世界我就想买个这个吧,就想沉浸的玩一玩赛车,因为最近很迷他那个赛车,因为他赛车好像挺牛的,是赛道没有边界那种想怎么开怎么开就开放世界的赛车,我觉得很 nice, 然后这边就是这样啊,这个是赛车买的同款机, 机子在这里光棍机还没有设置放在这个,这是一个特点,然后里面还送个游戏里面的一个地毯,看到这是这样了,就全部都扔下了。哦,还有最后一个就是这个 红茶,红茶冰室,红茶冰室我今天又去了,然后我一般就是直奔那里,因为下了高铁离得最近, 我不会买它的菠萝油,因为它太晚了的话,上次我都给他已经卖完了,我就买它菠萝油, 冰火菠萝特别好吃,冰冰的那个黄油黄热热的菠萝包啊,我今天给他买了四个,我觉得今天晚上可以有特别好的吃,就这样结束,完美。

终于来了,杰米妮三点一 pro 今天正式发布,说实话,我期待这一刻已经很久了, google 最近的日子确实不太好过,有段时间给人的感觉是,每当他们刚发布新产品 open ai for entropic, 紧接着两周后就会甩出更强的东西,然后大家转头就把 google 给忘了,这就是过去一年来的常态。但这次给我的感觉完全不同。我这话绝不是随口说说, 我研究了他们今天发布的所有资料,也看了演示视频,我觉得谷歌这次是真的重回巅峰,拿回了话语权。话不多说,我们直接切入正题。大家现在看到的是我让这两个模型分别开发的一款提速风格游戏,一个是谷歌最新的 jamming 三点一 pro 预览版,以及 entropix 推出的最新模型 cloud ops 四点六。 接下来我们来看看这两个模型的表现,对比一下他们的实际效果以及各自的优劣。老实说,这两个模型的表现都让我感到非常惊艳,因为我做体塑农场、体塑瀑布这类测试已经有一段时间了, 我发现深层的画面越来越清晰,互动性也越来越强,而且这些模型还增加了不少新功能。比如你看我一开始输入的指令是创建一个有动物的体塑农场,就生成了农场, 但我希望能跟这个场景进行互动,所以我就接着输入,帮我跟农场互动,或者做点什么操作。你看这些都是很随意的提示词,非常简单,这两个模型都能做到这一点。我们先来看看 jamini 的 表现,我把它全屏展示一下,大家一眼就能看出这个体速农场看起来非常精美且准确。 这边有一头牛,这里有几只鸡,还有几头猪,那个是什么?我看像是一堆干草。这儿还有绵羊,这是一个农场,大家仔细看动画效果和整体画面非常丝滑,没有任何卡顿或画面错误。 这边是谷仓,我可以点击作物进行种植或收割,也能点击动物收集产物。比如我要是点击这头牛,你会看到我的牛奶积分增加了,所以我再多点几下,每次挤奶这牛都跟疯了一样。 然后再点点鸡,收点鸡蛋。大家看这边,接着是绵羊,剪点羊毛,多来点,然后是猪, 猪给什么呢?松露,有点意思,我都不知道猪还能出松露,再看看还有什么,我能点这甘草吗?看来甘草点不了, 不过我可以把库存卖了,所以我把它卖了,进账四四十美元。这我没意见,这钱我收下了,而且还能种点作物。大家看,这一切都是模型生成的,我只是跟他说,嘿, 给我做一个体速农场,再整点能交互的东西,可以看到树正在长,现在能从这收点东西,还能种点东西什么的, 看看我拿到了什么是作物。那我现在可以把作物卖了,能重新再种吗?这能行吗?还真行,这样我就能卖作物了,虽然我已经种下了作物,我就无法再操作它了。这个设定挺好, 所以我可以使用资金了,而且能把它卖掉或者重新种植,这挺酷的。以上就是三点一生成的效果,现在来看看 cloud opus 四点六生成了什么。我们在新浏览器窗口里把它打开, 点击任意动物选中,然后喂食或者抚摸它们,或者收集产物换取金币。作物点击任意作物即可交互,给生长中的作物浇水。我们可以看出 opus 的 四点六 至少在目前在交互性上增加了很多元素。不过我们来看看地图做的怎么样。地图看起来相当不错,我没什么好抱怨的,但可以看到奶牛好像飘在半空, 绵羊也飘在半空,跟那个比,它确实加了不少动物。再来看看还能做些什么。我要是点一下这个金牛,我喜欢这种游戏化要素,像幸福度什么的, 你看幸福度在下降,如果我摸摸它,继续摸的话,数值就会长。要是喂它的话,我还能喂牛什么的,还能收集产物, 这点也挺不错的。加入了这么多新功能,我倒觉得挺好的,没什么可挑剔的。所以这两款模型,显然它们都各有优劣。我们正处于这样一个阶段,各大模型的能力都已经变得非常强悍,它们之间已经很难拉开差距了,但我对这两者的表现都很满意。 至于 ai 社区对此有什么反应,那是 ai 社区现在彻底炸锅了。讨论的焦点主要集中在它的推理得分上。在 ark agi 二基准测试中,这是由 francesco challet 设计的,专门作为模型无法作弊的基准,要么靠真本事推理,要么就别想拿高分。 此前顶级模型的分数一直卡在百分之五十以下,三点一 pro 达到了百分之七十七。尽管大家谈及 agi 时人很谨慎,但这种跨越式的提升确实不容忽视。 现在画面上是 jammy 三点一在网页端模拟生成的 windows 系统首先你可以观察到的是,这一版生成的效果看起来要专业得多,而且它对 windows 系统的还原度也更高。相比于我们见过的其他模型生成的版本,可以看到它能生成全新的桌面环境,还能创建非常相似的侧边栏, 就像 windows 的 原声。外观上面不仅有 teams 之类的应用程序,底部还有这些新功能区,可以调节亮度、音量等各种设置。由此可见,该模型的编程能力非常强悍。与我们过去看过的其他演示相比, 这次的演示清楚地证明了这一点。为了展示更多细节,我们来看看文件资源管理器。大家会发现,这模型不仅能生成这些组建, 而且看起来还挺逼真,跟真实的 windows 界面非常像。而且项目中还藏了一些小彩蛋,如果查看下载之类的文件夹,会发现有安装包、音乐应用和图片, 甚至还能更换壁纸。此外,还有一个照片应用,还能做些什么呢?还有个天气应用,定位设在印度加尔各答,这挺酷的,我们可以移动它或者展开查看。此外还有截图工具、控制面板, 里面的系统和安全图标我觉得跟 windows 很 像,其实我平时用的是 mac, 所以 也不太确定。接着是设置,可以在这儿进行全方位的个性化调整,我们可以自定义背景,还能切换深浅色模式,这点很棒。 因为这一功能我在其他模型中还没见过,至少没达到这种水准,所以能看到这个真的很不错,看看还有什么?这里还有日历功能,跟 windows 相比,它看起来倒更像 macos 的 日历,不过我不介意这做的相当不错。然后是计算器, 再说是计算器又是满满 windows 风格,比起其他版本。好了,我们来看看具体数据。其实这值得一聊的内容远不止 google 博客里重点强调的那一项精准测试。先从最重磅的那个指标开始说起, 奥特 a g i 二只在测试模型能否处理全新的逻辑模式,即那些他从未见过且无法仅靠模式匹配就能蒙混过关的难题。他是目前最难的推理精准测试之一。而 jimmy 三点一 pro 拿到了百分之七十七点一的高分, 这 mini 三 pro 的 得分是百分之三十一点一,这是它们的上一代模型。所以这可不是一丁点的进步,相当于从通过率的三分之一跨越到了四分之三。作为参照, cloud opus 四点六的得分是百分之六十八点八,而 gpt 五点二则是百分之五十二点九。在这项基本测试中,三点一 pro 不 仅超越了自家的旧版本, 也明显甩开了其他竞争对手。有意思的是,在旧版的 ark a g i e 测试中,三点一 pro 拿下了百分之九十八的高分,这项测试目前已基本宣告功课。而在 science g p q a diamond 这一项,这是一项考察研究生水平科学知识的测试, 这类题目要求综合分析,跨越多个学科,而非单纯记忆事实。三点一 pro 拿到了百分之九十四点三的高分,再次领跑全场。 cloud opus 四点六的得分是百分之九十一点三, gpt 五点二则是百分之九十二点四。虽然差距不算悬殊,但谷歌依然稳坐第一。在编程能力方面,有两个精准测试值得关注。首先是 swbench verify, 该测试考察模型在真实 get up 仓库自主修复 bug 的 能力。 三点一 pro 得分百分之八十点六,与百分之八十点八的 cloud opus 四点六不相上下,这两款模型可谓是棋逢对手。 接着是 livecodebench, 它主要侧重于竞技编程,也就是考察算法以及高压环境下的解析能力。三点一 pro 的 e o。 分 数达到了两千八百八十七,相比之下, demo 三 pro 为两千四三九 g p t 五点二,仅为两千三百九十三。那么在纯代码能力方面,这次升级的提升非常显著。 而在监制任务中,也就是 apex agents 测试,这项测试很有意思,因为它衡量的是长程专业任务,而非单次问答,而是需要模型持续进行规划与执行的多步工作流。三点一 pro 为百分之二十三, office 四点六则为百分之二十九点八, 可见 google 在 该领域再次领跑,相比上一代 jamming, 这次的跨越非常惊人。还有衡量工具调用能力的 m c p atlus 精准测试,三点一 pro 得分为百分之六十九点二。此外,还有 browser com 一 项针对网页浏览与研究能力的精准测试,它的得分达到了百分之八十五点九。 不过坦白说,这并非全线胜出, cloud sonic 四点六及其扩展思考模式在长文本性能上与三点一 pro 持平,两者在 m r c l v 二中的得分均为百分之八十四点九, 实际上在专家任务评估中处于领先。采用了另一项 e i o 风格的精准,虽然在某些领域竞争对手依然能与之抗衡,但在顶层竞争中差距已非常微小。另外还有一点值得一提,它的定价与 germany 三 pro 维持不变,这意味着在性能大幅提升的同时, api 用户却无需支付额外费用。相比 antropica 的 opus 系列模型, google 的 单头肯成本也明显更低。但总的来说, google 在 十六项精准测试中取得了十三项领先。它没拿第一的那三项大多属于极端测试 或是竞争对手数据不全的类别,包含推理、科学、编程及智能体任务。这是迄今最强的一套。 google 发布的精准测试成绩足以媲美甚至超越 openai 和 antropica 的 顶级模型。 没错, google 强势回归了,至少目前如此。至于三点一 pro 在 日常使用中能否经受住来自 openai 和 astropik 竞品的考验,我们拭目以待。但从参数表现和演示效果来看,这是他们许久以来最让人眼前一亮的作品。我 会把博文链接放在简介里,如果你想亲自阅读,如果你是开发者, ai studio 可以 免费试用,值得用你自己的提示词跑跑看,体验一下手感。希望大家喜欢。本期视频,我们下期见。
