大家好,就在刚刚谷歌发布了其最新的模型 jimmy 三点一 pro, 这导致我现在凌晨四点前给大家在这在录视频拍解读。 虽然这次看起来只是一个零点一版本的更新,但其实熟悉 jimmy 的 朋友知道,这也是 jimmy 的 首次,这种命名更新其实也可以代表这次的一个重大升级。 三点一的设计书中主要是为了处理那些简单回答无法解决的复杂人物。首先我给大家先看一下数据,但是数据我觉得不是我们这个视频的重点,我们这个视频主要聚焦于 官网那些 showcase 的 一些展示,我们先带大家看一下官网展示的第一个 showcase, 其实这个案例就是基于代码的动画,我们可以看一下 jimmy 三跟 jimmy 三点一,它动画的一个质量 其实差距很多,我们就拿这个来看,可能之前就是简单的一个色块接一个色块,到现在有渐变,有场景, 到其实他有一定的审美,从之前这种特别简单的效果,到现在有结构,我觉得这个 case 更清晰一些,之前就是一个简单的月亮,到现在其实它结构会变得更多,包括这种其实画面的丰富度会上来很多。 我觉得我给大家打开中文,我们一起来更直观的观看一下。首先就三点一 pro 可以 直接根据文本提示生成可用于网站的动画 svg, 其实做设计的朋友都非常了解 svg, 它就是一个文件格式非常小,清晰度非常高的一个格式。如果我我觉得这一块我们核心要看的是 jimi nike 三跟 jimi nike 三点一的一个对比的一个效果,现在我们可以通过文本直接去生成,其实我觉得这效率会高很多。那我们现在来看看第二个 case, 其实这个 case 简单来说就是它可以把一些非常复杂的数据变成可视化的东西。然后 我们看一下第三个 case, 其实这是一个交互设计的一个 case, 简单来说就是三点一 pro 可以 能够生成非常复杂的这种呃,三 d 动画,它不仅能生成视觉代码,还能构建一些沉浸式的体验。用户可以通过手部、头部去跟踪鸟群, 并聆听根据鸟群运动而变化的生成式配乐。这对于设计师来说吧,其实能非常快速的构建一个非常复杂且感受非常多重的 demo。 我 们可以大概先看一下。 after seeing a video of a starling murmuration i was inspired to ask gemini 3.1 pro to code a simulation of one for me the model created this cloud of voids that interact in similar patterns to a real flock of birds i then asked the model to make the simulation interactive so i could move the birds with my hands i also asked the model to create music that would change according to the movement of the meringue all of the features in the simulation can be controlled including the behavior of the birds and even the environment i was stunned at how beautiful the final result was。 到达了我们最后一个 case。 我 觉得最后一个 case 是 跟设计师最相关的吧,也是最好玩的一个 case, 就是 他现在三点一 pro 可以 将一些文学主题转换成功能性的代码。让 jamie 奈为呼啸山庄去设计一个作品集网页的时候,他没有简单地去总结小说, 而是理解了作品那种忧郁大气的情绪基调,并将其转化为一个现代简约的网页设计,精准捕捉了本质。最后其实就是 jimmy nike 其实现在可以在 as studio 都可以使用,甚至我们熟悉的 notebook 也是可以使用的。大家可以在评论区讨论一下你有什么根据新的模型能力,有没有什么你可以想到新的好玩的一些 case, 我 们可以在评论区一起交流。
粉丝3222获赞2.5万

昨天谷歌发布了新的模型哈基米三点一 pro, 如果我们只看名称的话,就会发现他只提升了零点一,那是不是能力也只是提升了一点点呢?并非如此,这次更新虽然是一个非常小的版本,但是他的整个推理能力有了一个非常大的跃升。而且我们看他官方展示的例子,只能说明官方很懂啊,他知道自己模型的强势点在哪,就是前端视觉, 所以他们展示的是一个视觉方案。那么这只是卖家秀,接下来呢,将给大家展示买家秀是怎么样的。 首先来到战备贷官网,不管你是什么账号,都可以进行使用,只不过额度不相同。就比如说我现在是一个免费的账户,点击右下角可以切换到 pro 模型,它默认使用的就是三点一,一个经典的小游戏,让它加上了音乐, 我与板栗仔不共戴天,就是我这个免费账户,只用它生成了这一个案例,然后就已经达到了限额。然后是我的 pro 账号,让它生成了一个动画 svg, 展示一只穿轮滑的鸵鸟,我觉得还是非常让人满意的,只不过这个行走动作呢,有点奇怪,像是倒着走一样。 只要你是付费用户呢,你这个额度其实就非常多,可以一直去用,但是相应的他也学会了 open 那 一套,对一些账户呢,给你随记录邮也就降至免费版,虽然次数少,但他肯定不会给你降至,原因呢,就是因为他肯定要让你看一个非常好的效果,然后你才会愿意花钱去购买他们的套餐。至于你已经购买的了,我就随便给你路由,一会让你好用,又让你不好用。 这个就比较烦人了,学坏。给大家看一下我其他的生成效果,重复了很多次,有的降智了,有的不降智。就比如说这个,当我点击皮卡丘的时候,他会有一个闪电。 我靠,但是有些时候他做的还挺好看的。你比如说一个精灵球,我去释放,然后会出来一个皮卡丘,它整个质感是不错的,只不过耳朵的位置错了。我也可以去继续跟他聊天,让他去纠正,他是可以纠正的。我测试过 制作一个赛车飞速行驶的 svg 动画,那它呢?就会自动帮我们进行设计,去思考应该怎么做。那最终结果是这样的,你可以看一看,是完全可以用的,非常的惊人。 但是因为我刚睡醒啊,有点起床气,没有那么激动。什么意思?在同样的提示词下,拆 gps 的 表现就非常的糟糕。而 cloud 的 欧帕斯四点六同样非常惊人,完全可用的状态。那国产模型里边 dbc 老师生成的呢?也是非常幽默,那可以看一下是飞驰。 哇哦,那现在我们再来看 jimmy 生成的这个,这样对比之下,我们就能发现他的细节比上面两个模型要好非常多。不过这个时候呢,可能有朋友要质疑, 那你生成个 svg 有 什么用啊?就只是看着好看,好像没什么用。拜托,这是 svg 啊,他是一个矢量图,这个意思是不管我们放大多少倍,他都是没有像素点的。就比如说,我们可以直接把这一段矢量图放在我们的网站中,我之前他制作一个精致的赛车网站,把 svg 动画当做头图展示, 直接让他来进行生成,这网站虽然生成了,但是说实话,配色整体的感觉是非常丑陋的,所以呢,我让他变得高级优雅,有设计感。这几个词呢,几乎已经被他训练在里边了,他一检测到这个词他就知道了啊,你想要一个那样的, 我就给你个那样的过礼盒了。属于是现在我们再来看这个风格呢,就变得非常高级了,包括这个车的颜色呢,也进行了重新设计。 哎呀我靠,艺术,这就是艺术。我这里呢还让他做了一个小小的演示动画,就是先是一个手机,然后变成赛车在赛道上跑,然后赢。我看一下 整个动画呢,可以说是非常流畅而且很巧妙。这个模型对于一些三 d 效果呢,做的也是非常不错。就比如说我让他制作了一个图书的网站, 然后是三 d 悬浮的书,然后可以这样去滑动去选,还让他制作了一个三 d 的 赛车游戏,你可以注意一下这个车上面的灯光反射做的非常好啊,还有这个碰撞, 每撞一下速度就会减慢,撞三次就死亡了。然后就是经典重现 mac os 系统,哇,整个图标的设计呢,也变得非常好看了哈,挺可爱的。 还有这个小游戏对赢家 x 贪吃蛇,这能放大吗?还可以全屏细节,还能在系统设置里面呢,去设置壁纸。 哎呦,总之这个版本的更新呢,前端依旧是非常的强劲,那至于后端,我们有更好的选择,高的欧巴斯, openid, 酷拽的都是不错的。 至于 jimmy 的 话,就写写前端吧,他们好像是要在前端的路上一去不回了,要走到头,依旧牛大了,依旧无敌,非常的寂寞。各位如果感兴趣的话,可以下去自己试上一试, 得出自己的结论,不要看我怎么说,也不要看别人怎么说,好不好用你用不用,最终呢还是自己来决定的。那以上呢,就是本期视频的全部内容了, 对你的帮助和这个视频做的还不错的话,欢迎给个一箭三连,有什么想看的内容呢,也可以在评论区留下你的足迹。那最后祝大家新年快乐,今天已经初四了,年都跑远了,给大家拜个晚年。依旧祝各位晚年幸福,晚年安康,我们下期再见!拜拜!

好, jamaican, 三点一 pro 来了,一一二,他们显著提升了模型的整体智能水平,能够解决更复杂的问题。这怎么不剥呀,剥一下呗。 a small model for your most complete。 可以 啊,看他的这条,他说这个模型在推理方面有大进步,知道为什么这是能解决很复杂的问题了。在这个测试中,他的得分是 三 pro 的 两倍多,看这图两倍多一点。还有一条现在在 jimmy 中都可以用了。 notebook lmb pro 用户和 oppo 用户可以用 api 也有动画拨一下, 接着推文里的那意思,这下没有了,看看这个,没有翻译完蛋,他们上周推出了这个东西,这周更新了三点一 pro, 这么多地方都能用,这些地方 也能用。三点一 pro 在 在那三系列中就提升很多的意思。这里头就是做 svg 动画都有很大的提升。有四个例子, 别急着划走,它这个文本提示词就能生成 svg 动画。这个三点一 pro 可以 直接根据文本提示词生成,网站可以用的 svg 动画别动。还有这种动画就是用代码直接构成,放的再大也是清晰锐利的,而且跟 传统视频相比,文件就非常小,因为它全是代码。下面这个案例它就展示了三点 pro, 利用它高级很厉害的推技术,能够跨越复杂的 api 跟用户界面之间的距离。在这个例子中,三点一 pro 就 构建了一个实时的航空航天仪表盘,并成功配置了公共 摇测流,可是换了空间站的轨道,嗯,挺厉害的吧。这个案例他就是生成复杂的三 d 鸟群的动画,在鸟群以后有机会再给大家介绍一下吧,我看他这个案例中,这个人用手去遥控这个鸟群。 to a real flock of birds, i then asked the model to make the simulation interactive, so i could move the birds with my hands, i also asked the model to create music that would change according to the movement of the meringue, all of the features in the simulation can be controlled including the behavior of the birds and even the environment i was stunned at how beautiful the final result was。 嗯,这个挺厉害的。这个案例能够把文学主题转换成代码。 他把呼啸山庄变成了一个个人的作品集,有文本,甚至生成了图片,最后还做成了一个网站。 接下来会发生什么? autor 跟 pro 有 更大的限额。

大家好,我是 kitty 啊, jammer 三点一 pro 正式发布了,我们通过这张图呢可以看出, jammer 三点一 pro 对 比 jammer 三 pro, 它在 aic, agi two 方面进步非常明显。 jammer 三点一 pro 的 swbench value five 的 得分 已经非常接近于 opt 四点六了,而且这一次它的 tommerbench 二点零的得分呢,也是非常高,是要高于 opt 四点六,低于 gbt 五点三 codex。 所以我们可以期待 gemini 三点一 pro 这一次编码能力应该是非常不错的。当然在多门态方面呢, gemini 的 顶尖的模型对比 gbt 和 opt 模型还是有比较大的优势的。这次非常好的是,如果你是 gemini 的 会员, 那在 notebook lm 里面你也可以使用三点一 pro。 有 很多用户反馈呢,在 as 九九里面使用 gemini 三点一 pro, 它的效果要比呃 gemna app 里面使用 gemna 三点一 pro 要更好,所以大家可以优先考虑在 air studio 里面使用 gemna 三点一 pro。 现在我们就看一系列实测,第一个呢是让它做一个无与伦比的理发网页, 我们可以看到这是它生成的,它做的页面的话还是非常有美学的啊。其实我们之前在 gmail 三 pro 里面啊,也是经常看到的,所以在这个案例上的话,可能还不算那么惊喜。之后我让 gmail 三点一 pro 帮我生成一个 css 的 playground, 这里也每一项参数都是可以调整,可以帮助初学者了解这些参数对应的不同的概念, 比如说这里调整字体,调整自重。我们发现这个页面的话,呃 james 三点一 pro 做的还是非常美观的,右侧还可以复制代码或者是重置,我也让它帮我生成催眠动画,它生成的这个效果还是非常不错的,有不同的变化。 再看一下它做的元素周期表,这个元素周期表的颜值也是非常高的, 当我点击元素就可以看到右侧,他会对这个元素进行一个详细的介绍,下方的话可以滑动 来展现不同元素,他们发现的年份。上方当我选择不同的类别,也会出现这样的一个分类。稍有遗憾的是呢,这里没有重置, 那我如果想要看到比较全面的元素的话,还得再刷新一下。当我开启右侧的对比模式的话,可以将任意两个元素选中,然后右侧会显示他们的个对比情况。将面三点一 pro 在 生成这个任务的时候,速度还是非常快的, 但是呢,它也有很多缺失。之前我也让 gbt 五点二克拉克 x high 来做这样一个任务, 它是花了十几二十分钟,然后生成了五千多行的代码。它的整个界面交互的维度啊,内容都是比较丰富的,是要比 gmail 三点一 pro 要丰富很多。这个页面的话,其实是我已经让它在浏览器的 play 模式下去做的了, 所以我个人觉得在这个任务上 jamal 三点一 pro 它的推理能力没有 gbt 五点二 kodak 四 x high 模式好。我们再看一个像素风派对, jamal 三点一 pro 呢,在这里呢,表现非常不错, 之前我测过的一些模型呢,有很多模型都会啊,有一个穿模的现象,比如说这里的方块小人可能嵌在桌子里啦,或者是椅子上啦,那我们现在可以看到呢 jamal 三点一 pro, 它在这里表现的相当出色, 桌面上呢是饺子,然后方块人都很好的坐在了椅子上。他的电视机的屏幕这里展现的也非常好,左边呢窗户我们还能看到外面的一些光源。再看一下他做的可编程宠物,那我们看到这个界面的话也是非常可爱, 他这里的功能的话是比较弱,界面我还是非常喜欢的。 gmail 三点一 pro 生成的绵阳理发店呢,页面非常啊温馨,窗户呢有光照进来,顶部的电风扇呢转动也非常自然。 然后我们可以看到他这里呢安排了一个人类的理发师,这里的人类理发师画的还是相当不错的, 地垫上方的 welcome 做的也是非常好,然后有一个等待的客户小杨头上扎了一个蝴蝶结,说明他的指令执行做的是相当好的,五分的话我会给他四点八分,做的相当不错。再看三点一生成的排序格式化,我们看到这页面也是非常美观, 那初始排布的话有多种可以选择,算法呢,也是有多个可以选择。假设现在是冒泡排序,那我点击一下播放, 它,这里就开始进行排序了。当然呢,我也可以点击一步完成,或者换一个选择排序, 再让它进行播放,再让再看它生成的终端工作台,这样的终端呢,还是非常像我们在 windows code 里面使用的,当我输入 help, 它会出现多个选项,当我选输入 clear, 它就会清除。当我点击右侧的加号,可以有多个 tab 页,它在这里做的模拟还是相当不错的。再看它生成的交通模拟器,这是它一次生成的效果。我们看到呢,这里有呃四个 不同的交通信号灯,目前这里的话开始绿灯了,我们看到车子过去了,然后,嗯,竖排的,这里的车子就在等待,其他车辆过来的话就接在他后面慢慢等待。当这里的交通灯的话变化成绿灯的时候, 这里就开始醒悟了。 jimmy 三点一 pro, 在 这个问题上,它是一次提示就能生成的,同样的问题我也测试过 kimi k 二点五,它的完成度是比较一般的。再看它生成的仓储模拟器,当我点击方块 或者是绿球体或者是蓝柱体,我们可以看到它会有一个吸附的动作。然后呢,把不同的物体放到对应的不同颜色的盒子里,可以看到呢,它吸附了不同物体之后, 他放在不同的箱子里,这里会有点问题,明明这里至少不止是一个球了,那他这里只展示了一个球。 之前 k 二点五呢,他在这个任务上,他同样呢,是啊,球体放进去箱子里的话啊,物体没有变化。还有一个问题是机械臂呢啊,离物体很远很远, 感觉就是隔空取物,就放到不同的盒子里了。 jimmy 三点一 pro, 在 我呃一两次提示之后,他完成这个效果已经让我很惊艳了。再看 jimmy 三点一做的网页合成器,右侧我可以点击自动演示,小心心, 下方的键盘就会自动播放了。当我选择录制,然后点击不同按键还可以回放, 上方还可以选择不同的音色,还有一些不同的格式化。当我选择粒子喷发,再点击自动演示,就会出现这样的一个效果,这样的三点一 pro 在 这里完成的还是非常好的。再换成平铺柱状图,点击一下, 生成的样式呢,也是非常美观。在其他项目都完成之后呢,我就让 jamal 三点一 pro 帮我来做一个宣传视频。我们再回看一下,这是美发沙龙的页面,那这是 css playground, 这呢是元素周期表, 这是催眠动画,还有这是呃, minecraft 的 春节,它做的比较简单。然后这是一个宠物电子宠物的游戏,这是绵羊理发店,它也做的比较简单。 呃,排序的做的还可以,动画挺好的。这是终端的模拟终端,还有交通仿真统计,这里也做的比较简约, 机械臂分类的话也是做的。然后这个音乐方面的话,它做的还是挺好的。这里呢,我大概是修改了呃,三次,第一次提示让它去根据现有项目做 remotion 动画。第二次呢提示,嗯,它发现它只做了部分,做四个项目 让它补全,但是呢,它只是加了一些特效。再之后我就再提示一下它,让它要啊,把所有的项目都囊括在内。最后呢,就会出现这些效果了, 那全程没有其他错误,包括我们现在看到的这样的一个页面呢,也都是 g p t 五点三 pro 生成的,它的前端设计能力的确是要比 opt 五点三 cola 四要好非常多。 最后呢,再看一个实干的项目,那这个项目的话有前端也有后端,是我一开始让 opt 四点六帮我做的一个视频预处理的程序,但测试的时候就遇到一个问题,将视频下载了下来,放在剪映里 会发现,呃,剪映识别出来的字幕和我看到的音频,它的波动是对不上的。 opt 四点六帮我修改,没有很快修改好,后来呢,我又让 gbt 五点三 codex high 模式修改 他,他修改了几次都没有解决,正好这时候 gmail 三点一 pro 就 出现了,然后我就让他帮我来解决,我希望他先探索这个程序,然后给出解决方法, 这是在 plan 模式下让他去处理的,他呢是探索了多个文件,然后进行了思考,最终给了我这样的一个解决方案,他一次就帮我修复好了。在之后呢,我就让他分析一下整个程序,看看有哪些优化意见。 他当时啊给出了好几个意见,但是由于 jimmy 三点一 pro 刚上市,不是很稳定,所以啊,一直报错, 那后续的话我就没有再继续处理了。从遇到这样的问题, opt 四点六和 gbt 五点三啊可达斯 s hi 都没有解决,然后最终 jimmy 三点一 pro 帮我解决了这个问题。那我觉得 jimmy 三点一 pro 在 推理方面还是有它的 啊,擅长之处的, a i c a g r two, 这也不是随随便便谁都能可以达到这样的一个分数的。 以上呢就是今天介绍 gmail 三点一 pro 的 所有内容。 gmail 三 pro 推出来之后,大家对它的前端能力也是非常认可, 但是对于它的工具调用啊,在 ajax 编码里面感觉还是缺一些内容。那现在三个月过去了, gmail 三点一 pro 我 觉得它是有变得更好的,推荐大家尝试。

求求真的不要更新了,我测不动了测测的就是大模型。开测 来看测试结果,首先是用于测试指令遵循的落季极限测试, gmi 三点一 pro 部分指令遵循率是百分之九十三点五。作为对比, gmi 三点零 pro 的 部分指令遵循率是百 百分之九十点六,还是有提升的,并且加权总分也来到了八点六,比之前的六点八提升了很多。但是啊,在我测试中, jimmy 三点一有很大的失败概率,六次测试中四次输出的 j s 代码都有错误,导致根本没有办法运行三分之二的错误概率,这个就有点离谱了。 再来看后端测试项目, vector d b 奔驰,这是一个让大模型从头实现一个向量数据库的测试,结论是 jimmy 三点一 pro 没有跑过 jimmy 三点零 pro。 三点一 pro 的 qps 是 六百五十八,而三点零 pro 把 qps 刷到了一千九百七十,是三点一 pro 的 三倍。差距在哪里?两个模型都用了倒排文件缩影,但是参数优化有很大的差距,三点零 pro 的 距类数量与千万三点五一致, 是二零四八,而三点一 pro 是 一千,这就导致三点一 pro 每次搜索的时候要扫描的数据比三点零 pro 多二点一倍。再仔细看参数,三点零 pro 的 探测数比千万三点五还大,搜索空间多出了约百分之六十,为什么性能反而比千万三点五还要快呢?答案是三点零 pro 更深层次的理解了题目,我们只需要 topk 等于十的结果, 所以三点零 pro 在 倒排列表命中之后,并没有把全量后旋机放到一个大的 viktor 中再排序,而让每个县城单独维护一个大小等于 十的最大堆,最后县城间 re 合并,也就是说只需要约四十次操作,开销几乎可以忽略不计。而其他模型的实现都要先把所有的后选距离 收集到一个 vector 中,再做 quick slice 加阶段加排序。内存分配和排序开销都比较大,同等数据量下,最大堆的方案内存开销仅为 vector 方案的百分之零点七。三点零 pro 这一波超过三点一 pro 太多了。那么前端能力有提升, 我的感觉是并不稳定,比如大象牙膏这个粒子效果喷发出来比之前好很多,但是粒子落地之后的碰撞特别奇怪,都又升上去了。鞭炮连锁爆炸测试,这个甚至感觉倒退了,爆炸的观影效果被省略到了。鞭炮炸鱼缸测试,这个表现很好,可以看到水面波纹效果还原还很不错, 但是提示词中要求的粒子和烟雾效果完全被丢掉了。拍摄杯子倒水测试,虽然粒子从杯子中掉落出来很少,乍一看效果不错,但是这是由于粒子之间碰撞特别小导致的,这让粒子看上去都不像液体了,更像冰淇淋。涂菲伦。信信测试,这个有提升,可以看到细节增强了很多,这也是我觉得这次 google 最大的 提升,它空间理解增强了,导致 x 上各种画 svg 的 测试看上去都很舒坦。 总结,这次测试下来, g 上各种画 svg 的 测试看上去是不稳定, 可以看到前端项目有的有提升,有的反而缩了。复打任务的时候代码出问题的概率很大,后端代码测试甚至都没有打过 gm, 三点零 pro 只有空间理解猛猛的优化了,甚至啊不稳定都能从优化性能的过程中看出来。性能最好的那一次中间做出来之后,后续几次又把性能优化回去了。 而我们可以看到,好的墨星做优化,性能都是在不断的上升。我的评价是,这次的更新更像技术预览版,还没有训练稳定就被仓促拿出来了,用来应对这一波大墨星更新的浪潮。如果你平时喜欢用 gm 的, 这次的三点一 pro 用着感觉不太对劲,那么就不妨换回三点零 pro 试一试。最后,辛苦大家多点赞,多关注,这对我真的很重要,我是牙医,我们下期再见!

昨晚,谷歌扔出 jimmy 三点一 pro 突袭硅谷,在各领域刷爆搜查的同时,还做到了加量不加价。 这次的测试表现有点掀天花板的意思。在人类最后的考试中, jimmy 三点一 pro 零工具辅助拿下百分之四十四点四,把 gbt 和 cloud 甩在身后。在二 kgi 二基础测试里,他也直接砍下百分之七十七点一的验证分数,推理表现是 jimmy 三 pro 的 两倍还多。 量化测试有了,再来看实际应用效果。同样的提示词下,三 pro 画的题弧跟七巧板一样,三点一 pro 已经能清晰勾勒出腿的轮廓。互动可视化方面,它能轻松搭建航天仪表盘,实时显示国际空间站的当前位置,也能一次到位编写出三 d 交互的两鸟群,用手势就能操控。 还有很亮眼的创意编程,把抽象的感觉编成具体的代码。比如这个为呼啸山庄搭建的作品集网站,就展现了很符合文字情绪的视觉风格。更 nice 的是性能翻倍,价格没咋涨,接替定价跑一次 ark a j i 二任务不到七块钱, 是 jimmy 三 deep think 的 十分之一,性能只差几个点。连姚顺宇也发文推荐了 jimmy 三点一 pro, 并表示更好的还在后面。看来马年的大模型战场要抓紧时间热身了。

二零二六年二月二十日,谷歌官方宣布全新大模型真意三 d pro 全面上线,面向企业用户、开发者开放接口。新版本在复杂推理、数学计算、代码编写、成文本理 解等核心能力上实现翻倍提升,多模态理解、精度、响应速度、逻辑连贯性全面优化,直接对标 g p t。 四点五顶级版本, 全球 ai 大 模型竞赛进入寒热化阶段。 jimmy 三点一 pro 的 核心升级集中在推理效果与场景式配合。谷歌通过优化模型架构、精简计算逻辑、强化 知识图,让模型在处理高难度逻辑编程任务、长篇文档分析时准确率大幅提升,同时延迟显著降低。企业用户可以用更低成本的 ai 能力实现智能客服内容删除、数据分析、自动化办公、场景落地,个人用户也能通过相关 app 体验 到更聪明、更听话的 ai 助手,无论是写文案、做表格、学知识,还是解决问题效率都能大幅提升。在全球大模型赛道上,中美厂商呈现双线领跑格局, 谷歌 openai mate 专注通用大模型突破,而国内百度、阿里字节、智谷 ai mini max 等厂商则在垂直溶解、快速时代部分领域已经达到国际一流水。 zion 零三点一 pro 的 升级,也会倒逼国产大模型加快研发节奏。五、在推理速度上、下文程度、多模态能力上的持续追赶。二零二六年,大模型不再是炫技和科技,而是融入各行各业的基础领域。 ai 大 模型的快速迭代,正在深刻改变个人的工作、 自我知识的报告、学习可以用 ai 一 对一,创作可以用 ai 提供灵感, 这艾瑞米三点一 pro 的 上线,意味着 ai 成为辅助工具,向专业伙伴助力, 能处理更复杂、更专业的任务。随着技术不断成熟, ai 使用成本会持续下降,最终实现全民互惠。二零二六年,注定上 ai 全面落地的每一个人都能感受到人工智能带来的变化。

距离 google 发布其中一个 gemini 三模型已经超过六十四天了,那就是 gemini flash。 而在那大约三十天之前,它们发布了 gemini 三 pro, 所以 我们正在接近 gemini 三发布将近一百天了。而你必须要想到在当前这种 ai 生态系统中,那相当于大约一百年。 所以今天 google 正在介绍 gemini 三点一 pro。 在 这个视频中,我将会浏览这个模型的一些更新,稍微谈一谈这如何与发布时间表相契合,并且我们将快速看一看这个模型实际上能做什么,因为它现在正在被推广到大多数使用 gemini 模型的 google 应用程序中。 这么耐三点一 pro, 所以 如果我们进入并查看关于这个的博客文章,我们可以看到一些有点有趣的事情。所以,首先,这只是一个三点一这一事实本身就有点有趣,对吧?这么呢,从来没有除了某种零版本或零点五版本以外的任何东西。 这是我们第一次看到零点一版本。我确实认为这一点有点有趣,因为自从这个模型的最初版本发布以来已经将近一百天了。 显然,在那段时间里,他们通过 gemini think 模型产生了很多影响,并且他们显然正在采用其中的一些想法以及一些技术,并将其放入这里的主 pro 模型中精准测试。好的,所以,如果我们进入并查看这里的精准测试,我认为真正的要点在这里, 不是仅仅将其与其他模型进行比较,所以他们当然将其与三菱四点六和 oppo 四点六进行比较以及 gpt 模型。但真正是与 gemini 三 pro 进行比较,我们可以某种程度上看到一些东西, 所以如果我们查看,例如人文学科期末考试,这是一个巨大的提升。相比于 gemini 三 pro, 它比 sony 四点六更多,它比 oppo 四点六更多。但是看看我们相对于 gemini 三 pro 看到的提升,并且不要忘记这只是一个零点一版本, 对吧?而我会说,主要原因是像我将在一秒钟内向你展示的那样,当我们实际上做一些查看一些视力时,这里的这种 thinking high 模式真的就像是一个 bitthink mini, 一 种他们在这里进行的事情。 我们也可以在查看像 r k g r k g i 时看到这一点。百分之七十七。相比 jimmy 三 pro 的 百分之三十一,显然你知道的 entropic 模型在那方面做的要好得多。 google 可能甚至没有真正考虑过为此进行优化。也许是在 gemini 三 pro 中,但我们可以看到这里有一个巨大的提升。并且虽然 google 没有在他们的驳客文章中这样说,这绝对看起来像是他们开始获得用于训练这类任务的非常好的 r l 环境,然后转化为更好的精准测试。 我们也可以再查看你知道的一些其他可能具有 r l 环境的东西时看到这一点。比如编码精准测试,像这种 m c p l s 的 东西在那里,你可以想象你正在做那种 agent search 等等。所以显然我们正在看到不只是精准测试展示了这一点, 我们可以在这里看到好的,你知道的,让它为设计生成东西。三点一 pro 已经看起来比三 pro 好 得多。 在此,这是一件你可以想象已经通过一个非常好的 r l 环境完成的事情。对于某种程度上,你知道的图形设计,在编码等方面也是如此。我们我们可以看到好的这个模型在这些方面已经变得更好了。 现在除此之外, google 实际上在这里并没有说很多,对吧?所以这有点有趣。就像我说的,这是一个零点一版本。也许在过去,他们基本上会说,好吧,这是另一个新的 jimmy 三 pro 预览。就像他们在二点五预览中所做的那样。在我们获得 g a 之前有多个预览。 现在在这里看起来,似乎他们不是仅仅推出另一个带有更新日期的新预览,而是他们实际上决定称之为 jimmy 三点一 pro。 并且那些精准测试我认为确实证明了这一点。 所以让我们跳进去玩一玩这个,并看看他的表现。我想向你展示你实际上如何利用这个模型拥有的不同瓶颈级别,这样他可以从你知道的非常快速的思考,一直到你正在查看五分钟以上才能返回完整答案的事情。 好的 thinking levels 演示,所以要开始你来到这里,并且你基本上只需选择最新的模型。所以如果你没有看到它,只需点击全部。 它们当然正在推出它,你应该能够很快在这里看到它。所以我将从国际数学奥林匹克问题中的一个问题开始 现在这个问题。当我去年用 deep sink 模型运行它时,它能够给我们正确的答案,但它花了很长时间,对吧?我想从记忆来看,十七分钟以上在我们获得 first token 时间之前, 所以你可以在这里看到我们已经有了这个设置。我将 thinking levels 设置为 high, 并且我们可以看到它确实正在花费你知道的时间来获得你知道的答案。这部分是因为我们将 thinking level 设置为 high。 使用之前版本的 gemini 三 pro, 你 只能有 low 或 high, 现在你可以在其中有 low midi 或 high 作为设置。 所以你会注意到,当他在这个过程中,我们已经某种程度上进入两分钟的思考,但我们在这里寻找的答案基本上是零一和三, 所以让我们看看我们是否将获得答案。好的,所以我暂停了他,当他实际上正在进行时,他最终确实得出了正确的答案。他花费了你知道的超过八分钟才得出这个答案。这大约是 didink 过去所花时间的一半。 但这展示了这个模型真正有点有趣的事情之一。那就是如果你将 thinking set 为 high, 这几乎就像 gemini 的 一个迷你版本 did think, 这是他们某种程度上强调的事情之一。这个模型现在已经从 gemini 中吸取了经验教训。 didthink 包括早期版本和更近期版本。现在与此同时,如果我将其设置为 low, 对 吧?我们应该在这个上面得到思考要快得多的东西。好的,因此,虽然思考要快得多,但在这种情况下,它实际上没有得到正确答案。 所以当你为这个执行不同任务时,你确实希望利用 thinking level。 另一个,人们一直在做很多的任务是创建 svg, 而这个是我只是要求他为我制作一个骑自行车的猫的 svg。 所以 如果我们将其渲染出来,你可以看到好的。它也许不是世界上最好的猫,但它出来了。你知道的相当好。 看起来这只猫带着一条围巾。我们有我们的自行车,看起来相当准确,我们甚至有一条链条。我们有猫的腿,实际上在踏板上。这在里面是有点好的 好的。所以,如果你想自己试用这个模型,你可以进入 a studio 并免费试用这个模型,并尝试你自己的提示,并某种程度上看看。记住,这里的大事情是,你应该尝试不同的 thinking levels。 如果你将其设置为 hack, 它可能需要更长时间来给你一个答案。但当你这样做时,你绝对会从这个模型中获得某种像 gemini think mini 的 东西。 所以这个模型正在向 gemini pro plan 推出,它已经在 google cloud 上推出。如果你想在那里试用它,你当然也可以在那里使用它。 我会说,虽然这是一个增量的零点一步骤。它是一个大的更新,基本上使模型重新回到与 oppo 四点六以及最新 gpt 模型相同的竞争领域。 正如三 pro 在 过去三个月中推动了专有模型以及开放模型权重的某种全新起飞一样。现在,既然 jimmy 三点一 pro 已经推出,并且实际上已经显著提升了其性能, 我们是否将看到其他模型发布?新版本已尝试赶上。无论如何,在评论中分享你的想法。如果你喜欢这期视频,别忘了点赞和关注,这样就不会错过最新内容了。

今天终于不用被 c dance 二点零新闻刷屏了,没错,虽说字节跳动即将发布的视频模型一直在霸占各大新闻头条,但世界并没有因此停止转动。 所以今天我们聊点跟 dance 无关的内容,就是 google 的 几项重磅发布,包括 gemini 三点一、 larry 三,也就是那个音乐生成模型,还有一个叫 photoshop 的 新工具。 我知道大家一听到这儿肯定都竖起了耳朵,期待我会说出 vo 四这个名字。那个还没来,不过也许有个大字日期了,也许吧。视频方面, magic 推出了大家期待已久的功能,创意视频放大。 而在图像领域,我们得以 equiminy v 八的真容,还有大量关于这一新模型的情报。所以今天脱下舞鞋好好放松一下, 毕竟这是大家应得的享受。首先, google 最近可谓动作频频,其实就在我刚开始录这期视频的时候,他们发布了 gemini 三点一 pro, 这次发布仅呈上周 gemini 三的 deep scene。 更新之后,据官方介绍,新版本在核心推理能力上更进一步,更智能, 解决复杂问题的基础能力也更强了。那么来看看跑分数据,你也知道我并不是什么跑分党,但既然聊到大圆模型嘛,看跑分也算是规定动作了,他们显然在高调展示七七点一分的 r k g i 二成绩,如果你还不了解的话,这是抽象与推理语料库第二版, 主要测试模型的流体智力,也就是他学习新技能并仅凭少量视力及时掌握新规则的能力。为了让大家对百分之七十七点一有个直观的概念,人类测试者的平均得分大约在百分之六十六之间, 尤其是在面对这类从未见过的谜题时,所以七七点一分显然更高。看来这部分测试我算是通过了。显然,三点一已经超越了人类的平均水平,也就是在这类抽象推理上的表现。 至于那个名字起得最深得我心的测试,人类最后的艺考杰米三点一 pro 裸测得分百分之四十四点四,配合搜索和代码工具则达到了百分之五十一点四。 相比 gemini 三 pro, 这绝对是质的飞跃。有趣的是,这几乎形成了镜像对比跟 cloudops 的 百分之四十和百分之五十三。 说到底,在面对人类最后的艺考时,你们知道该怪谁吗?聪明人,你们这些聪明人得加把劲,多生些聪明的后代了。你们这些聪明宝宝最好也能提点更有水平的问题。 没错,关于全球最强模型这座摩天轮,我们现在转到了这个位置。如果你想试用 gemini, 它还是走那种典型的 gemini 发布套路,已经在 gemini app 上线了 pro 和 ultra, 订阅,用户的使用额度更高。所以说,我得承认, gemini 经常满嘴跑火车, 或者对自己的版本号含糊其词。话虽这么说,你也可以去 ais 里经常满嘴跑火车,选一下就行,你只需要把它切换到 gemini 三点一 pro preview 我确实上手简单,试了试用我的惯用测试手段,写个复刻版的导弹司令部,结果它完成的相当不错,整个过程只用了寥寥几个提示词,表现确实很好。这游戏其实是有声音的,但我把它静音了,毕竟你们现在应该不想听那种八十年代的阶级音效。说明一下,这并不是靠单样本提示一次生成的。 其实在构建的过程中,他还会主动给出建议,比如问我要不要加点音效,或者在游戏中加入强化道具。而且他是边构建边提出建议的,感觉就像他在仔细琢磨我的提示词,然后顺便提醒我说,你这里可能需要点音效,或者想让游戏更具挑战性一点, 肯定会有更多有趣的玩法在接下来的几天涌现。这只是我刚才随手试的一条指令。我说 根据这个频道链接帮我做一个互动网站,结果它生成了。这个我觉得很有意思的一点是,它甚至还提供了一个提示词构建工具,这点确实非常有意思。接下来看看音乐方面, leary 啊也迎来了更新,这是酷狗推出的音乐生成工具,它目前只能生成三十秒长的片段, 我觉得之后应该会支持更长的生成时间和续写功能。但就目前而言,这里面确实有不少值得关注的亮点。这主要归功于 gemini 三的多模态能力, 包括能让你通过图片来进行创作。据我所知,还没有其他音乐生成器具备这功能,生成过程直接在 gemini 里完成。 当然,这里有一些预设的流派,你可以直接用,或者也可以自己写提示词。咱们试个提示词,身穿蓝色西装的男子横穿马路,试图躲避想给他开罚单的警察。看这几个选项听起来确实挺适合当健声音乐的,咱们来试一下,看看效果如何。 觉得有点无厘头?确实有点,但也有点九十年代末千禧年初那种神曲的感觉,也就是那种三十多秒的生成片段。我觉得它的定位并不是那种专业的全功能的 ai 音频制作工具,而是一个能让人轻松有趣地探索 ai 音乐生成的途径。 其实这种多模态的尝试还挺有意思的,我上传了喷火女孩的原图,只输入了根据此图生成歌曲的指令,没加别的,来看看它的生成结果。 准备好撕裂一切,看我点燃熊熊烈火。唯一的渴望唯一的渴望。我是说我个人觉得 我不会选用八十年代风格的 pet bennett 摇滚金曲作为喷火女孩的主题曲,但这显然表明 levi 确实看懂了这张图, 他能理解图中的角色是谁,并据此生成了相应的歌曲。我觉得很有意思的一点是每次生成的片段, 而不会到了三十秒就突然断掉。这点确实挺有意思。 所以我也会持续关注 lyra, 感觉它后续还会有更多惊喜。而且说实话,我最近一直手痒,想搞点音乐,毕竟那些吉他在墙上已经挂太久了。 tony 也有一个相当有趣的更新,这是属于 google labs 的 项目, 我想这可能主要是针对观看本频道的品牌和营销从业者。不过我觉得一旦你看到它的效果,大概也能想到很多其他非常有趣的用途。 这是一个叫 photo shoot 的 新功能,顾名思义,它显然是用来生成产品。摄影大片的生成效果真的很棒。我随手找了张拍的很烂的 usb 极限器,照片刚好就在我桌上,就是这张。没错,拍的确实挺烂的,但我们就用这张来上传, 接着就能看到这些拍摄模板,你可以对它们进行修改,还有很多其他选项,我们先用默认的就好, 比例就选九点十六分试试看吧,这样更有卖相。点击生成 w, 随后生成了这四张图。说实话,我得承认效果真的挺棒,毕竟我给他的底图其实就是张随手拍的废片,确实挺让人惊艳的。所以你看,如果你手头有想处理掉的东西,比如一直堆在地下室,想在二手平台上卖掉的, 只要随便拍张烂照片上传到这里就行了。接下来配合潘美丽工具,你可以直接用那四张图片,基本上就能直接生成一整套广告方案了。 我刚才给他传了一张全球最强 usb 扩展物的照片,来看看他最后给出的效果。瞧出来了,也就一分钟左右的时间,我就做出了一套全能枢纽无限可能的广告。你知道这种技术以后会在哪大显身手吗?比如在亚马逊,在那我们能看到很多类似的功能应用,请问有点意思,其实你在这里也可以给素材制作动画,所以这基本上就是免费版的 nano banana pro, 估计还有 vo 三。说到这,我知道最近有很多人都在问 vo 四到底什么时候出, 不过要先声明一下,我这儿并没有任何内部消息。虽然我一直都坚持认为这会在 google s o 大 会上发布,官方也已经官宣日期是 五月十九号,毕竟 i c o 可是 google 的 年度重头戏,所有真正的重磅消息通常都会在那儿发布,所以我猜到时候就能见到 v o 四了。单从时机和日期来看, 这都最合情合理,再加上你也知道,毕竟这是个展示实力的大舞台。所以再次声明,我并没有什么内部消息。我呀,五月十九日,言归正传, magnificent 推出了大家期待已久的视频放大功能。如果你关注 ai 圈子有一段时间了,你肯定知道 magnificent 是 最早的一批,即使不是首创,也是创意图像放大工具。而且显而易见的是,视频放大功能呼声很高,上线第一天起就在期待,现在它终于正式上线了。确切地说, magnificent 和 freeplay 现在都支持这一功能了。 我们这就来把这两个都看一看。 magnificent 的 老用户对这个布局应该不会陌生,很明显,这里是文件上传区。放大模式主要有两种风格,自然或生动。 还有一个创意程度调节滑块分辨率,支持一 k、 二 k 以及四 k。 还有一个高质量开关,开启后处理时间会变长,但最终的画质表现会更出色。 还有 fps 提升功能,我想它能让视频帧率直接翻倍。至于 turbo 模式,则可以大幅提升处理速度。我还不清楚 如果同时开启高质量模式和加速模式,效果会变成怎样。这里有锐化滑块和智能颗粒滑块。不过我想提醒一下,就像调整其他参数一样,很多时候适度才是最好的。比如把我们之前生成的这段 cds 视频,再用 magnifik 放大增强工具处理一下,效果非常明显, 我想你们应该能看出来。我也拿不准。很难说 youtube 的 压缩机制会产生什么影响?但帧率确实提升了。总的来说,它的确名副其实。感觉画面有点,至少我觉得对比度太强了。这是将创造力设为零,并上彩样到二 k 的 效果, 开启了高级质量和帧率提升。锐化设为零,颗密度也设为零。我觉得这个模型非常擅长处理 cgi 和动画风格。这是另一个 cds 生成的结果,不过随着画面推进,它确实能修复并清理掉大量的瑕疵。不过我想说的是,效果确实非常出色, 但它偶尔也会产生一些诡异的细节。正如你所知,这是这类 ai 放大工具的通病。这也是需要稍加留意的地方,因为它偶尔会生成一些奇怪甚至有些莫名其妙的效果。比如这里 我们可以看到这朵云,或者说这里的这道烟柱。 magnificent 看到后心想,哦,这是个踩着悬浮滑板的人。 不过说句公道话,只要人在画面里,它就能一直维持这个滑板人形象。这点倒还算过关。 他还会搞些骚操作,比如在没脸的地方硬塞张脸,比如在这个红色标志里, magic 却硬是觉得这里面有张脸。确实,我也知道这很离谱,挺诡异的,挺荒诞的,但我好这口,我也说不上来。这就像 ai 里常有的那些灵异瞬间, 我超爱看这些玩意儿。不过我得提醒一下,画面可能会出现反转,甚至某种程度的换脸现象。就像这里看到的,这是一个 c 部 cds。 我 懂了,这是 magnificent java 生成的片段展示威尔史密斯大战意大利面怪,挺有意思的,你能看到它对这只意大利面怪的处理效果非常棒, 我是说画面优化得非常非常干净,所以说威尔史密斯的脸确实有点像被换脸了一样。 当然,这个片段的画面变化很快,以至于我不确定大家是否真的注意到了,但这确实是个值得注意的问题。不过我觉得他在处理 c g 角色方面表现得尤为出色。这其实只是巫书四预告片里的一张截图,你是指这些经过视频压缩的素材,截图后又再次导入, 所以画质看起来满是噪点,非常糊。但它在修复这类画质问题上效果拔群,特别是你基本没看到犀利的脸部有任何走样。至于这一张,我直接把创意度拉到了百分之四十六。 也就是说,即便你把参数调得很夸张,最后生成的效果依然相当不错。我还想在 free pick 上也尝试一下。这里的逻辑稍微有点绕,因为它把功能分成了几个不同的预设 动画、三 d 写实艺术和自定义。首先用三 d 动画模式来试一下,看看效果如何。如果你想要所有那些进阶选项及我们在 magic 看到的那些,你需要点击下方的这个自定义按钮,这样就能解锁和 magic 完全一样的配置了。 所以这里有两个不同的入口,都可以进行操作。这里有个挺有意思的玩法,就是拿我拍的这段视频来做演示。这段视频其实是在 wallabs 里录制的,就是那个三 d 世界模型工具。 我们前阵子刚聊过,他顺便提一下,他们刚拿到了十亿美元的融资,整整十亿美金,简直太惊人了!把这段视频放进 magick 进行放大处理,我是说出来的放大效果确实非常出色。 我最喜欢用 marble 的 一点是将其作为虚拟背景进去截几张不同角度的图, 然后导入到 nano banana 里,把角色放进去,效果非常不错。既然 cds 二可能下周发布,而输出分辨率只有七二零 p, 你 肯定会想要个画质放大工具,或者手头备个创意放大工具,所以很值得收藏一下。 接下来, midori 的 v 八版本也快发布了,我们现在可以抢先预览一下,还有一些令人惊喜的消息。 值得注意的是,我们现在看到的是 v 八模型的早期评分测试。正如官方所说,这些图意在表现的平淡无奇、中规中矩、不带主观风格,并不能完全代表 v 八的最终水平。但如果你是 me journey 的 老用户了,你会发现它们在重大版本发布前总会来这么一手, 目的是根据社区的反馈来微调模型。不过这确实能让我们提前了解 v 八的发展方向, 比如文字生成能力。终于 midori 能够生成正确的文本了。虽然看起来我知道这谈不上是什么颠覆性的进步,但这确实是我们许多人期待已久的功能。此外,说实话, v 八还会带来常规升级、更好的提示词理解、连贯性及构图能力,毕竟每次新模型发布时,这些都是老生常谈了, 而且据说这个版本的运行速度会非常快。我非常期待 v 八最终成型后的样子。 再次强调,目前的状况并不能完全反映模型的最终表现,但根据我和 midori 内部员工的交流来看,他们其实是在表达比起 v 七对 v 八的期待值要高得多,远远超过了当初发布 v 七时的热度。 不可否认, v 七发布时的表现确实有点差强人意,显然连他们自己也多多少少承认了这一点。看来我们很快就能见到全新的编辑器了,我猜测它可能会更符合现代化的 nano banner 图像编辑风格,并且能提供更强大、更可靠的图像参考功能。 除此之外,据说我们还会迎来一个全新的深层界面。他们还提到今年年内将推出全新的 v 二视频模型,而且该模型的规模将远超之前的 v 一 版本。显然他们现在手里掌握着充足的算力资源,所以这绝对是一个值得重点关注的视频模型。 mid journey v 八最快下周发布,但别忘了延期惯例,毕竟他们发布东西向来有自己的节奏,不按常理出牌。说到时间,我今天的节目时间也差不多到了, 接下来我会再去四处搜罗一下,看看还有没有其他值得关注的新鲜事。那么除此之外,其实就是做下准备,为下周一大波 c dance 的 内容。至少我是这么认为的,我觉得这事肯定准。虽然官方还没公布确切日期,但我估计应该是。那么在那之前,感谢大家的收看,我是 tim, 我 们下期再见。

这些带交互的精美演示动画,全是用一句大白话做出来的,没写一行代码,做了十三年世界设计 jimmy 三点一 pro 这次更新的 canvas 可视化能力是有点多,想今天直接给大家分享这个一键做动画的工作流核心逻辑啊,就是封装一个专属的 jim jimmy 键应用,把准备好的角色设定和工作流提示词给他取好名字后,记得要勾选一下 canvas 模式保存后,你的专属动画工程师就上线了。比如我发这个指令,做一个带滑块控制的地球四季变化动画。选 pro 稍等片刻,一个完整的可交互的画面就直接在右侧渲染出来了。 只要你能够表达清晰,任何复杂的知识点都能够做出简单易懂的画面,就直接在右侧渲染出来了。只要你能够表达的传统的手工动画软件都 out 了,你们觉得呢?

所以说这段话是用 ai 写的,是用最新的这三点一生成的效果吗?炸了!炸了!兄弟们,这三点一这次真的是王炸来袭!前几天我刚录完 deepsea 和三点零的对比,没有几天这三点一横空出世,这次彻彻底底碾压所有大冒险, 尤其是在网文写作写小说这方面迎来了意想不到的突破。千万别小看从三点零到三点一至零点一的版本升级,写小说的门槛再次下降了。 话不多说,我们直接来看效果。首先我总结了真人迷你三点一,也就是我们奇想版现在比较优势的特点,那么它整体的文风 ai 味更淡, 遵循指令能力更强,脑洞更加爆炸,输出字数更加听话。最核心的变化是推理能力的巨大提升, 也意味着你的文章前后文的逻辑漏洞几乎没有。我用我三十多万字的长篇去测试了一下,在我的关联字数限度内生成的文章内容没有任何漏洞,而灵光板现在依旧保持着灵光板的优势。那么三点零的优势是什么呢?就是他的思维更加自由化, 也就是说三点零的指定遵循能力并没有三点一强,但是他的思维更加发散,也就是更适合去抽脑洞,为你的下文选择灵感,去续写章纲等等等等。 那么现在正文字呢?我还是推荐大家去用真迷你三点一。说了这么多,我们直接来看实际的应用效果,在左上角这里我们点击 ai 写作,右边就弹出我们正文字的模板窗口了,我们在这里呢,从 ai 模型选择奇想版就是我们现在即将使用的真迷你三点一联想能力,我推荐大家在这里调整到离谱 点击使用,随后关联上你剧情里面的角色卡以及词条卡,简单的呢,给出来你的 核心剧情以及你对他的指令,选择好写作风格,写作要求之后,关联你的前文直接生成。可以看到啊,很快奇想版,也就是我们的真密三点一就把正文生成出来了,我们先把文章复制下来, 可以看到啊,一上来呢,他就展现了他的逻辑能力。这篇小说呢,我是设定为男主穿越到架空王朝系统,携带一百万的现金,也就是两届导演的最强体现,也就是说他对数字的敏感性也更强了。 我们再往下看,我们来看一下实际的对话文风相也有令,活要见人,死要见尸。铁甲腹将拨开前方的灌木,刀刃在阳光下泛着白光, 一个泥腿子仗着点妖法糊弄陛下,真当自己是天兵天将了,剁碎了喂狗。整体的所有的角色设定都是按照库里的角色卡啊,我们金甲将军凶残狰狞,视人命如草芥,完全符合人设。 随后第一步踏出,第二步落下之后,整体的文风穿插非常的连贯,这个效果我已经不能用震惊来形容了,我觉得大家自己去看一下实际的生成效果是什么样的才是最重要的。你去看一看你的文章,用奇想版生成之后的效果,你就会彻底被 ai 写作所折服。 那么最后呢,我们这里还给大家建议了一些章节名,而且整体的文字控制也在三千字左右,非常的牛逼。话不多说,对 ai 写作感兴趣的关注私信我即可。



快速盘点一下春节前后 ai 有 哪些新动向?首当其冲的是 jammy 悄悄更新到了三点一,别看只更新的零点一, 但前端能力有了一个质的提升,对比下三点零和三点一,前端产出质量确实高了不少,据说各项跑分又全面反超了其他 ai。 又是新王登基。我个人是 jammy 的 重度用户,但我更倾向于评价它是全能型 ai, 虽然确实能够解决我大多数的使用场景, 但有时候还是不得不用别的模型。然后就是千问的三点五开源了,开源的意思就是你可以直接复刻出同等能力的模型,据说代码能力直逼 cloud opus 四点五。要知道 ansorek 家的 token 是 非常氪金的,所以看到这个千问三点五的开源消息 简直狂喜。下一个就是春节前自节发布的 cds 二点零模型,这真的是 ai 视频生成领域的一个重磅消息,对于一些小型影视工作室,摄影机确实可以逐渐放下了,未来拼的不再是技术, 而是思维和审美。二月五日, s o p e 和 open ai 同时更新,一个是 cloud office 四点六和 g p t 五点三 codex 编程模型。很多小伙伴都没有用过这些产品,觉得不就是聊个天吗? 过如此确实我们不用过多了解他们的参数,但我希望大家能知道他们的能力边界,不值得聊天。在这个时间点,我想用一句话概括他们目前的能力,那就是你的 ai 打工养活你也许真的不远了,尤其是重中之重的 open pro。 很多人还认为这是一个 ai, 但我以普通 ai 玩家的视角来说明一下这个东西,它真不是个 ai, 而是一个技术架构,它的能力会随着上面说到的 ai 模型的迭代和硬件迭代变得越来越强,用的好的人已经用 opencore 赚到了第一桶金, 所以我才说 ai 打工养活你真的不远了,前提是你需要懂得怎么驾驭它们,怎么在 ai 时代做好一个管理者。最后再补充三个国产之光,一个是 kimi 二点五, 现在可以直接在趣里面同步某性开发助手,实时预览编辑小程序。现在我可以负责任的告诉你,编程小白,自己做出一个小程序真的不是梦。另外,智普 ai 发布了 g l m 五 max 也发布了二点五,我实在是有点玩不过来了。你们有没有玩过的,欢迎你们在评论区分享你们的使用感受。 ai 三天一小更,五天一大更,我不制造焦虑,但我想让你们知道这个世界发生了哪些变化,跟我们有什么息息相关的关系。我是卡卡,一直陪你玩 ai, 下期再见!

嗨,欢迎收看新一期视频。 google 刚刚发布了 gemini 三点一 pro, 这其实是 google 首次对 gemini 模型进行零点一版本的增量更新。 之前每次升级都是零点五的大版本跨度,所以这次显得有些特殊。在我的单样本和智能体精准测试中对其进行实测后,我得出了一些结论。说实话,情况对 google 来说不太妙, 现在先来快速过一下概括。 jimmy 三点一 pro 被宣传为在推理能力上有重大升级,它拥有一百万 token 的 上下文窗口 以及六万五千 token 的 输出上线。 google 宣称其在 a r c a g i。 二测试中达到了百分之七十七点一。相比 jimmy nike 三 pro 的 百分之三十一点一就堪称巨大的飞跃。单看纸面数据,这确实令人惊叹。 但问题来了,当你真正上手使用时,情况却有些不同。但问题来了,当你真正上手使用时,情况却有些不同。但问题来了,当你真正上手使用时,情况却有些儿不同。但问题来了,当你真正上手使用时, pro 进行了测试。 这是我专门用于评测模型性能的个人机准测试,结果非常耐人寻味。但对 google 来说,这可不是什么好消息。 在单样本机准测试中, gemini 三点一 pro preview 的 准确率为百分之九十六,在两百二十分的满分中拿到了两百一十二分。这成绩当然已经很出色了,他在通用问答上拿了满分, 编程方面也有百分之九十五。但问题来了,上一代的 gemini 三 pro 在 完全相同的测试中可是拿了百分之一百 两百二十分,满分,拿了满分。所以, gemini 三点一 pro 其实退步了,在单样本任务上,与前代相比, 从百分之一百跌到了百分之九十六,这可不太妙。如果再看看成本情况就更糟了。 gmate 三 pro 跑完整个测试只花了零点八五美元, 而 germany 三点一 pro preview 却要一点七三美元,等于成本翻了一倍多,得分反而更低。细想一下,这真的很离谱。不过平心而论,百分之九十六依然是 king bench 总榜第三的高分。 cloud opus 四点六排名第一,准确率百分之一百,但运行成本高达六点三九美元。 gm 三 pro 排第二,也是百分之一百,但只要零点八五美元。接着 gm 三点一 pro 排在第三,后面是 g l m 五,得分百分之七十九,成本仅零点一四美元。 vivo 的 oppus 四点五 max 得分百分之七十四, g l m 四点七和 g p t 五点二 x high 都是百分之六十五等等。 所以在单样本任务上,它的表现确实不错,但它表现竟然不如上一代,价格反而更贵, 这跟 germany 三 pro 的 表现如出一辙,单次指令任务表现尚可,但没什么突破。接下来聊聊它的智能体能力,因为这部分表现真的让人大跌眼镜。 我用 kilo c l i 在 我的 kingbench 智能体评测级上跑了一下 germany 三点一 pro, 结果简直惨不忍睹。我测试了一系列智能体开发任务,包括构建 expo 电影追踪 app、 基于八八 t 酷的勾终端计算器、高到步数计算游戏、 svg 生成命令行工具、 theotekkit 看板应用、 next 三问答平台以及 tauri 桌面图片裁剪器。 gimini 三点一 pro 在 智能体精准测试中的平均分只有四十九点二, 在四六个参照智能体中仅排第十九,五次评估的总分共计两百四十六分,而且总成本花掉了四点三七美元。这不仅仅是表现差, 相比 gemini 七 pro preview, 这简直是巨大的倒退。毕竟预览版当时的得分是七十一点四,排名第七,所以这次升级反倒让智能体性能大幅缩水, 排名直接从第七跌到了第十九,这滑坡也太严重了。再跟排行榜上的顶尖模型比一比, seven 四点六达到了八十七点九分, glm 五配合 kilo c i 拿到了八十四点一分。 oppo 的 四点六配合 ko 的 扣是八三点六分,就连 oppo 四点五配合 ko 扣都有七十七点一分, mini max m 二点五也有七十六点六分。在智能体任务上,这些模型简直完爆 gamiy 三点一 pro, 根本没法比, 但分数只揭示了一半真相,带大家看看实际运行中到底发生了什么。当我把 gamiy 三点一 pro 当做智能体去跑的时候,说实话,它的问题出在规划模式上, 杰迷你三点一 pro 一 旦进入规划模式就根本停不下来,感觉就像在没完没了地规划。在测试 go 终端计算器任务时,规划阶段竟然持续了三十七秒,生成了巨长的思考内容。 而且这些思考过程极其啰嗦,他简直就是在把同样的话翻来覆去地说,只是换个措辞翻来覆去地讲。比如一段显示构思设计, 下一段显示梳理布局,然后是计划实施,接着又是概述结构,其实说的都是同一回事, 这纯粹是在毫无意义地燃烧 token。 经过这一通规划之后,他才提出澄清性问题。理论上听着没毛病对吧?但问题就在这,他没用 kilo c l i 提供的 ask questions 工具, 而是直接把问题塞进了规划回复里。所以他没去用专门的工具来跟用户实际互动,反倒把问题一股脑堆在一大段文字里。这根本就是误解了智能体工具的工作逻辑。 到了 slaykid, 看板任务表现甚至更差,光是第一阶段规划就耗时四十五秒。他问了四个澄清问题,并请求批准以继续下一步,然后我说,你就按你觉得合适的功能去实现吧。 结果 jiminy 干了什么?他又进了一轮规划,又花了四十六秒。还没写一行代码呢,光规划就耗了九十多秒。 而且第二份计划跟第一份基本一模一样,它纯粹是在自我重复。 terry 图像裁剪任务恐怕是最离谱的, 光规划就花了一百一十四秒,相当于光规划就耗了快两分钟。它甚至明确说了,我暂时不会写代码,也不会改文件。 哪怕用户都已经批准了计划,他还是会不停地追问细节,而不是直接开干。真的服了。不过有一说一,等他终于肯写代码了。质量其实还可以, 在 movie tracker 这个应用上它表现得还凑合,但这代码实在是太老旧了,换别的模型效果要好得多。至于 terry 应用,根本就跑不通,而且代码质量确实存在严重问题。 在做那个勾计算器任务时,他在一个文件里写了 update 方法,然后又建了个新文件,里面写了一模一样的 update 方法,结果编辑器直接报错,提示 model update 方法已声明。 这真是个低级错误。他甚至在代码里留下了 t o d o 注示,这说明代码根本没写完,这种代码根本没法交付。 在 spiltikit 任务里,他试图安装一个叫 dndaction 的 包,但这包压根不存在 made pm, 直接返回了四十四报错。正确的包名应该是 spilted action。 虽然他最终反应过来并修正了错误,但这浪费了时间和 token。 next 任务也是同样的情况,他想安装 play word, 而不是 play right, 就是一个简单的拼写错误。但这些拼写错误累积起来,毕竟你是按 token 付费的。最让我抓狂的是,如果跟 cloud 甚至 g l m 相比,人家直接就开干了。 samsung 四点六跑 kilo 扣时可不会干,坐着规划九十秒,它读取提示词,快速检查下环境,然后直接开始构建。这就是为什么它在我的智能题榜单上能拿八十七点九分。 它是真的,在正确使用工具,需要提问时,它也会调用正确的工具, 他的思维过程不会陷入无休止的死循环。作为参考, gemini 三点一 pro 配合 kilo c l i, 得分四十九点二,排名第十九。反倒是旧版的 gemini 三 pro preview 配合 kilo code, 得分更高,达到七十一点四,排名第七。 gemini 三 pro 配合 gemini c l, 得分六十一点七,排名第十三、 cursor 搭配 gemini 三 pro preview 得分四十五点六,排名第二十。 而 anti gravity 搭配 gemini 三 pro 仅排在第二十八位,得分只有三十二点九。 所以 gemini 不 仅表现持续低迷在各种智能体框架中,而且新模型甚至让表现不升反降,这我完全是在开倒车。接下来聊聊价格,因为这点很关键。 gemini 三点一 pro 每百万输入 token 收费二美元,每百万输出 token 收费十二美元,这跟 gemini 三 pro 完全一样,也就是说没涨价。这点还行,但问题来了,这钱花得值吗? 如果你正在付费使用 gemini a p i, 说实话,我真找不出什么理由非选 gemini 三点一 pro 而不选其他竞品。 糟豆腐四点六确实更贵,这点没错,但它在 kingbench 上拿了满分,而且在智能体精准测试中也是霸榜的存在。 sana 的 四点六价格更低,并且占据了我智能体排行榜的榜首。 g o m 几乎不要钱,单样本得分百分之七十九,智能体得分八十四点一, 就连 gpt 五点二在许多场景下的智能体表现都要比它强。我觉得 gemini 三点一 pro 唯一真正的用途就是去用它的免费额度。 gemini cl, 它提供了免费访问权限,而且 google antigravity 也有免费额度。 如果是这种情况,那当然没问题,它确实是个很棒的模型,毕竟你一分钱都不用花,免费总是好的。而在单样本任务上,达到百分之九十六的准确率且不花钱,这显然很棒。但一旦涉及到付费调用 api, 市面上显然有比它好得多的选择。 再来看看行业基准测试, google 公布的数据确实非常亮眼, s w e bench rate five 达到百分之八十点六。 terminal bench 二点零达到百分之六十八点五, apx agents 则是百分之三十三点五, 这些确实是相当不错的成绩,在 s w e bench 这类基准测试与实际使用完全是两码事, 这一点我早就强调过了,跑分成绩并不总能代表实际的编程水平。而在我用 kingbench 进行的真实场景实测中,该测试主要考察代码质量和通用智能。 gemini 三点一 pro 甚至不如它的上一代模型, 而一旦让它在智能体环境中处理真实的多部任务,问题就暴露无疑了。过度规划、工具调用不当、 浪费 token 的 勇于思考,甚至连包名都会拼错, 这些才是真正致命的问题,尤其是在进行实际开发时。所以我对 gemini 三点一 pro 的 结论是, 在几乎所有关键维度上,它都不如 gemini 三 pro。 在 单样本基本测试中,它从百分之一百倒退至百分之九十六,成本却翻了一倍。 而在智能体能力方面,得分从七十一点四跌到了四十九点二,足足暴跌了二十二分,排名从第七掉到了第十九。 而且在智能体环境中,它有个怪毛病,就是会一直卡在规划阶段,工具用不对、思考陷入死循环,代码里还尽犯些低级错误。 既然市面上已经有了 cloud open ai 甚至 g l m, 再花钱买这个模型就真没什么必要了。 如果你是在 gemini c l i 或 anti gravity 上用免费版,那就尽管用,毕竟白嫖还是很香的。但如果你考虑付费订阅,我建议还是先看看 synapse 四点六、 oppo 四点六甚至是 g l m 五八 那些模型在关键之处表现更佳,尤其是在智能体编程任务上,所以这真不值得花钱去买,这只是我的大实话。至于我,我会继续用 version 搭配 sunet 四点六来处理大部分工作, 应付日常编程任务。它好用太多了, synapse 四点六能在我榜单上排名第一,自然有它的道理。它速度快,工具调用准确, 而且能直接搞定工作,不用浪费两分钟在那儿空谈规划。至于那些更复杂的任务,也就是需要更强智能水平的时候,我会继续用 opus 四点六。有这俩搭配,我就能搞定一切了。 我看不到任何理由改用 gemini 三点一 pro 用于我目前的任何工作流,总的来说,体验还是很棒的。好了,欢迎在评论区分享你的看法,记得订阅频道,大家也可以通过超级感谢来支持我,或者加入频道会员解锁专属福利,我们下期视频见,拜拜!


谷歌深夜又放王炸啊! jemmy 三点一 pro 正式登场,他的整体智力得到了史诗级提升,专门为 伊布,不信来看看他和上一代模型的直接对比。同样是生成 s b g 史量动画,曾经的模型只能做简单的扁平移动,而 jemmy 三点一 pro 直接拉满细节,无论是质感拉满的液压开关,还是跟随使得转动眼睛的变色龙,甚至是骑自行车, 动态效果简直丝滑到离谱!除了写代码做动画,他还给电商人带来了一个超级黑科技后魅力 photo 书。只需要上传一张极其普通的商品白纸图, 选中你想要的场景模板,一键点击生成,几秒钟就能直接出炉。极其逼真的专业级摄影大片, 轻松提升你的营销质感,而且目前在部分地区已经免费开放, ai 的 进化速度真的太疯狂了!你觉得这个三点一 pro 的 表现能打几分?评论区告诉我,记得点赞关注!

有点夸张,家人们 gmail 三点一 pro, 它的各项 benchmark 都高得离谱,我们可以看到它和之前的对比,以及和其他各大模型的对比。我们先来看一下要如何找到它。第一个方法就是直接打开 gmail 的 官网,然后 fast 改成 pro 模式就可以使用。 那还有一个方式就是打开我们的酷狗 s 六六,在这个 setting 这里选择三点一 pro, 因为我也完全没有试过,所以我想要跟大家一起来做这个 case, 不知道这之后呢?我们选择 cameras, 哇哦, ok, 这就是我用一个简单的 pro 做出来一个东西,它这个数据会实时的更新,现在是白天, 然后中国这块是亮的三 d 空间,那我们再来试不同的几个 s v 君五湖,你看这个交互非常非常的好, 我们再来试一下最后一个 case, 希望它能够生成一只猫咪,然后它的眼睛能够随着我的鼠标转动,也没用多长时间它就是出来了,好期待呀。嗯哼, 看它在跟着我的鼠标进行转动,就是我所有做的事情,只是发一个这么简单的一句, prom, 那 这期视频就到这,我打算再探索一下好玩的功能,还不秀恩爱,猜不猜你?