最新的加美莱三点五发包,刚才用它生成的一个视频啊,我们来看一下,这是简单的提示词, 不知道大家觉得怎么样?如果大家也想使用的来写作画图、做数据分析、写代码等等,都可以点击我主页的置顶作品找到我。
粉丝1.3万获赞37.3万

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

今天让我们来对比一下 gemini 三点五和 cds 二点零的视频生成能力。今天 gemini 迎来了它的重磅升级,可直接通过对话框生成视频。现在我已经用相同的提示词在 gemini 和 cds 里面同时生成了视频,直接看结果, jimmy 的 这个视频只能生成十秒钟。好,下面再来看一下 c dance 二点零生成的,这是我在 c dance 二点零刚发布的时候测试的, 它整体的呈现效果 和 jammer 有 些类似,但这一版画风有些不同,有些偏二次元。如果单看这两个版本对比的话,我感觉 jammer 目前会更好一些。下面我就来评价一下 jammer 和 cds 二点零生成视频的区别。 我觉得 gemini 似乎在画风上会更稳定一些, cds 二点零有时候会变成二次元画风,有时候又是比较写实的画风。然后我认为它们整体在连贯性上是比较一致的,它们的分镜数量和整个场景感觉都是差不多的,只是画风上有一些区别。 如果说 gemini 三点五商用去做一些动画的话,我觉得能够达到非常高的效率和水平,特别是当你在用图声视频的时候, 它会有更高的精准度和连贯性。但目前唯一的遗憾就是,就算你是 pro 会员,它一天的使用次数也不是很多,大概就五次左右吧,不 像 cds 二点零这样可以充积分,可以无限用。总体上, jimmy 三点五升视频给我一种很稳定的感觉。据我所知,谷歌的深图模型 nano banana 也是一个最稳定的深图模型,它的可控性非常高,相信在视频中也会有类似的表现,但 但是我认为生视频以后只会是 ai 模型的一个最基本、最普通的能力。 ai 生视频真正的更深刻的价值是它可以模拟真实世界,增加 ai 对 现实世界的了解,增加它推理的可能性。 因为本来它只能通过文字分析,但是现在当你能够真实的去模拟这些画面的时候,它就有了空间,有了结构,真正的多模态,真正的更加接近于现实世界,通常这也被叫做世界模型。 我相信在不久后,世界模型的概念将会得到大力发展。 ai 的 推理能力会从文字向现实世界越近,从文字向空间越近, 随之伴随而来的可能会是提示词的细节程度会越来越不重要,而它的整个逻辑结构,整个因果关系,你的目标会变得越来越重要,你最原始的那个想象力会变得越来越重要。 今天我对谷歌 gemma 三点五的视频生成能力的测试和分析就到这里,我是笨杰米茶,持续分享我对科技和流氓文化的最新观察。 bye!

哈喽啊,小伙伴们,给你们展示一个瞬间移动的超能力。一眨眼的功夫,周围就变成了阳光、沙滩,海浪就在身后拍上来,风里都是海水的味道。这感觉也太真实了, 不是抠图,不是套滤镜,是这是谷歌最新视频模型 omni 生成的。我们熟悉的那些视频生成工具,基本上是文字转视频,你打一段描述,它生成一段画面,生成完了,如果要改,那对不起,得重新来。 omni 作为真正的多模态视频生成模型,能够把文字、 图片、音频、视频这些输入理解了之后,统一生成出来。谷歌 deepmind ceo 在 发布会上演示的时候,直接拿了一段真实录像,让 omni 修改环境风格、镜头角度,还可以把你画的草图、 其他场景的图片一起塞进去,让他参考。接下来我们看看这次的重头戏,全新模型 jimmy 三点五 flash 这次居民来网页端焕然一新,弥散风,极简留白, 整体都很干净。嗯,怎么说呢,有点 chat gpt 纳胃了。我们选择最新的 jmi 三点五 flash。 第一个测试,我让它做了一个打地鼠小游戏,游戏整体很流畅,游戏机制和逻辑也没问题,点击炸弹扣分,偶尔刷新黄金属,每次点击都有音效。 这个小细节是有的,就是有一个问题,这个老鼠长得不太像老鼠。最近 token 这个词很火,那么第二个测试,我用它做了一个关于 token 预测的科普页面,它生成了一个可以实时交互的网页,解释 ai 是 怎么一个词一个词往下猜的, 页面里的候选词、概率条、温度、滑杆都可以拖动,一步步生成自己的故事。以前要解释 token 概率、温度,大家可能听三秒就走了,现在做成直观可交互的网页,反而更容易让人懂。这次更新 jamie 还带来全新的思考,等级 有标准和扩展两档可选,我们选择 g m i 三点五 flash 扩展复刻了一个 android 时期最新系统,结果确实有点惊艳。它生成出来的界面不只是一个空壳,音乐可以调整进度条也能切割, 相机入口有了,但不能正常打开。信息功能倒是挺完整,能正常发送,甚至还能收到回复,等一下,难道真的能操控?哦哦,好吧,是我想多了。这个设置界面真的很细节, wifi 关闭开启状态栏也会同步显示,亮度调整也会实时控制屏幕明暗,整体来说完成度很高。如果你是做交互草图功能演示,这种能力已经很实用了。此次还更新了全新音频模型 live 三。 这个我一共生成了两段,第一段是八比特游戏 bgm, 我 给他的需求是三十秒,结果他给我生成了足足五十三秒。不过风格确实挺符合我的要求,街机感有,节奏也轻快,放在小游戏里不会抢戏。 第二首,我本来想生成一首 r b, 但听下来我觉得它更像偏华语流行的风格,歌词探讨了人工智能、 陪伴与自我寻找的主题。关键是 larry 三除了能生成音乐,还会同步生成歌名和封面,这个真的好评,他甚至还有和声处理,时间有限,我们快速听一下。让我没想到的是,结尾居然还有一句独白,一下子升华了。 最后快速过一下网页端的几个更新, jimmy 现在可以开记忆,从你过往的对话里慢慢了解你这个人,越聊越懂你。还可以关联你手机里装的应用, 让它在你的生活里更有存在感。这个功能我玩了一下,挺有意思的。复制这段提示词到其他 ai, 然后再把结果粘贴回来, gemine 就 能快速获取你的偏好和一些记忆。我把这段话拿去问 chat gpt, 结果太透彻了,给我分析的明明白白的,感兴趣的小伙伴也可以试试。 提示词我会放在评论区。 pro 版现在有每日用量和每周用量两个维度,重置时间显示的很清楚。看到这个界面,我第一反应是,嗯,这不就是向 cloudy 看齐吗?你可以设置让 jimmy 定期自动帮你做事。新闻摘要、新知探索、晚餐食谱、 晨间激励、内置模板都有,也可以自己建。这个功能我觉得很适合做信息收集整理。好,快速总结。 google 这次不是单独发了新模型,而是把 gemini、 omni、 linear 三拼成了一条完整的创作链。以前要开五六个工具,而现在谷歌是想让你在一个地方搞定。好啦,这期就到这里,具体详细对比实测,期待后续评测。

如果只看标题, gemini 三点五好像只是一次常规模型升级,但这场发布会真正想讲的,是 google 要把 ai 变成整个产品生态的操作层。先看 gemini 三点五 flash, 它不是只给聊天提速,而是在为智能体代码任务和长流程执行做准备。 官方反复强调三件事,速度、成本、还有行动能力,所以参考片里说的一年省十亿。重点不是噱头,当企业每天都在调用模型,模型便宜一点,速度快一点,最后都会变成真金白银。 第二个重点是 java spark, 你 可以把它理解成一个云端智能体入口,用户不用自己准备电脑环境,也不用手动拼工具,直接用对话安排持续性任务,比如整理信息、跟进流程、定期处理机械化工作,关掉电脑以后也能继续跑。 这个方向不新,但 google 的 优势很现实, chrome、 gmail、 地图、 youtube、 支付、搜索这些入口本来就在他手里,别的智能体需要到处接工具, google 更像是把自家的工具直接串起来。第三个重点是 gemini, 它的卖点不是只会生成视频, 而是让输入和输出都走向全模态,文本、图片、音频、视频都可以参与进来,生成结果也不止限于一种形式。官方演示里改视频、换风格、合成角色都可以放在同一个流程里做, 这意味着以后创作可能不用在八个 ai 工具之间来回切。再看开发者测 anti gravity, 二点零也被拉到台前演示,重点不是补一段代码,而是让多个智能体一起推进复杂项目,写代码、开浏览器、跑测试、修问题、再验证,开始变成一个壁画。 所以 google 这次真正发布的不是一个孤立模型,它是在给整个 google 宇宙做一次 ai 版本升级。 搜索、地图、邮箱、视频浏览器都会慢慢变成能对话、能记住上下文、能帮你完成动作的界面。 jamming i 三点五最值得关注的不是单向跑分,而是模型能力、工具入口、执行成本和生态数据被放到了一张桌子上。 如果 google 真能把这些东西打通, ai 就 不再只是网页里的聊天框,它会变成你打开浏览器、地图、邮箱和创作工具时默认就存在的操作层。这才是这场发布会真正值得盯住的地方。关注我继续用普通人听得懂的方式,拆解 ai 产品和开发效率的新变化。

哈喽,兄弟们,昨晚通宵看了谷歌 i o 大 会,现场演示是天花乱坠,从模型到 agent 再到硬件,全线 ai 产品轮番上阵,看得我那叫一个心潮澎湃。结果实测之后就一句话,大部分都挺拉垮的。 omni 是 这次发布会重磅首推的演示效果相当炸裂。官方定位很明确,万物皆可生成的第一步,代表着在世界理解多模态和编辑能力上的一次全面飞跃,人物细节、风格、 环境角度全都能随意切换。听上去视频模型的新标杆好像就这么立起来了。 其次是 jamming, 三点五, flash 主打一个快高效能打复杂任务,多模态也不在话下,而且官方特别强调他的 agent 能力,在个人 agent 助理和全新的 anti gravity 二点零中都主推三点五,要的就是性能和速度的那个平衡点,吹的都很猛,但到底行不行,还得上手册。 听发布会的同时,我第一时间打开了 gemini, omni 已经上线了,这个版本应该是 omni。 flash 拿前两周做的慢剧提示词测一下,他们家首尾帧要在提示词里写明给大家看一下,这是首帧,这是尾帧续章里祁昌云来凌虚城开奶茶铺的那一段, 等了差不多五分钟,速度还可以直接上,结果 那就开个奶茶铺,大翻车,场景一致性全崩,细节缩水,两档衣服跟原图差了十万八千里,运镜拉胯。最后的配音我差点笑没再放一遍。你们听 开个奶茶铺,对比一下我之前用 cds 做的视频提示词,一个字没改,一轮直出没抽卡, 那就开个奶茶铺, 这个差距就一目了然了吧,而且我用的是 c dance two fast, 再给他一次机会,换个正脸图,输入仍然跟 c dance two 完全一样,节省时间。直接看成片 回到其梦里,对比一下 c dance 的 出品, 首帧,双方表现都很好,中间部分 omni 未能理解提示词中的雷劫,而到了尾帧再次出现了场景偏移。详见屏幕。对比之下, c dance 准确遵循了首尾帧及提示词中的天雷滚滚。 本轮 omni 的 表现略有改善,但首尾帧一致性不足,实用价值有限。 中文视频我感觉奥尼是真不行,正准备测一下英文的时候,屏幕上直接提示额度不够了,大家看,我一个月二十美金买的 pro 订阅就跑了两视频,五小时的额度直接见底了。谷哥你这是搞啥呢?离了大谱了。 得了,就剩这点额度了,给大家测一下 flash 三点五吧。先确认一下,现在用的是新版的 flash 模型,没有问题。第一道题,咱们来测测新版 flash 的 中文,我让他用王家卫的风格写个黑咖啡文案,这个输出速度比 deepsea v 四 flash 慢多了。 我真的读了三遍,只能说太尴尬了啊。抄的几句不说了,我读下这句,零点零一公分,那是我们之间最近的距离。等等,你看看文理,我们是谁啊?这句话有点太不合适了吧, 谷歌这个蒸馏技术是不是把情商也给蒸发了?从二点五时代起, gemini pro 一 直负责我的创意写作,中文一直能打,可是最近这两代 flash 在 这道题上都翻车了, 大家对比一下,左边是三点一,老 flash 跑同一道题的输出,一上来就王家卫说特别僵硬,那最后一句更是让人读不懂他在说什么。然而今天右边的三点五 flash 又刷新了我的认知, 我就不信邪了,它到底强在哪?都说 svg 是 大模型视觉能力的一道坎,因为它逼着 ai 左手写代码,右手还得有审美。那就让三点五先出一个造型精致的 svg。 机器人是可以当吉祥物的那种,要求有点高,我们直接打开扩展思考模式, 提示词我打在屏幕上了,需要的可以截屏。扩展模式花了不少时间,我们直接快进,看结果效果还行,方方正正的。机器人要求的组建细节都到位了, 可惜金属质感和微妙的光晕没画出来,做吉祥物还是差了点意思。再看老版 flash 生成的整体感觉还是比新版弱一些,基本全是线条拼出来的。但话说回来,新版三倍的价格有点不值, pro 就 不用比了,虽然做不到惊艳,但光泽感强太多。 最后用真实世界的复杂任务测一下 flash。 三点五,谷歌这次重磅发了 antigravity, 二点零,我升级好,打开那一刻真的蒙了。看屏幕,他说升级后就剩 agent 的 工作台了, ide 得单独下个 app, 我 当时火就上来了,虽然 agent 和 ide 我 都用,但你不声不响搞成两个也太莫名其妙了吧。 只能收拾一下心情,打开一个一直想重构的工程。上周用老版本 jimmy flash 写的这个项目我不怎么满意,今天刚好让升级版出马,修一修自己之前挖的坑。 这个页面并不简单, remotion 和 three js 做的三 d 短视频编辑器配了十套模板,但模板实现的很套路,随便看两个,第一个三 d 效果平庸,文字对比度不足。 第二个质量还行,就是风格不够。赛博交互逻辑也有不少坑。滚个模板列表全页跟着动,还加了一堆没有实际意义的元素。 打开升级后的反重力,选择新版 flash 模型,思考强度选 high, 在 升级后仅剩的输入框窗口里,让它全面重构刚才这个页面以及所有相关代码。我的要求是更新 u i u x, 优化已有的视频模板,并新增十个不同的模板, 每个视频效果都要做到最佳。目测这个重构速度比老版本的 flash 快 了一到两倍,但是达不到官方宣传的十二倍提速。 三分钟后,重构结束,来打开验一下这个重构后的版本,把排版整个重写了一遍,模板加到了二十个标题,文字全都调过,还新增了模板搜索栏,左侧列表滚动终于独立了。 打开第一个模板,看看配色,这次合理多了,光效也能看清楚,动效马马虎虎吧。再看第二个框线,换成了绿色,但好像就没做更多优化了。下面看新加的模板, 选这个运动实时遥测做的挺好,足球场上有球员轨迹,中央的圆圈有点抢戏,运动方向需要调一下。 最后看个分子料理装盘,配色很赞,中央旋转的菜品标签让人眼前一亮,那些大波纹似乎想表达味道,有点用力过猛。改下标题看看, 没问题,功能正常,小节一下,新版 flash 三点五在反重力加持下提速很明显,能力也增强了,但代价呢?额度消耗是之前的三倍多,刚才这个重构五小时额度的四分之一没了,你算算五小时满打满算只能干十二分钟。 对比升级前老板 flash 几乎无限的额度,大伙啥感受?评论区说说看。 i o 大 会我每年都看,二点五发布后 jammin 就 成为我的主力模型之一, 但这次的翻车程度恐怕仅次于一点零发布的灾难现场。你们可能会在其他地方看到清一色的异美之词,我敢说没实际跑过的探击生物退役指南,喜欢就点个关注,下期见。

距离 google i o 只剩四天, google 这边却先泄了两条大消息,一个是 gemini 三点五 flash checkpoint 已经上了 arena, 另一个是新 agent 功能 gemini spark 也开始流出。更反常的是,这个 flash 的 输出完全不像大家印象里的 flash, 它被挂在 gemini 三 flash 的 名字下面,但表现却像在隐身状态里偷偷升级过。外界测试里,它的结果甚至传出压过 gemini 三点一, pro 还领先 cloud 四点七 opus。 也就是说,一个名义上走速度路线的模型,居然在质量上正面顶住了高端推理模型,这就很不寻常了。 更有意思的是,对比前几天那批 jimi、 nike 三点二 plus 和 pro 的 泄露,官感完全不是一个级别。前一轮还偏平庸,这一轮已经明显更干净更完整,单轮外部应用生成也更顺,速度还保留着 plus 应有的快乐。 只是要提醒一点, arina 只是偏好型,精准赢了不等于真实能力就一定碾压,真正要看的是推理评测和复杂任务完成度。但这次最能说明问题的不是排名,而是时机。 damon 有 人直接拿这个新 checkpoint 做了一个 minecraft 克隆,而且完成度被认为是同类里最好的之一。 他不只是能生成页面,还能把主菜单、世界、创建难度选择这些交互跑通,甚至还带多人功能的尝试。这里释放的信号很清楚, google 可能真的开始把更强的东西拿出来了。这 这类模型竞争,最后拼的不是谁的名字更响,而是谁能把快、稳、能、干活同时做到位。 flash 如果真能做到接近高端模型的质量,又保留低延迟和高效率,那它就不只是一个便宜版本,而是会重新改写大家对模型分层的理解。关注全球 ai 速递,获取更多 ai 前沿资讯!

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

谷歌 i o 只剩几天, jimmy 奶这一轮更新也开始进入密集测试期。可以看到,这次不是单点试验,而是 flash pro 多个 check point 同步推进,节奏非常紧。 先别急着看版本号,真正值得关注的是,它们在轻量和高配两条线上,已经同时把门槛往上抬了一截。 先看 jimmy nike 三点二 pro 整体不差,但问题也很明显提升,没有形成那种一眼能感受到的跃迁,尤其是前端输出,老是反复冒出相似的 pino 风格,审美很快就会疲劳。可命名一改,局面就变了, jimmy nike 三点二直接切到 jimmy nike 三点五。而且 flash 和 pro 会一起在 i o 上亮相,这说明这次不是小修小补, 而是一次正式升级。真正把气氛拉满的是 gemini 三点五 flash, 它最夸张的地方不是能生成,而是能生成一个完整的 minecraft clone, 有 背景音乐,有组建,有健康条,甚至还能连服务器移动切换 creative mode。 更关键的是,整体完成度已经接近可交互。前端不只是象,而是真的把玩法骨架搭出来了。更有意思的是,名义上它还是 flash t, 但实际表现已经能和更高端的模型掰手腕,甚至在多次前端生成里压过一些老牌强项。它的变化还不只是更强,而是更会做布局更干净,层级更清楚,重复 pawn 明显少了,空间一致性也稳了很多。 最能说明问题的是那只鹦鹉骑自行车的阿斯基二。这种任务最考验长城结构控制,很多模型会中途散掉,但给 mini 三点五 flash 把字幅画完整撑住了,还能调背景色,调字幅大小和扫描线, 也就是说,它不只是快,而是开始同时兼顾速度、推理和审美。所以这次最值得记住的不是某一个炫技案例,而是 flash 线的定位变了,它不再只是便宜、响应快的备选项,而是开始往又快又聪明靠近。 ai 竞争真正拉开的往往不是单次经验,而是谁能把高质量输出稳定地做成日常能力。关注全球 ai 速递,获取更多 ai 前沿资讯!

瑞平内外 ai 大 模型从夯到拉,首先是开山鼻祖 chat gpt 五点五推出之后可以说是全面到离谱,不仅可以自己规划任务,还能自己调工具改代码,虽然价格比五点四贵了一倍,但它完全值得,综合能力稳坐目前第一梯队,给到夯爆了。 接下来是 gemini, 五月二十号凌晨,谷歌发布了 gemini 三点五 flex, 命名直接从三点一跳到了三点五,不难看出谷歌对这次更新的信心。实测下来,三点五 flex 在 编码测试和 a 帧的能力上都有不小的提升,输出速度更是比其他前沿模型快了四倍。而更强的三点五 pro 也确定在六月发布, 据爆料, gemini 三点五 pro 的 性能直逼 gpt 五点五,有望撼动王座,但三点五 flex 的 话目前只能给到顶级。 接下来是 deep c 可 v 四,优点非常明显,一照上下文混合推理,代码牌全球第三,价格便宜,量大管饱,但硬伤也很明显,没有多么太,还是纯文本, 在神仙打架的今天,普通用户够用,但专业用户用起来还是差点,感觉可以给到人上人。接下来是 grok 四点三,从某些你懂的方面来说,它称得上是憨爆了,但专业任务处理上稳定性不强,事实准确性在主流旗舰里垫底,还是偏向 ai 玩具,不适合拿来做生产任务。等级给到拉完了, 接下来是 cloud ops 四点七,写代码这块它还是当之无愧的王者,综合 agent 能力也是第一梯队,而且幻觉很低,逻辑严谨,写出来的东西不用反复改,给人的感觉也是最没有 ai 位的,等级给到憨爆了。 接下来是豆包 c 的 二点零 pro, 豆包很多指标其实不算差,而且功能丰富,门槛极低,并不是不能打。它最大的问题是不够稳定,复杂任务容易给出看起来不错,但经不起推敲的答案。 它是国产 ai 里最好的普及选手,但不是最强的专业选手,所以综合下来只能给到 npc。 接下来是千问三点六。阿里这次更新确实有不少亮点, agent 编程能力全面突破,复杂代码仓库级问题,前端开发、长城规划全面领先,而且加量不加价,但它的升量更多是在 b 端, 普通人对他的认知大多还停留在薅奶茶的阶段,勉强给到人上人。接下来是混元,腾讯从 openai 挖人重建了团队推出的混元三,上线两周掉用量就翻了十倍,整体势头是往上走的。但说实话,这波更多是开发者尝鲜带来的数据,脱离了腾讯生态之后,他的存在感依然有限,能力到位了,但记忆点还不够,只能给到 npc。 接下来是智普 g l m 五点一,编程 agent 能力开源第一 s w e bench pro 刷新国产记录,很多海外用户为了买上便宜的国内套餐,已经开始研究怎么注册支付宝。 这波热度是真实的市场验证,它不是那种大众热搜型模型,但是真到干活的时候,表现还是很能打的,可以给到人上人。接下来是 minimax m 二点七,它在开发圈子里口碑不错,速度快,价格便宜,工具调用稳定。今年一季度 openmarter 周掉用量更是拿下全球第一。不得不说它是一个好用选手,但还不是那种能改变格局的选手,目前只能给到 npc。 接下来是 kimi k 二点六,一个被很多人低估的选手,很多人对他的印象还停留在长文本阶段,但这次升级,他的代码能力提升了百分之二十,任务能力和 ab 的 能力都有大幅提升,已经可以给到人上人。最 后是文星五点一,号称 ab 的 能力超越了 deepsea 威斯 pro, 但本质只是对五点零做了压缩蒸流,说到底只是效率的提升,并不是能力的突破。这家总是起个大早赶个晚集,直到今天除了搜索能力还是没有什么记忆点,直接给到拉完了。最后声明,本期排名纯属个人观点,没有任何利益,相关方有不同意见,欢迎评论区讨论。

前几天 google 开发者大会发布了专门的三点五 flash, 那 么我也是第一时间用我的 google ultra 的 账号来试试。先说 google 这次产品做的真是一坨屎,很多朋友也看到两个客户端有点懵逼, anti gravity, 我 先简称它为反重力,是 google 编码的客户端,但是是有两个客户端的,分别是反重力二点零和反重力 ide, 那 么一个更像是 vs code 的 串口,一个更简洁。 google 真的 有时候不太注意用户的体验,也没有很好的告诉消费者两个的端口的区别,有些朋友可能找不到这个端口,反正先不管怎么样,先试试 jammer 三点五 flash 的 能力。老规矩,让他帮我们先做一张天气卡,我们来看看到底效果如何。 那么整体效果还是不错,我认为整体的前段能力还是很强的,天气卡的能力比 deepsea v 四要强上一点,感觉差不多能比肩质朴五点一。但是后端很多朋友反映 jamming 的 能力依旧是有问题,而且有嘴硬,幻觉率非常非常高, 那么并不作为大家的优先使用模型。我个人感觉的话, jamming 三点五 flash 也是闹麻了对吧?更像美国豆包。 好来看 api 的 价格,虽然 java 三点五 flash 没有开源,但是可以根据 tpu 的 显存待宽,推理速度可以反推,估计也就是二百五到四百币的 me 或者 flash 模型,但是这个价格太离谱了。 为什么说离谱呢?因为你看 api 的 价格,输入比 vs flash 贵十倍,输出比 vs flash 贵三十倍,那么按照 tpu 反推的话, java 的 利率在百分之九十以上, 那我相信这个价格大家肯定会选择 tpc, 也有朋友说 google 内部有很大的问题,比如说 google cloud 肯定是觉得 tpu 资源卖给竞争对手是非常赚钱的生意,而 jammer 肯定是倾向于把这个 tpu 资源给客户,以确保这个 jammerc 端用户的粘性,所以这种情况是既要又要。我感觉导致 jammerc 三点五 plus 拉完了。感觉这次 jammerc 三点五 plus 就是 感觉它们内部步调不一样,做的也是前后不一致。 这次发布的欧曼奈视频模型如何?我们一起来测试一下能不能和 cds 二点零持平了。不过这次发布的欧曼奈的视频模型跟 cds 二点零完全没办法比,不管是可操作性还是整体镜头的一致性,还是各方面。当然它价格很便宜,可能价格不如这个 cds 的 十分之一,但是做的确实也很拉。 我不知道有后期他会不会去优化这个模型,让这个有更多可编辑的选项,比如声音,包括视频的流畅度有一个更好的提升。 我个人感觉欧慕莱视频模型仿佛面向的不像是这种 c 端客户,不像是这种用户消费者的这种体验的感觉,它更像是面向一个 b 端用户的 样板,他做的不完善,可能后续如果面向 c 端客户把 omnit 视频模型整合进去,我觉得可能会体验感会更强一点,包括 jimmy 三点五 flash, 可能他去把这个产品优化一些,我觉得可能对 c 端的用户会更好一点,包括他自家的编码的客户端都有两个,自己也搞不清楚。 那希望六月份的 gemini 三点五 pro 能带给我们不一样的惊喜,这次 gemini 三点五 flash 确实拉了个大呢,不知道下次 gemini 三点五 pro 能不能重现 gemini 二点五发布时候的那种惊艳感觉呢? ok, 我 们下期再见。

大家知道啊,我一般不轻易说离谱这种词,但就在刚刚,我把谷歌二零二六 i o 大 会上最新发布的 gemini 三点五 flash 接入微信的时候,真的忍不住说了句,这也太离谱了。为什么呢?因为 gemini 三点五 flash 让微信活了过来,我甚至觉得它已经突破了土林测试, 不仅非常认真,非常自然地回复了用户,甚至做到了用户根本不知道他就是在跟 ai 聊天。比如,当用户说话说到一半的时候,他能够带着情绪去回复用户说,哎,你说话只说了一半吧,急死我了,这哪里是 ai, 这是真人吧! 更夸张的是,但 jimmy 三点五 flash 结合十六 ai 桌面智能体,它更是具备了操作电脑的能力,能像真人一样的自己去识别聊天窗口, 点开新的对话,新的私信、新的群,跑过去回复用户。我们的一些用户真的已经开始玩土林测试了,看看到底谁能分清楚这是 ai 还是真人。如果你也想体验这款 jimmy 三点五 flash 加微信智能体,让你的微信自己会看、会想、会说,就在评论区打 ai。

ai 圈又卷出新高度了!谷歌刚刚在 i o 二零二六开发者大会上丢了个王炸,全新 gemini 三点五家族正式亮相!这次首发的有 gemini 三点五 flash 和 pro 两个版本。如果说以前的大模型是在跑马拉松,那这次的 gemini 三点五 flash 简直就是坐上了火箭,官方数据直接明牌,它的输出速度也 就是 t p s, 是 目前其他前沿模型的整整四倍!四倍是什么概念?以前你问 ai 一个复杂问题,还得看着它像挤牙膏一样慢慢打字,现在回车键刚敲完,长篇大论瞬间就砸在你脸上。天下武功,唯快不 破。而且谷歌这次非常良心,不搞期货 jammie 三点五 fly 现在已经直接变成了 gemini app 和谷歌搜索 ai 模式的默认驱动模型。也就是说,你现在去用谷歌,背后已经是这个速度狂飙的新一代 ai 在 为你服务了。

谷歌刚刚发布 jamming 三点五的时候,很多人都在惊叹它有多强,但我真正害怕的不是它变强, 而是人类开始变得像多余的了。以前互联网最喜欢的词叫效率,现在 ai 最擅长的事也是效率。写方案,剪视频、做表格,整理会议记录。以前一个团队干的活,现在一个 ai 标签页就开始包圆了。 最有意思的是,人类努力了几十年,终于把自己优化成了 ai 最容易替代的样子。标准化、流程化、高效率,这些以前是公司最喜欢的词,现在 ai 听了都想投简历。以前我们以为 ai 只是聊天工具, 现在他已经开始向员工了,而且还是那种不用午休,不会摸鱼,甚至不会在厕所偷偷刷短视频的员工 资本。第一次发现,原来真正完美的打工人真的不需要是人。 gm 三点五真正可怕的地方可能不是他能做什么,而是他让越来越多人开始怀疑自己还能做什么。 ai 时代真正的竞争可能已经不是人和人之间了,如果 ai 越来越像人,人类该靠什么留下来? kane, skade, whoa la panda, hahaha! yeah!