哥发布了一个新模型,感性叫 jamie omni, 这颜值视频版香蕉来,先看官方演示。这是 omni 生成的一段视频,教授在黑板前写数学公式,人物公式,光线都很真实。你注意看粉笔灰,它是真的会往下掉的, 有重力有惯性,不会随机飘,既没有手部变形,也不会画面闪烁,画面连贯,特别的稳定。然后是第二个小球跟随轨道往下滑落。这个视频真的能感受到是重力在作用,不像其他视频模型就有种说不上来的奇怪。现在市面上那些 ai 视频工具, space dance, 阿克林他们做的视频是深沉的,你给提示词,他出视频 出来不满意我们去抽卡 jimmy 米不一样,他就可以边生成边编辑的上传一段已有的视频,直接跟他说需求可以摆很多轮。这个逻辑跟其他工具是不是你可以对话了?一个剪辑老师,他能做到这样的事情,是因为他真的懂这个世界, 懂重力,懂历史,所以粉底会掉渣,小头滑落才这么形象。真实的视频更真实。现在 gemini omni flash 已经上线了,订阅了 pro 的 用户可以直接去 gemini 里面使用。
粉丝615获赞1.4万

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

哈喽,早上好,现在是早上的七点,其实我五点钟就起来了,因为今天欧迷你上线,我就想看一下我的账号能不能有幸的去使用上它。在拍这个视频之前我已经嗯简单的探索了一下了, 所以现在的话呢,可以给大家拍一个视频。首先我准备了一段大概十五秒的一个脚本,脚本里面是包含了创意,然后就设计元素,因为早上试的时候呢啊,放了一个真人参考图上去是不过审的,那么我就把这个形象人物形象的 这些描啊特征我都用文字去让 ai 给我描述出来了。我试过有大概两个渠道是可以用上欧迷你的,详细的话我就视频里面不能讲了,你们自己看就好了。然后,呃,然后的话选择十秒,竖屏参数都是一样,然后把这个内容放上去,我们点开始 一次就呃生成两个哈,这一边是 c 档是二点零的,同样的 c 档是二点零,我们选十五秒,这边可以选十五秒哈,哦, ok, 呃,然后欧米尼这边的效果已经出来了,我们看一下哈,唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的种熟时区 deep moment 咖啡。 然后这一次,呃,点进去之后呢,是要有一个像进度条的一样的东西,就是我可以随意拖动,随意拖动到每一帧的一个地方,然后刚刚我尝试一下这个,这个挺有趣的,就是我拖动到男主角的这个地方,然后跟他说把男主角的衣服改成黄色,其他 五遍,然后直接发送给他。这个就有点像我们在啊制作制图的时候啊,对话框的一个形式,告诉他我在哪里修改修改什么地方,然后就跟我昨天发的一个前三是很相似的,哎,你看他就把这个男主角的衣服改成黄色了。这时候我们回去看一看, c 档是二点零的,还在排队。好,现在 c 档是二点零的效果也出来了,我们看一下哈。 唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的专属时区, deep moment 咖啡, 专注每一滴。然后两个模型对比下来的话, c 档子二点零的运镜还是比较优秀的。然后欧米尼的话呢,它就是中规中矩的一个感觉,在实际应用上面的话呢,它的效果也已经不错了。 呃,今天演示的这个还相对比较简单的,动作幅度小,场景简单。呃,那么在后面的话,还会在实际应用上面去看一下动作幅度大,场景切换的比较丰富的情况下,它的一个表现是怎么样。 讲的再好,实际应用上面的体验感是非常重要的。那么在后面的一个广告片的时候,我也会融入到,如果使用 omini 的 话,它的效果会是怎么样?那么我们下期见啦,拜拜。

今天凌晨一点, jammy 迎来更新,主播也是熬夜蹲着直播,看看官方这次有哪些重大更新。 jammy 这次发布了三点五 flash, 同时发布了一个新的视频模型 omni, 那 么主播也是在更新的第一时间进行了使用,可以看到在福楼页面中增加了 omni 的 模型,同时推出了 flow agent, 能够围绕我们输入的初步想法,自主拆解并规划复杂的创作工作流。 那么主播接下来进行初步的演示效果,进入页面输入我们的指令,同时上传所需的图片,选择我们的奥秘。接下来效果展示。 对于 flow 中的更新还有很多,比如人物角色的替换,人物一致性、动作流畅度等等,那么后续主播会对 flow 的 更新进行一一的讲解,帮助大家更好地应用到跨境电商视频制作当中。关注加收藏,获得最新消息!

大家五二零快乐哎,就在今天凌晨呢, google 的 二零二六年年度开发者大会如期而至,这次的发布会呢,包含了很多的产品,那其中呢,在视频的生成领域也是大家比较期待的, gemini 也是正式上线了, 那这期视频呢,来带大家客观的感受一下这个视频模型的特点,以及他未来的潜力如何。 ok, 那 我们先上官方的样片, 那我们继续来看啊,官网对于这个模型的一些介绍,它是一款能够根据任何输入 啊创建任何内容的一个全新意义上的多肽模型。那这个特殊的点在哪里呢?因为去年纳诺布达纳它是属于将这未来的智能技术去应用到图像生成和图像编辑领域了。 那 google 一 开始呢,其实他们就将这未来作为构建原生多肽的这个底层的架构,所以今天推出的这未来的推理能力和创造能力应用在了全领域上, 我们可以将图像、音频、视频组合作为输入来生成基于这未来真实世界知识的高质量视频。 那目前呢,推出的首款产品是这未来 omni flash, 在 未来的话,他们也将支持图像和音频等格式的输出。所以在开这个发布会之前,很多人猜测 呃他会发布的是 v e o 的 新版本。那这次的 omega 模型呢?它并不是呃 v e o 模型简单的换壳,而是底层的架构都已经完全更新掉了,我们可以理解为 v e o, 它本质上就是一个呃视频的生成模型。 但是 omni 呢?呃这个单词在拉丁语的意思是全部的意思,也被 google 定义为世界模型,这个模型它直接生长在这面代的主架构上,所以它继承了这面代这种极强的逻辑推理能力和现实的常识。那甚至我们可以更大胆的去 理解,去想象一下, omni 呢,是一个全模态的这样一个模型,那刚刚也提到了它未来也会支持图像的输出,那它跟 banana 之间的差别又在哪里呢?那其实可以理解为 banana 是 单纯的图像模型, v o 是 单纯的视频模型, 但 omni 它可以基于任何模态的输入,做到任何模态的输出。虽然我们当前接触到的这是第一个版本,观感上给人的感觉并没有那么惊艳,但是在目前这个架构继续生长的话, 那未来它将跟 banana 和 vivo 完全都不是在同一个维度上的东西,所以这个是我从这次发布会里面理解到的。呃,我觉得一个它比较值得期待的点。 ok, 那 接下来我们就来看一下啊官网上对于这个模型的一些能力的介绍。那首先呢,就是可以通过对话来编辑我们的视频,通过我们的自然语言就可以完成我们对视频的编辑,改变视频里面发生的事情,包括编辑动作,添加角色或者物体,这都是可以做到的。 类似像这种,一个人在拉小提琴,然后通过我们的自然语言去可以把它的背景更换掉,然后可以把它的小提琴消失掉, 当然也可以改变它的角度。那视频的编辑这件事情上,呃,我们之前出现过的其他模型也都是可以做到的,并没有让人觉得很惊艳,那这位呢? omni 呢?在现实世界的逼真场景的构建上做的还是不错的,比如说这个视频 一颗弹珠在连锁的这种反应式轨道上滚动,对吧?包括这个玻璃球跟其他各种东西触碰时的这一些物理的反应,给人的感觉还是非常真实的, 它能创造出来比较精准的这种物理的引擎的视觉效果。那同时它也可以将这面的知识,包括语言、图像 和一些你文字里面没有提到的东西,他会进行思考,然后生成在视频里面。比如说就像这个桌面上会有二十六个字母的物品,他只给了这三个,其他的都是他基于这杯奶能查找到的知识去自己生成的。 同时他也可以呃,基于一个比较简单的这种解释词,去生成一个能够分解复杂概念的这样的一个视觉图像。那比如说是用黏土动画去解释蛋白质的折叠过程。 在后面呢,是一些啊,类似于我们之前 cds 二点零里面 可以利用多模态的一个输入,比如说这个它是基于这张图一去做啊,动态科幻电影风格的视频。视频的元素呢,会像第二个视频一样,这个灯光去亮起,然后再跟第三个音频当中的这种音乐节拍去同步,包括这个也是。 那这个视频呢,是将图一变成图二的风格,然后应用第三个音乐作为背景音乐来生成视频, 当然也可以做这种呃角色的替换。 这个应用呢,是让图一的这个画面里面的主体不变,但是把图二的这种特效加到图一的视频里面, 也可以把一个视频里面的主体去更换他的材质,更换他的背景,同时去操作。 那我这边呢也测试了几个案例,我给大家放一下。那首先第一个是我让他基于这个分镜去跑了一个建筑的漫游动画, 他目前生成视频的时长只能是十秒钟,然后有横竖两个比例,九比十六的和六比十九的,然后分辨率是七二零 p 的, 目前没有其他的规格可以选择。那这个呢,是我让他用黏土动画去解释现代建筑的建造过程, 首先用黏土挖出深坑,接着我们要绑扎钢筋并浇注混凝土,随后柱子和楼板会筑成搭接起来,最后安上好墙体和玻璃。 那也可能是因为十秒钟的时间太短了,他并不能把这件事情说的很清楚,但整个画面的感觉是没有什么问题的。然后还有一个,这个生成了一个美漫, 这个是我没给他任何提示词的,这个是他官方模板,他就自动给我做了一个这个东西。那这个呢?是我基于官网那个案例,就是他不是有二十六个字母生成二十六个物品吗?我 让它是用十二个星座,然后对应十二个不同的这个狗狗的品种,然后去做了这样一个实验,我觉得这个效果还可以, 那目前总的来看呢?呃,效果确实没有让人很惊艳,大家可能对于它的期望值太高了,大家都在希望它呢可以给 c 弹三点零制造一些压力。 那我倒是觉得呢,我们可以从其他的视角呃来客观的看一下这件事,从他的多模态的输入到输出, 或者说基于这面代的这个架构呢?他未来的一个发展还是很有前景的。那正如谷歌他们自己也意识到这件事情,呃,这条路其实是比较艰难的,但是他们也正在目前的这个架构上 啊,去获得了一些回报了啊。那目前大家可以去这边的网页端啊,包括桌面的应用去体验一下这个模型, 后续的话他也会开放 pro 的 版本,这个我们可以一起来期待一下未来的一个版本吧。 ok, 那 今天的视频就跟大家分享这些内容,记得给我点赞,我们下次再见,拜拜。

家人们,谷歌最近更新了新的视频模型 gemini omni 已经上线,今天给大家介绍下更新的新功能。第一个可以创建角色附用,也就是我们所说的角色库, 方便拿来做长视频和保持人物一致。新增了 flow 内置的智能体,可以直接完成脚本和分镜图的生成。我随便测试了一个香水的带货视频,生成出来的效果也是不错,最新的 omni 模型也是可以做出这种分镜效果了。 可以预见后面 tk 的 视频类型会变得越来越多,后续也会给大家持续分享不同的玩法。第三个,你可以直接在 flow 打造属于你自己的工具,包括调整图片角度、图片编辑等等, 利好大家创作。第四个可以上传你自己本人的照片和声音,生成你自己的 ai 视频。第五个呢,就是 flow app 在 android 的 移动端推出,可以在手机上创作视频了,大家赶快都去试起来吧!

cunes 二点零终于迎来真正的对手了!就在今天凌晨 google i o 大 会上, google 直接摔出了王炸全新的 jimmy 欧米妮视频模型,号称能从任何输入生成任何输出。我第一时间冲进去实测了,给大家来说点最干的。首先是欧米妮最牛的地方,对话式视频编辑 可以一句话改变视频里的任何东西,而且全程保持角色和场景的一致性。比如把现实中的雕塑变成泡泡,一触就破。把自拍里的镜人变成液态人,一碰就变成了终结者。甚至能把小提琴手从音乐厅直接挪到草地上,再换个拍摄角度。唯一的小 bug 就是 他好像忘了把小提琴一起带过去。 其次是物理引擎真的封神了,重力、速度、碰撞这些效果比现在所有的 ai 视频模型都要真实。而且它还支持全能参考,除了文字、图片、视频、音频,还能直接给视频加指定的特效包装。真为我的动校同事捏了一把汗,那和 cds 二点零比,到底谁更强?实测下来,欧米的物理效果确实更优秀, 画面风格也更多变,但中文能力就被国产模型 cds 吊打了。而且 cds 的 人物位置更稳定,画面也更有电影感。目前 gemini omni flash 已经正式上线,不够 google ai pro 的 用户每天只能生成三条视频。你觉得 google 这一波能打败字节吗?来评论区来聊聊你的看法。

就在刚刚,谷歌 i o 二零二六大会火爆开幕,正式发布了真正的全能模型 gemini omni。 它最核心的突破在于不仅能听懂看懂你的任何指令,还首发支持了视频输出功能。它不再是简单的素材拼贴,而是真正理解了重力和动能等物理规律。比如你让他画一段蛋白质折叠的动画,每一步都科学准确。 甚至你只需要在视频里随手画个圈,他就能实时把它模改成一个黑洞。这种一句话改变世界的体验已经正式上线了。

二零二六谷歌 i o 开发者大会重磅落幕,全场聚焦 ai 生态全面革新。目前 gemini 应用月活已突破九亿,此次大会正式推出 gemini 三点五 flash 与 gemini onni 两大全新模型,兼顾极速响应与高品质视频生成能力,重磅上线全天后 ai 智能体 gemini spark 可自主完成各类日常事务,还将逐步登陆浏览器端。同时,谷歌全面升级智能搜索办公套件与影音生态,新增通用购物车,实现跨平台便结构物,搭配安卓 x r 智能眼镜,拓展实景交互体验。 在安全层面,依靠专属水印与溯源技术筑牢内容防线。辅以全新升级的硬件算力,谷歌正全速推动 ai 从智能对话迈向自主执行新时代。

重磅消息,刚结束的二零二六谷歌后开发者大会, ai 圈迎来大洗牌,全是实打实的硬核黑科技。 首先,全新上线三大 gemini 重磅模型,第一个 gemini omni 真正做到全模态全能世界模型, 图文音视频全能打通,还能生成自带重力动能物理效果的实景视频,随意修改编辑,日常各大谷歌生态软件全都直接接入。其次, gemini 三点五 flash 正式就位,速度直接拉满,输出效率是同类模型四倍,专属环境下更是达到十二倍 成本,还直接砍掉大半,性价比拉满。现在已经成为谷歌搜索和 ai 软件默认主力模型,更强的三点五 pro 下月也即将登场。还有全天候云端 ai 代理 geminis park, 不 用开机也能后台自动干活, 整理邮件、规划行程、处理办公文档一键搞定,很快就会开启公测上线。开发端更是迎来大升级, anti gravity 二点零全面革新,支持多智能体协调作业,现场实测,九十三个 ai 智能体联手,仅用十二小时低成本从零搭建出完整操作系统,内核实力肉眼可见。 最后说句实在的,没有网传夸张碾压别家模型的说法,官方明确表态,多项核心数据超越前代模型,整体实力对标行业顶尖水准,接下来 ai 行业竞争只会越来越激烈,这波谷歌全新 ai 布局, 你觉得能不能领跑接下来的人工智能时代?评论区,聊聊您的看法,谢谢收看,我是探秘哥,下期见!

先看效果, 你看到的这个就是我新打磨的测试机,注意这个演示使用了 g b g p u 渲染了超过一万个粒子,做出来这个火山喷发的效果。这次呢,这面那三点五 flash 能看出来演示效果已经相当接近三点一 pro, 当然呢,它的价格也是非常接近三点一 pro 了,直接比之前 flash 发了三倍。不过需要注意的是,这个测试呢, 在三点五 flash 并不能一次性写,对,它写的 shader 是 有 bug 的, 我修了一次它才能显示。所以目前来看, flash light 会逐渐取代之前 flash 的 位置,而 flash 更有可能是主打一百万上下文以内,不去设置阶梯定价,承接 pro 这部分溢出的用户评测,稍后我会放出。

最新炸裂,谷歌 gemini 三点五发布十一月活泼记录刚刚二零二六年谷歌 i o 开发者大会拉开帷幕, ceo 桑达尔皮查伊宣布推出 gemini 三点五系列模型以及全新站。 这是谷歌在 ai 竞赛中一次重磅出击,直接对标 open ai 和 andropit。 以上就是今天的早上 ai 头条,关注小文,每天早上七点, ai 热点第一时间送达!

谷歌的界面的三点五正式上线了,整体的实力大幅提升,在多模态识别代码的边写以及智能交互体验都相当的不错,运行也很丝滑流畅,还支持大容量的上下文创作和办公,都很适配, 新手也能轻松的上手使用。大家好,我是温谷,我相信有很多小伙伴们已经在界面的官网中已经使用了三点五这样一个模型,我教大家三个使用方法,适合自建工作流, ai 的 写作、文案生成、图片、海报和抖音运营的同学。 第一,课请求调用,适合在工作中前开始调试。第二,通过 python 代码的 sdk 的 调用,适合自建 skills, 最后给 open claw 和 hammer agent 使用。第三, n 八 n 工作流使用,适合打造自己的数字能演示。一,我们用这个课请求来试一试, 好吧,然后课请求就是 c u r o, 这个大家可以往上搜一下,大家可以看一下,就是我这里 api 的 端点,就是 generate language, 谷歌点 api 点 com, 请大家注意一下这个,它不是一个呃, open ai 的 标准的一个模式,就是 如果你是那个 open ai 的 一个标准的模式,它应该是左斜杠杠归,然后再左斜杠 chat 它,这个不是,所以说我们一般做调试用,可以看一下这里面,我这边的这个,你看它后面紧接的模型是 jame 三点五, flash, genevate content, 然后 key 就 跟到我这个 key 啊,这个这个,我 key 把它暴露出来没?其实没有关系啊,因为反正这也是免费的,你看他是,你是一个专业的专业助手,解释一下什么是 leg 这个技术啊,他就已经回复了,从那里看这个这么多模型。那其实啊,这也不是我说的是这个,这个我给大家看一下, as 丢了的话,你去 get 这个 apikey 啊,我这里有好几个 apikey, 拿到这个 apikey 以后,哎,你就可以去做这个啊,就可以去把这个呃,你的 apikey 放在这里就可以做调试使用,调通了以后,你再把这个再去放到代码里面进行调试啊,然后这里它有一个这个 这个限制的。在这个地方啊,你可以看一下这里的 c 末啊,有个三点五 flag, 我 找一找啊,他这个用这个表经常会刷新的,哎,这个有个 jimi 的 三点五是吧?这是个文本输入过大模型, 它的 p r m 也就是每分钟的这个 token 啊,就每分钟五个这样是吧? t p m 这个是代表它每分钟的 token 数,它每分钟给了你两万五千个 token 啊,所以说你养龙虾可能够呛,但是你做这个自动化变卖流啊,是吧? n 八 n 啊,包括底价都是没任何问题,它一个这个分钟应该是可以, 应该是每秒了,是吧? pick lock, 那 每分钟给允许你掉五次是吧?每每分钟给你两万五千个头等,这应该是够用的啊。这个这是最最近昨天更新出来的,因为昨天这个谷歌二零二六的开发者大会是公开了个 gmail 三点五 啊,然后那个杠 max 啊,还 pro 还没有发布吧?应该是啊,但是呢, flash 应该非常强了啊,非非常强,他现在给大家免费的话,呃,大家一定要去用啊。然后第二种用法的话,就是我这个地方调了一下这个这个这个这个这个地方给大家看一下,就是 啊,这里是生成一一张什么图片啊?这这这个倒没什么,这个是我,我那个是纹身图的,是吧?我这里是用的这个谷歌的追未来的一个这个 sdk 啊,大家去引入这个 sdk 啊, flunk 谷歌 input 的 追未来 ai, 然后你下载它的 sdk 就 可以用了,是吧?然后再把我的 api 放进去,你可以跟我老师给大家演示一下啊。好, 我逻辑了下,我这里可以总共使用有五十二个模型啊,有些是收费的,有些是免费的,然后等一等, 哎,这里出来了,是吧?做的是一个让他设计这个一个品牌的一个文案,是吧?文案是吧?对对对,好, 那第三种情况也是大家常最常用的,就是这个在 n 八 n 里面这么用的,我把它拿过来给大家看一下,这个是刚刚跑出来的结果啊,之前我演示的是这个,用这个魔大平台,这个地方我用的是谷歌的,是吧?谷歌的这个是吧?然后这个地方你需要把这个 api 塞上去,哎,这里塞上去以后它连接成功了,连接成功了以后, 在这个地方你可以选择它的模型了,是吧?你一定要选择三点五是吧?最早啊,就是上周前指的免费的模型,就是街面的二点五那个比较拉快啊, 是吧?已经谷歌让我们二点五已经是发布两年前的模型啊,这个是昨天最新的模型,呃,比较强大。其他的都是收费的啊。其他这个 pro、 pro、 vivo 啊,包括这个 max 啊,都是收费的。但是三点五 plus 目前是免费的啊,为什么是免费的?刚刚跟我老师给大家看的是谷歌官网,是 是选选择,目前是现在是免费的,应该他在开发者大会上已经说了这个是免费给大家用,我相信他也不会说他给大家用一两头就关掉他,是吧?谷歌应该丢不起这个脸,是吧?好,然后这个给大家跑一下吧,对, 跑一下,这个乱乱一下就好了,哎,这个我是做了一个这个新闻的整理啊,就是第一步就是我再去搜索这个新闻,是吧?然后搜索到新闻,最后拿到这个新闻的素材,是吧?然后把这个套的新闻给我整理出来,最后拿到这个话我就会发到什么,是吧?是吧?某某抖是吧? 啊?你看这个是今天上午啊,五月二十一号的 a i 新闻,等等等等,是吧?是吧?噔噔噔噔噔,好,这是我今天给大家三个用法,希望大家去调试和使用,有问题的话小伙伴可以在这个评论区留言,我看到都会回复大家的。

家人们,谷歌刚刚开了 i o 两千零二六开发者大会, jimmy nike 又迎来一波大更新。这次谷歌没出什么四点零,而是掏出了 jimmy nike 三 五 plus。 但它强到什么程度呢?一句话总结,速度比同级别的模型快了整整四倍,但成本还不到人家的一半。说白了,以前你让 ai 写个代码,处理一个复杂的任务可能要等很久,现在 jimmy nike 三点五 plus 几秒钟就搞定了。 而且这次最大的亮点是,他不再是单纯的聊天机器人了,而是变成了一个能帮你干活的数字员工。啥意思呢?就是他可以多步骤长时间的在后台帮你跑任务,比如帮电商平台 分析全球数据,或者自动给一堆文件命名、分类整理这些过去需要人工干好几天的活, 现在交给他就行。还有一个重磅功能叫 gemini spa, 相当于你二十四小时的贴身助理,一直在后台待命,你给他下个指令,他就帮你办。目前已经在美国小范围测试了,下礼拜会推给 ai ultra 的 订阅用户。另外, gemini 三点五 plus 现在已经全面上线了, 你打开 gemini app 或者用谷歌搜索的 ai 模式,背后跑的就是这个新模型。高阶版的 gemini 三点五 pro 下个月也会来总结一下。这次更新,谷歌没去堆参数炫数据,而是把重点放在了让 ai 真的 能帮你干活上。 从对话机器人进化到全天后的 ai 代理,这个方向确实挺实在的。我是 ai 小 白,日常关注我,带你用最通俗的方式看懂 ai 圈的新变化。

adobe 其实这几年一直想证明自己在 ai 时代没有掉队,因此而做了很多功法。比如就在这两天, adobe 联合 jimmy 宣布了一件大事啊,双方达成了一笔 p y 交易。 以后你在 jimmy 那 里说一句,要我一套海报,再来几版短视频素材,背后帮你干活的很有可能就是 ps、 pr、 a e 这些 adobe 全家桶啊,没想到吧,哎,没错啊, jimmy 这边上线了一个 m c p 模型上下文协议,你可以简单理解成 ai 和外部工具之间的接口, 通过这个接口,你可以直接对接 adobe 家的各种软件。以前你要自己先修图,再排版,改尺寸,最后导出。现在你直接跟 jimmy 说想要什么, ai 就 会在背后判断要用到哪个软件,先做哪一步,什么时候再让你确认。哎,再搭配哪都不 man 呢。那真是 ai 背后就像做了个设计师。其实这事啊,还 挺值得说到做到的。对普通创作者来说,这是个好事啊,门槛会被继续压低,你不需要熟悉每一个软件的按钮,也能先把想法跑 出来。对于专业的设计师和剪辑师来说呢,重复劳动的工作会被压缩,比如像一些批量改视频尺寸啊,多剪几个视频的变体,这些活呢,会越来越像有个 ai 助理把你干完了。那么这个时候弹幕就要说,哎呀, adobe 说好的一起变成大设计师呢?你怎么先背叛我去给 ai 当狗了?哎,其实这事啊,还得真往前倒。 你别看 adobe 现在接入 jimmy 了,他其实很早就要推自己的 ai, 最典型的就是二零二三年三月发布的 fanfly 了,而且一开始打法很明确,当时什么 stable、 default, jimmy 都在选生成效果,那么 adobe 就 抓专业设计师最在意的那个点。没错,这是版 权。据称 fanfly 当前模型训练的数据来自 adobe stock 这类自由版权授权的内容,以及版权过期的公游领域图 主打的就是一个商业安全啊,所以 adobe 当时其实就是想打一张安全牌出来。所以呢,发展到后面二零幺三年五月, firefly 也就正式进入了 ps, 把生成式填充更新到了 ps 中,用户呢,可以通过文本提 是去添加扩展和移除画面中的内容。其实这个打法也挺 adobe 的, c 端这边呢,大家都在选生成效果,哎,我直接一手内置 ps 啊,做辅助。 b 端企业用户这边呢,直接推出可商用的 ai 啊,还号称出了版权问题自己全负责,一下就抓住了 b 端用户还有专业设计师的痛点。不得不说,这招也挺值。 但问题也来了, firefly 的 优势就是训练数据更清楚,代价是训练数据池相对受限,效果和玩法呢,很难一直压过那些更激进的 ai 声图软件,这导致 firefly 天生就有点打 破其他家的 ai 声图。相比其他 ai 声图用的人少啊,那资本就开始不乐意了,哎呀,投这么多钱给你玩 ai, 回本遥遥无期啊。 于是到了二五年六月后,爱豆比股价一路下跌,原因之一就是市场怀疑他的 ai 变现速度不够,当时多家券商啊,还下调了目标价。哎呀,这就很现实啊,对用户来说, ai 是 功能。对 投资者来说, ai 是 收入啊。用户想要功能更强,最好还别涨价。投资者呢,想要增长更快,最好马上能看到钱,爱豆比夹在中间,压力一点都不小啊。另外一边呢,比股价更麻烦的还有创作者的信任。二零二四年,爱豆比更新服务条款之后呢,很多用户开始担心自己在爱豆比中创作打 开的作品会不会被拿去训练 ai。 这件事情当时闹得很大呀, adobe 后来专门出来解释称不会用客户内容训练 firefly, firefly 训练数据来源于授权内容和公有领域内容等等等等,这件事情才得以 平息。不过,这件事件呢,也暴露出一个问题啊, adobe 开始缩哈 ai 的 同时,用户对于软件背后的用户条款和数据边界产生了强烈的不信任。对创作者来说呢,你 ai 功能强不强又是另外一回事啦。其实这对 adobe 还挺要 逃命了,因为 adobe 的 核心用户本来就是创作者。也就是从这个事情之后啊, adobe 的 路线开始慢慢发生变化了。这个时候, adobe 已经意识到一件事情,只靠自己的模型很难吃下整个设计 ai 市场。于是到了二零二五年呢, adobe 就 把 fanfly 打开了一些,他开始在 fanfly 里提供来自谷歌、 open ai 等其他大厂的 ai 模型选择。到了今天,这条路线就更明显了,二零二六年开年,他又把自家软件又正式即将接入学不来啦。 今天这件事情呢,其实不像是一次各立的孤立合作,它其实是 adobe 背后很连续的一条产品路线。以前 adobe 希望用户待在自己的软件里,现在呢,他开始接受现实了。用户很有可能以后先打开 jameson、 克劳德这些 ai 助手,然后再通过 ai 助手调用 ai 助 手的软件。当然, ai 助手自己也说,它的愿景呢,是让专业设计工具出现在创意工作发生的地方。翻译成人话就是用户在哪创作啊, ai 就 得去哪。所以呢,当我们把整个时间线回头看一遍,就会发现, ai 这几年对 ai 的 态度 其实一直都在变,并不是突然从保守变开放。他这几年还挺积极的,第一阶段呢,他想用 five fly 证明自己能做专业的设计 ai。 第二阶段呢,他被市场和用户同时拷打啊, ai 什么时候赚钱?用户数据安不安全?第三阶段,也就是现在啦,他开始把 adobe 工具放入 jimmy 这些外部 ai 入 口里,这不代表 adobe 放弃了自研的 ai 工具,但这也能说明,未来的创意设计工作流很有可能不是一个软件自己说了算,而是 ai 助手、专业工具、素材平台一起抢入口。 以前第一步是打开 ps 以后,第一步很有可能就是先对 ai 说,我要一个什么什么样的结果啊。因此,掌握用户开始创作了第一句话,谁就有机会掌握后面整个 的工作流了。那么问题来了,你觉得 adobe 借助 jimmy 是 主动开放的生态,还是真的被 ai 入口倒闭了?以后,你会愿意在 jimmy 里直接调用 ps 或 pr 吗?我们评论区见。

谷歌发布会还没开底就被人扒了个底朝天,就在刚刚, gemini 三点二 flash 悄悄上线,直接被全球开发者抓了个正着。这次的新模型在写代码上简直杀疯了,以前单次最多只能写个四五百行,现在一言不合就狂飙两千多行代码, 有人甚至用它手搓了一个原汁原味的 windows 九八连,里面的扫雷和画图都能直接玩,这编码实力直接把自家旗舰 pro 按在地上摩擦。 不仅如此,谷哥这次野心极大,直接把詹丽娜打造成了全能大管家,不用打开任何 app, 只要在对话框里发句话, 它就能帮你做海报、买菜、订餐厅,完全就是一个超级入口。不过话说回来,虽然这次曝光的技术看起来很猛,但很多网友似乎并不买账,大家觉得天天吹牛已经看疲劳了,如果没有底层架构的突破,光靠模型蒸馏 分分钟就会被对手反超。甚至有人直言 jimmy 在 智能体时代早就掉队了,刚上线时觉得惊艳,现在只剩下平庸。所以说, 即将到来的谷歌大会,绝对是谷歌的一场生死翻盘局。现在的 ai 竞争早就不是跑个分那么简单了,谷歌如果不能拿出真正让人信服的实力,在这场终极竞速中,恐怕真的要彻底沦为陪跑了。

昨日 google i o 开发者大会,整场最重磅的 ai 革新,一句话就能概括, gemini 三点五 flash 正式全面上线。谷歌正彻底把 gemini 从单纯对话聊天助手, 升级为可自主后台运行任务的全能 ai agent 系统。本期内容不止梳理本次发布会新品,更深度拆解新一代 gemini 与前代产品的核心差距, 先理清最核心的版本布局。此次率先落地开放的是 gemini 三点五 flash, 目前已全面入驻 gemini 客户端、谷歌搜索 ai 模式、 gemini 开放 api、 ai 开发工作室、安卓开发工具以及谷歌全新自研开发工具 anti gravity。 而定位更高阶的 gemini 三点五 pro 暂未正式上线,官方官宣将于下月正式推出。 所以眼下网传 gemini 三点五全面到来并不精准,实则是极速版 flash 率先就位,专业版 pro 仍在蓄力等待。 本次 gemini 三点五 flash 的 升级核心十分明确,响应速度大幅提升,代码编辑能力迭代优化,适配各类 ai 自主任务运行。 谷歌将其批量嵌入搜索生态开发工具,开放接口与日常应用,足以证明这款模型早已跳出纯对话闲聊的定位,主打高校及时响应。与全自动后台任务执行。 相较前代版本,本次升级主要分为三大核心变更,第一大变更 模型内核全面偏向任务自主执行。以往大家使用 gemini 大 多局限于答疑解惑、文案创作、内容总结、图文解析等基础功能, 而三点五 flash 的 宣传重心彻底转变,全力强化复杂逻辑推理、代码实操、第三方工具调用以及长周期连贯任务处理能力。 简单来说,它不再局限于被动回复短句指令,而是能够自主拆解目标任务分布、规划流程,联动各类工具获取结果, 再依据实时进度继续推进后续操作。这也完美契合当下主流 ai 工作逻辑模型,负责决策判断配套工具落地执行,长期记忆程上下文 全线体系划定,使用边界智能调度,保障任务持续运转。此次 gemini 升级,正是朝着这套成熟体系全速靠拢。第二大变格,谷歌搜索正是迈入 ai agent 时代。 本次谷歌搜索 ai 模式默认搭载 gemini 三点五 flash 核心,升级绝非仅仅新增几句 ai 内容总结,而是重磅推出信息智能助手 information agents, 可以直白理解为嵌入搜索内的专属信息追踪管家。传统搜索模式下,需要用户主动反复检测、手动筛选信息,逐一浏览网页、整理内容。 而 ai agent 化搜索,只需下达完整复杂目标,它便能自主长期跟进、动态整合信息变化,精准筛选有效内容。 无论是产品深度调研、前沿技术方向追踪、出行方案对比规划,还是金融数据实时监测,繁琐的人工整理流程都将被替代。 目前,该功能尚未在全地区、全场景实现完美落地,但谷歌的发展方向已然清晰,搜索不再只是单纯输出答案,而是主动帮用户持续跟进,统筹打理各类事物。 第三大变更, gemini 正式打通云端后台离线任务 其中最具颠覆性的当属 gemini spark, 它定位为全天候云端个人智能助手,可常驻谷歌云端后台静默运行,无缝联动邮箱、文档、换灯片等全套办公生态, 用户无需全程守着对话窗口下发指令,他可在后台自主推进全流程任务,仅在关键决策节点主动发起确认。真正成熟的 ai 助手,本就不该局限于对话框内被动等待指令, 而是能够精准承接整体目标,自主拆分执行步骤,自主把控任务节奏, 遇卡点及时暂停问询。普通用户可这样通俗理解,从前的 ai 更像临时帮手,随叫随动。 如今,谷歌致力于将 gemini 打造成二十四小时待命的专属任务管家,全程自主跟进事物进度。 面向开发者层面,此次更新同样诚意十足。 anti gravity 二点零正式升级为独立桌面端开发工具,同步配套命令行操作工具、全套开发套件、智能托管 agent 定时任务部署以及多线成斜童子助手功能,看似专业绘色的功能落地,实际开发场景通俗易懂。多智能助手分工协助,分别负责整体方案规划、代码编辑调试、 程序功能测试、成果核验排查,多个模块同步并行作业,最终整合输出完整可用项目成果。这套运作模式和成熟的 ai 调度层、工具层架构高度契合。 ai 不 再局限于零散代码片段生成,而是深度融入完整开发流程,实现分工协助落地执行、自检复盘、结果回传、全链路运转。 除此之外, gemini 也值得重点关注。作为谷歌全新布局的视频与全模态内容生成赛道,标志着 gemini 不 再深耕文字代码两大领域,正是全面进军图片、 短视频、音频、交互界面等全维度内容创作领域,客户端体验也迎来全面优化。 gemini 移动端界面全新改版, 新增每日资讯速览功能,同时上线 mac 桌面端应用。对于普通用户而言,这类体验优化虽不及模型内核升级亮眼, 却足以看出谷歌的布局野心,将 gemini 从单一独立应用打造为跨设备、全场景通用智能入口。 由此可见,看待本次版本迭代,不能只片面对比 gemini 三点五 flash 的 跑分性能与响应速度, 真正的核心看点是谷歌成功将 gemini 深度植入四大主流实用场景,日常搜索、云端办公程序开发、全域内容创作,搜索端实现长期自主信息追踪, 办公端打通全套办公软件落地后台,离线事务开发端搭建多智能体协调开发体系,创作端持续补齐全模态影音内容生成能力, 这才是本次发布会最具价值的核心变更。对比前代产品,两代产品的定位差异一目了然。 旧版 gemini 偏向高性能智能问答入口,用户输入需求,模型直接输出对应结果。 而 gemini 三点五的核心思路是把 ai 模型融入整套系统生态,实现工具互联、数据互通、任务自主执行、进度高效跟进。 他的竞争对手也早已不再局限于 chat、 gpt、 cloud 这类纯对话 ai 产品,而是瞄准整套一站式 ai 办公全流程 ai 开发工作流体系, 给普通用户。三点理性看待思路。其一,不必盲目紧盯各类 ai 模型战力榜单。模型速度与基础实力固然重要,能否稳定顺畅完成完整事物,才是决定实际使用体验的关键。 其二,切勿认定所有新功能即刻就能全员起用。本次诸多高阶能力会按照地区会员权限使用,设备分批逐步开放,我们重点看清长期发展趋势即可,不必执着于当下即刻上手。 其三,重点紧盯 ai agent 自主办事能力,能否独立闭环完成一整件事物,而非单次简短问答,是未来 ai 产品的核心分水岭。 总结,本次 gemini 三点五升级,牢牢记住三个核心关键词即可。 flash 率先落地, ai agent 全面登场,搜索办公全面开启,后台离线模式, 最后整体复盘。 gemini 三点五 flash 现已正式上线,高阶版三点五 pro 将于下月如约上线,表层升级式模型提速增效,代码能力跃升,搜索体验优化。 深层核心改革是谷歌完成 gemini 全场景生态布局,打通搜索办公开发创作各大实用赛道,推动 ai 从单次碎片化问答正式迈入长效自主任务执行新阶段。如果说前两年 ai 行业比拼的是对话交互趣味与问答流畅度, 那么未来一两年,行业竞争核心必将转向稳定落地办事、高效闭环执行。 这就是本次 gemini 三点五大版本迭代最值得所有人深度关注的核心价值。

没想到谷歌 i o 大 会还没开, gemini 三点二就提前泄露上线了 flash 版,编码能力拉满,单次能写两千多行代码延迟极低,成本还大降。业内认为,这得益于谷歌的模型蒸馏与稀疏化技术。

谷歌 jamming 三点五 flash 昨天上线了,那么它对咱们音乐人有用吗?跟三点一 pro 相比有什么进化吗?谷歌在昨天的二零二六开发者大会上刚发了二十多个产品,我们连夜总结了发布会跟我们相关的几个产品, 其中最新的 gemini 三点五 flash 比较亮眼,我连夜拿了十几首歌给它做音乐分析,结果差点气吐血。咱们直接看图,网上都在吹它比 gemini 三点一 pro api 调用价格便宜了,但便宜的代价是什么? 这他牺牲了对我们很有用的世界知识和推理的能力,对咱们音乐人意味着什么?你让他写代码行,你让他写走心的歌词,拆解复杂的编曲,他直接傻眼,咱们直接上最硬核的专业音乐人拆解 prompt 给三点五 flash 和老大哥三点一 pro 同时为了十首 mp 三歌曲来分析, 结果呢?三点五 flash 除了思考速度快了大概百分之二十,剩下的基本全军覆没,很多编曲的细节他根本听不出来,分析浮于表面,甚至还经常出现幻觉,胡说八道。所以啊,目前的 jamie 三点五 flash 还不太适合我 这样需要大量使用多模态推理能力的音乐人。如果啊,你要做爆款歌曲,要想提高生产力,还是老老实实的用回 jammin 三点一 pro。 或许咱们再等一两个月,等三点五 pro 出现之后,它的多模态能力才会有大幅度的提升。毕竟啊,谷歌的 jammin 才是市面上唯一的最懂音乐,最懂阅历的多模态原 声的东西。把你的参考歌曲 mp 三直接扔给他,让他帮你提炼爆款音子八边去写出带逻辑重音的满分歌词, 最后再扔给 solno 去深沉,这才是真正的降维打击。最后啊,我们再插播一个不大不小的新闻,这次大会上谷歌也正式官宣之前收购的 producer ai, 以后它就改名叫 music flow, 正式加入谷歌全家桶。但是大家先别激动,我立马去官网测了底层的 linear 三 pro, 音乐模型 和功能都没有更新,纯纯就是换了个名字。虽然 jimmy 长期霸占多模态大模型老大哥的位置,但我们也希望他多争气,在未来的三点五 pro 中给我们这些音视频创作者们但 带来更多的惊喜。好了,这里是小旭音乐,你的 ai 时代音乐领航员,咱们下次见!