家人们,板凳准备好,开始听课。主要介绍一个谷歌的 ai 创作工具, flow ai, 整体撕下来非常丝滑,你就直接往里拖,你要的图上传好,再拖进底部对话框,填好提示词,点击箭头开始干。我们可以看到 n a n 版本的效果, 对亚洲人面部一次性效果直线飙升,真是绝了,真是天塌了!咋效果是好啊,留给我们的工作不多了,再试一个案例看看。输入一个提示词,再把上传好的素材图拖进对话框,开始干。 我们再利用这个三级界面修改一下图,输入提示词。哎呀妈呀,又绝了!我们再深度使用这个三级界面修图,体验感觉了,无任何干扰信息,进来就开干。这里我把草莓换成车厘子,农夫山泉改成东方树叶,绝了, 心痛的无法呼吸。家人们,你们能看出来这是 ai 做的吗?
粉丝151获赞1211

谷歌昨天更新的 flow 智能体也太好用了吧,可以直接一次性生成十四张图片,再也不需要一张一张去生成了,一起来看看是怎么使用的吧。今天给大家介绍一下最新的 flow 的 这一个 agent, 呃,特别好用啊,它的最好用的点在哪呢?就是它和一次性生成的图片没有上线。 嗯,假如说大家看到像我当前的这一个画面,我可以给他一个画面,他瞬间呢就可以给我生成十四张完全的这样的照片,大家看到瞬间十四个角度,这都可以了。好,这个具体怎么来操作呢?首先第一个,这是我的根图啊,随便拿一张你的图片出来啊,添加到这里面。第二个,这里使用智能体。 好,然后的话呢,点开这个智能体,好,我把它删掉,添加指令,添加指令之后的话呢,把我们的这一个十四分镜的这个模板给它拉进来,放到这里面粘贴啊,就可以了,点击确认。好,这样子的话呢,那么 他就有了十四个的规则啊,有了这个规则之后,那么你就写关键词叫生成十四张图。好,然后根据以上 十四个以上规则,就是因为我的那个里边是有十四个角度啊,以上规则生成十四个角度 的图片,这样子的话呢,你就直接点击开始。哎,这样的话呢,那么他这边就会稍等啊,他这边就会有这个 需要你确认,如果你是 bro 的 这个会员的话呢,升图是免费的,那么他就会让你确认一下,然后您啊积分啊可以使用,当然你也可以批量的生成多个视频。好,这个是 第一个操作,就是大家可以看到他会瞬间给你生成十四个角度的这一个图片,这第一种的。好,第二个的话呢,那么有了这一个之后啊,那么第二个就是我们以前做画面是使用九宫格的,那么以后我们其实从理论上来说就不再需要做九宫格了,那么我们的九宫格直接就可以变成, 大家可以看一下。好,我们的九宫格直接就可以变成一张一张的图。好,那这个的话呢,也是很简单的直接选择智能体,然后的话呢随便选一张这个九宫格啊,对,这些都是我刚刚已经弄完的。 好,假如说我到这个地方选择这张,呃,前面的这个九宫格吧,选择这个九宫格添加到这里面。好,那么直接生成啊,九宫生成九张图片。好,把以上九宫格图,九宫格图片啊,放大每一宫格。 好就可以了。好,直接点击它就可以了啊,这个时候你看到这里就会放大每一宫格的图片,点击确认。好,那么直接点击确认。哎,这个时候的话呢,他就会收到信息, 就帮你把这个呃画面啊,生成九张这种独立的照片,这样子就可以了啊,效果非常好,包括清晰度,大家可以看一下清晰度, 嗯,没有任何问题。好,这个就是他的智能体的使用啊,非常的方便。好,感谢大家观看。


谷歌最新的视频生成模型 omni flash 已经上线了,现在你在 flower 里面已经可以使用它了,那么它最后生成出来的效果到底怎么样?能不能撼动 c 但是二点零的王座? 我们一起来看一下。现在 flower 里面也是支持自定义角色形象了,你可以通过 nano banana 直接生成一个角色的形象,并且可以给他选定与和自定义语音啊。那么比较有意思的地方呢,是它这个有个角色个性的动作啊,它的这个文本呢,就会帮助模型去 呃决定这个角色的这个行为啊。好,那我们废话不多说,我们就来直接测试一下 omni flash 的 这个能力啊。首先我在 type n 里找到了一些案例啊,我用相同的提示词和相同图片去生成这个案例中的这种视频,接下来我就放出前后对比啊, for the empire we will not be defeated。 可以看到跟国内的模型对比其实现在还是有差距的啊,那么谷歌到底是不是在憋个大的,它的 v u 四能不能让它重返这个视频生成的宝座啊?那么这个就是后话了啊。关注我,带你看更多 ai 测试!

如果你不是 ai 开发者,就可以划走了。微信最近给小龙虾 opencl 开通了首页级别的入口,但是为什么你的微信龙虾只能和这个红色头相对换?但是我的小龙虾可以直接驱动微信变成 ai 员工自己去点击新消息,点击新的群,跑过去回复用户。 因为我最近写了一个开源程序,给 opencl 配上了最强的视觉智能体。 cfo, 别小看这个工具啊,它相当于给小龙虾长了眼睛和手,能像人类一样的看用户消息,思考打字回复用户。 怎么做到呢?只需要把 safo 代码儿部署并给 opencall 小 龙虾配上这个 safo skill 之后,小龙虾就可以自己操作微信。如果你接入了飞书起微 call, 还可以远程通过 opencall 小 龙虾启动 safo, 让它去处理新消息。 ai 呢,就可以自己去点击新消息,回复用户。而如果用户啊问题只说了一半儿它, 他甚至可以带着情绪的回复说,哎,你为什么只说了一半?急死我了!现在很多企业都在用微信和 whatsapp 做生意,但是呢,要么没有开放 a p p, 要么呢成本很高,导致 ai 很 难真正帮大家把业务自动换规模换。 我做 cfo, 就是 想把最难的那一层视觉执行先打通,而且开源出来,希望找到一群愿意一起折腾的人,在这些大平台限制之外,做出更快更聪明的商业工具。如果你也想要这个项目代码,评论区打开源。

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

谷歌的 flow 更新了一下逆天的功能,能够一次性生成十几张分镜,每一张都直接可用,而且不需要像之前那样单独提取放大,直接一键生成高清大图。这就是 flow 最近更新的智能体功能,我们直接在对话中就能使用, 选择到智能体模式,然后在右侧点开智能体指令,选择新建指令,直接在这里粘贴我们的十四分镜大师提示词,再上传好参考图片,图片上传完毕保存后,就能在右侧看到我们建立好的指令,此时我们在 flow 的 输入框直接让它生成十四张分镜, 点击发送 flow 就 会根据提示词指令自己思考出全部的分镜,然后我们批准 flow 的 请求,这样 flow 就 能直接一次性生成出十四张完整的分镜了,并且都是高清大图, 人物的一致性也非常高,画面质量也很不错。怎么样,十四分镜的提示词我也准备好了,屏幕前的各位赶紧去试试。

最近呢谷歌发布了全新的 ai 视频生成大模型,也就是 jimmy 欧米尼是这样的一个模型,那么在官方的宣传页面里面可以看到这个模型呢,它的生成效果是非常好的,包括各种的动作, 各种的物体的稳定性都是非常好的。今天呢来实际测试一下它究竟具体的一个效果怎么样啊?我们呢可以先看一下别人制作的一个关于大模型对比的一个效果, 使用的呢就是谷歌新发布的这个欧米尼模型,跟我们国产的这个 c 弹子二点零的一个对比, c 弹子二点零呢是目前来说全世界范围内啊,它的效果是最好的。 然后呢我们来进行一个对比,看一下它的效果,究竟它的距离啊有多少?大家看一下这个整个的一个视频,那么上面呢是谷歌的模型,下面呢是 c 弹子二点零的,咱们看一下它跳水的这样的一个动作啊,非常的不自然,好再看一遍, 好看到这里啊已经落水了,然后呢他又重新回到半空中,并且呢这个人物的整个的一个姿势啊,非常的怪异啊,跟我们的 c 弹 z 二点零是完全没有办法比的,可以说在人物动态上, c 弹 z 二点零可以说非常的真实和非常自然。下面呢还有更多的一个案例,比如说像这种 双人就是两个角色进行一个大范围的移动啊,很明显的可以看到 c 弹子二点零呢,他的整个的一个环绕运镜和慢动作,对吧?和一个细节的整个的一个姿势啊,动态非常的流畅自然。上面呢就不用说了,非常的死板,其他的包括还有这种运动镜头的 啊,一样的运动镜头的 c 弹子二点零呢,同样的大家可以看到非常的自然,对吧?上面呢 整个的你看整个的动作,整个的非常的怪异,这个呢是网上别人的进行的一个对比,那么基本上不用咱自己的测试啊,非常明显可以看到 这个谷歌的模型完全跟这个 c 档三点零完全没有办法比,所以说呢 c 档三点零虽然说现在啊价格比较贵,但是贵有它的贵的一个道理啊,它的效果确实非常好的。那么下面呢给大家说一下咱们如何去 使用这个谷歌的新的大模型,现在呢谷歌模型咱们可以免费去用,这个呢,虽然说他效果没有那么好,但是啊他免费用咱们是可以去用一下的,咱们在这个谷歌呢直接搜索这个 flow, 在 这个平台呢咱们直接可以免费去用的,咱们直接打开一下,来到他的一个账号的这个页面主页,大家呢可以去登录一下,登录一下之后呢咱们可以看到在这里啊去选择这个具体的创作模式啊, 它默认呢是这个图片模式,大家可以看到,那么咱们把它选择视频模式,然后在下面呢就有这个具体的整个的模型的一个选择,那么谷歌的模型呢是 vivo, vivo 就是 vivo 三点一的模型,那么最新的就是最上面这个呢就是最新的欧米尼 flash 这样的一个模型啊,咱们可以直接去选择,那下面呢秒数啊,最长是十秒钟,上面呢这个生成的比例选择,这个九比十六 真和素材是什么意思呢?比如说你上传一个素材呢,上传一个图片,让他模仿这个图片里面的人物的长相啊之类的,这个真呢就是首尾针,对吧?首尾针去生成中间动态的一个视频。 好,咱们选择素材就可以了,这里呢选择好之后直接去书写咱们的题词,直接去发送。那么我之前呢也给大家做好了一个这个视频,这个视频呢就是一个女孩在滑板,就是在场地去做滑板滑板动作这样的一个视频啊,大家可以看一下整个的动作,我感觉啊 非常幅度非常的小,而且他的一个整个的动作非常的不自然,所以说呢还是大家呢可以去试一下生成一些动画动作幅度比较小的这种视频还是还是可以的,但是呢像这种大范围的动作 确实啊是不太适合的,在这个 flow 里面呢,大家直接可以免费的去生成,那么现在呢他是有送的,有这个积分。好,大家可以去测试一下。

家人们,谷歌最近更新了新的视频模型 gemini omni 已经上线,今天给大家介绍下更新的新功能。第一个可以创建角色附用,也就是我们所说的角色库, 方便拿来做长视频和保持人物一致。新增了 flow 内置的智能体,可以直接完成脚本和分镜图的生成。我随便测试了一个香水的带货视频,生成出来的效果也是不错,最新的 omni 模型也是可以做出这种分镜效果了。 可以预见后面 tk 的 视频类型会变得越来越多,后续也会给大家持续分享不同的玩法。第三个,你可以直接在 flow 打造属于你自己的工具,包括调整图片角度、图片编辑等等, 利好大家创作。第四个可以上传你自己本人的照片和声音,生成你自己的 ai 视频。第五个呢,就是 flow app 在 android 的 移动端推出,可以在手机上创作视频了,大家赶快都去试起来吧!


ai 音乐圈又出新动作了,五月六号,谷歌官宣呢,和法国音乐发行公司 belief 达成了合作,把自家的这个 ai 音乐创作的工具 flow music 向全球的独立音乐人全面开放了。现在呢,大家用 ai 写歌最怕的无非就是三个坑,第一个就是 工具脱离真实的创作流程中看不中用。那第二个呢,就是版权说不清楚,辛辛苦苦生成的歌到底应该归谁啊,能不能商用,全都是糊涂账。 那第三个呢,就是创作和发行脱节,写歌在一个平台发行又要换好几个别的地方来回折腾,实在是太麻烦了。那谷歌这一次的动作呢,刚好精准的解决了这几个痛点。先来说一说这个 flow music 到底是什么东西哈, 据说这个平台的创始人本身就是乐队音乐人出身,所以这个产品从诞生之初就是为了解决真实的创作里的平静,比如说润色歌词啊,探索这个和声走向啊, 可以适配各种曲风啊,甚至连前奏主歌副歌的这个完整段落的结构和多语言的人声,复杂的节奏设计等等,它都能够全程辅助底层呢,用的还是谷歌最新的 lira 三 pro 这个音乐大模型,专业性绝对是够了, 最最关键的也是所有音乐人最关心的版权问题。谷歌声称呢,用户用这个 flow music 生成的原创内容,使用权完全归创作者,平台呢,不会占一分一毫。哎,听起来确实是解决了大家最大的一个顾虑哈,不过在这里呢,我要先放一个小小的疑问, 用户为此需要支付的使用成本肯定会大大提升的,因为平台要提前帮用户解决版权问题啊。那具体如何收费,谷歌尚未提及, 我们也来敦一个后续的声明。另外呢,这次谷歌选择和 believe 合作,其实也是一部妙棋,因为 believe 旗下有 tuco 这样的这个自助发行平台嘛,那已经成熟地打通了音乐发行、版权结算 啊,百税管理一直到营销推广的全链路。所以 flow music 接入之后呢,等于音乐人可以在同一个体系里面就能够完成从 ai 辅助创作到歌曲发行上线的全流程, 不用在不同的平台之间反复横跳了。其实一直以来,大家对这个 ai 音乐的争议都很大哈,有的人觉得它会取代音乐人,那也有人觉得它只是辅助的工具。在我看来呢, ai 音乐的未来从来都不是替代创作者,而是给创作者赋能。 当版权规则清晰了,工具贴合需求,创作和发行的列录也能够打通,那 ai 就 会成为独立音乐人手里的一把利器,会帮大家把更多的精力放在真正的创意本身。也正因为如此呢,我们公司接下来也有一件大事要提前跟大家透露一下啊 哒哒私爆音乐和我们的总公司众梦音乐集团呢,正在和知名的科幻数字 ip 白月城团队展开一次全新的深度合作,我们要一起打造真正的 ai 音乐宇宙,把 ai 短剧配乐、 ai 虚拟偶像音乐、宣推的 agent 智能产品等等全部打通,用 ai 技术真正的帮音乐人去降本增效,来放大作品的价值。 具体的合作细节,上线的时间后面呢,我会一条一条的跟大家来同步,也非常非常欢迎所有关注 ai 音乐发展的朋友可以一起关注,一起 参与进来。最后呢,也想问大家,你觉得 ai 音乐最大的痛点到底是什么?你期待的 ai 音乐宇宙又是什么样子的呢?关注沙总,了解最真实的音乐行业散会啦!

大家好,我是 kitty, 今天我们一起看一下谷歌最新发布的 i o 大 会啊,会上发布了非常多的内容,那有很多产品我们现在可以用,也有很多期货产品。今天的话主要介绍一下我们现在可以用的产品。 现在谷歌每个月处理的 top 函数是非常非常多的,那 jimmy app 呢,现在也是被更多人喜欢。 目前谷歌有十三个产品,用户量是超过十个亿的,非常非常恐怖的量。今年夏天呢,我们就可以在 youtube 上面使用它的 ask youtube 功能。谷歌呢,最近还在 cloud nest 上宣布了第八代的 tpu, 大家可以简单了解一下。 此外呢,这次和我们非常相关的有 omni 模型,还有三点五, flash 模型。这次发布没有发布, pro 模型会在下个月发布。谷歌今天发布的是 omni 的 第一个模型 omni flash, 我们可以在它的 app flow 进行使用。需要注意的是,有用户呢是 out 的 会员,它在使用 omni 生成五个视频之后,甚至无法再使用 pro 或者是 flash 模型了。目前 jamal 它在设置里新增了一个使用限制, 它和 pro 的 一样,也分五小时的限制和啊一周的限制。我就提示它生成一个视频, 那它就花了我百分之二十六的一个五小时额度。除此以外,我今天在 gmail 的 啊官网上去提问的内容并不多, 那我们可以看到已经啊有三分之二五小时的额度已经被使用掉了。如果你是 pro 会员,非常推荐你在 flow 的 平台上去调用,让它生成图片,或者是让它生成视频,因为谷歌每个月会给 pro 用户一千积分的一个额度, 那我们用 omni flash 来生成图片,一张图片呢,十秒钟它就会花费三十积分。而如果说是六秒的视频,那就会花费二十积分。但是它生成的视频呢,和 jimmy 上一样, 都有一个视频的水印,这点是,呃,不是特别好的。如果你在 flow 平台上生成图片,选择它的 nano banana 二, 那是不花费积分的,而且这里呢,是没有水印。这次 flow 呢,还非常好,推出了一个 agent 的 模式, 这和我们在其他的一些 ai 绘图平台上 agent 的 模式是非常像的。我提示它让它去生成这样的一个分镜,拉倒不拉倒。二,呃,即使我选择了 agent 的 模式,它生成的图片分镜也是要比 gbt image 二要差的非常非常多。 之后呢,我就根据 gpt 一 米二生成的图片上传给 flow, 让它来生成视频。 this scent is amazing freshly fried stinky tofu crispy outside and tender inside one bite crispy and bursting with flavor it smells bad, but tastes so good。 可以 看到它生成的音频里面呢,有都是英文。此外,呃,一开始给它的原图里面呢,有都是英文。此外,呃,一开始给它的原图呢,是真人的质感, 原图的话是有一些文字的,而它在最后生成的图片里面是没有相关广告文字的,做的是比较差。所以我后来我就提示让它根据这张图片要生成中文视频。 这香味也太上头了吧,那它生成的视频,这就对了,变成了中文。如果你是在 jimmy app 里面直接提示它生成视频的时候, 就不需要我们像在腐肉里面要再明确提示他一下,这香味也太上头了吧。现炸臭豆腐,外酥里嫩,灵魂酱汁,一口咬下去,爆汁,越吃越上瘾,再来一份,非常不可,香到停不下 啊。即使是这样,那我觉得 flash 在 这里表现的和我一开始给他提供的图片这样的一个分镜啊,相差还是比较远的。所以我后来又提示 gbt 呢,让他改一下。我说我的视频是十秒,让他再重新深图 修改后他就将啊镜头变少了一点。然后呢,每个镜头他是安排了两秒之后,我就取消了 agent 的 模式,上传了这样的一个 gbt 的 图片, 然后提示啊, omni flash, 我 让它根据我上传的这样的一个图片啊,输出中文视频。那它最终生产的这个视频和我刚刚提供给它的图片就比较像了。 这味道也太勾人了吧。现炸臭豆腐,外酥里嫩,一口爆汁,香到上头,闻着臭,吃着也太香了。夜市进店,臭豆腐等你来尝。但是我们也可以看到这个视频里啊,它有很多文字是没有体现在这样的一个广告里。 第二呢,呃,这个视频最后,呃,有文字还是有错误,跟我一开始给他的这样的一个横排的广告分镜还是有较大差别的。呃,所以我个人对 omni 这一次的视频输出的话不是特别满意。 谷歌说 omni 提供了一种更容易的视频编辑方式,用自然语言下指令。他们认为 omni 的 优点是角色保持一致,物理效果站得住脚,还有场景会记住此前发生的事情。 omni flash 它的物理表现是非常不错的, 这两个视频都呃展现的非常好,当然了,你让 omni 来切换不同的场景啊,物体变化也是非常简单的。这次 omni 呢,特别强调是它的物理创建,视觉能力非常强,非常真实的这样的一个 demo。 omni 可以 利用 jimmy 的 知识,把语言图像和 e 连接起来,超越单纯的模式匹配。而且 omni 还可以从短的提示词创建有说服力的解释性视频。 它呢,现在也是支持多个图像文本,视频、音频啊合在一起,并且支持从已有的素材延展创作。 我们可以看到一开始就是简单的一条鱼,然后啊几笔图画最终生成的这个视频呢,啊,就很好的保留了原图的一个参考,还有官方这样的一个展示,我认为啊,对我们来说日常帮助也是比较大的。 呃,有这样的一个啊,插画,然后上方是真实视频,最终做出非常有动效的视频。目前节目奶设置里呢,还支持上传你自己的一个头像 啊,然后融入到视频里。三点五 flash 呢,现在是谷歌最强大的模型,官方展示这样一张图呢,意味着三点五 flash 它啊,速度快, 它的制力能力强。我们通过这张图可以看到 gmail 的 三点五 flash 啊,对比 crowd opt 四点七和 gpt 五点五都是有非常大的竞争优势的。 官方又展示了一些案例呢,非常不错,比如这个案例呢就是,嗯,几百张图片,然后让 gemite 三点五 flash 做一个分类,在提示词里面呢,就有明确提到让它用啊自 agent 来处理。我最近呢也是做了一个图片重命名的应用, 我一开始也是让 ai agent 来帮我实现的,在 ai 编程工具里让它去实现,但是我后来发现,嗯,很多都不能完成。 那我后来是做了一个啊, mac 应用啊,用本地的千万模型来去做这样的一个重命名。那我们看到反重力的 id 里面呢,就能直接去实现这样的一个功能。 而且就目前而言, gemna 三点五 flash 在 反重力 ide 里面,它的使用额度还是比较多的。三点五 flash 呢,还可以仅使用科学论文作为输入来再现 alpha zero 的 可玩版本, 这就说明它的治理能力啊,非常强,而且它可以自我改进。官方还有个例子非常好啊,就是让它来做一个工具。这个工具呢,是可以 调用啊,海量的 agent, 然后让它们去搭建不同的场景, 只要你给他足够的 talk, 那 他最终多个 agent 就 能帮你去生成啊,非常丰富场景的这样的一个三 d 建筑群。谷歌还展示了一些通过 as studio 来生成的应用,比如说你给他任意的论文, 最终这个应用呢,啊,就能帮你生成,非常丰富啊,重现论文里面的各种交互的展示。 三点五 flash, 还可以帮你去生成这样栩栩如生的机械操作呃,领悟感非常强的应用。此外呢,也可以一句提示, 它就可以帮你调用六个 agent 探索呃,六个不同的 ui 设计,除了我们可以在 jimmy ipad 里去使用,呃,三点五 flash, 那 它现在呢,也是 air mod 里的呃,默认模型, 可以帮助我们带来更好的搜索体验。谷歌这次大会还有个非常好的变化是它的 anti gravity 升级了,升级到二点零了。虽然说呃我现在的 anti gravity 二点零登录不上, 但是它现在也出了一个新的 cui, cui 呢是我可以登得上的。现在的 gemini cui 呢,也会逐步迁移到 anti gravity cui。 如果说你之前能登录 gemini c u i, 那 现在登录 anti gravity 啊,还是非常方便的。当我们下载反重力二点零之后,它会呃有这样个提示,是否要下载 ide? 如果勾选之后,那你电脑里就会有两个 app, 一个是新的呃二点零,一个是之前的一个界面 ide。 如果大家之前使用呃反重力的 ide 登录有问题,那现在可以试下它的 cy 安装的话,可以看一下这里。安装好之后,我们就可以通过 agy 来进行交互。初次使用呢,他会让你进行一个授权,我们需要把呃网页上面获取到的一段代码,然后输入到终端里。登录后第一次使用呢,呃,建议直接来到他的设置,把数据收集的这样的一个选项给关掉。 工具调用的源序这块建议啊,直接打开。目前呢, jamal 三点五在反重力的 cy 里面运行的时候,的确速度非常快。呃,但是呢,它的质量如何呢? 这块我会放在最后,大家有兴趣的话可以翻到后面看。现在呢,我将介绍一下新的反重力二点零。呃,我们可以看到它的桌面应用是非常大的升级, 它有动态子 agent, 还有一个呃异步任务管理运行的, 而且还可以用简单的 jason 格式定义 hux。 二点零还新增了一个啊,全新的计划任务, 这和 codas 也是非常像,也新增了一些命令,比如说啊, girl 这个命令呢, crowd, codas 都有,包括 ems agent 也有啊, gryalme 呢,这个 scale 一 开始呢,是由马特啊一个开发者,然后他去构建的 反重力这里用到了这个功能呢,是可以在开始实现之前,反向提问以面对以面对计划的具体细节达成一致。比如这里呢,我就通过使用这个命令,然后后面跟上我的一个需求反重力。不明白的地方呢,他就会问你 啊,他问了我多个问题,最终三点五生成的 flash 啊,结果可能不是令我非常满意,但是前面呢,先和它对齐需求啊,这样的一个功能还是非常好的。最后还有一个功能是 browser, 可能这是在 ide 里面独有的。 cy 里面呢,是没有这样的一个斜杠命令的。反中立官方介绍呢,二点零呢,它的 logo 就是 白色的背景, 而 i e e 呢,它的 app 背景呢,就是一个黑色的网格。谷歌呢,这次还介绍反重力构建一个操作系统,它们让反重力二点零呢,用了一组 agent, 从内核进程管理、内存管理、文件系统到视频和键盘驱动, 构建了一个人运行 freedom 的 功能性操作系统。在构建过程中呢,用到了九十三个字, agent, 以 api 价格来算啊,花了差不多是九百多刀。他们分享的这个案例呢,主要是讲同步和异步 agent 怎么去进行操作的。他们认为在异步交互中,通常不再重要的是模型的性格与行为方式,真正重要的是,模型到底有多聪明。 通过这个例子呢,他们是认为 jimmy 是 一个非常聪明的模型。谷歌还介绍了他们怎么编排这些 agent teams, 这并不是几行提示就能完成的事情,实际上有数千行提示。他们没有让单个 agent 身兼多职, 而是创建了一系列具有专门目标和约束的自 agent 的 类型。我们可以看一下,比如说有调度型管理者,策略分析者,实际编码者,独立审查者,还有测试 啊核验的一个 agent。 他 们还采取了一些技巧,比如说啊,怎么处理上下文长度限制的,一旦达到限制,他就会把完整状态写入 handoff files, 结束自己的后台任务,并且调用一个拥有相同目标和权限的一个啊继任者子 agent 者 后,记者呢?从文件平滑恢复。如果遇到任务堵塞的情况下,他们就会使用新的 scheduled tasks 啊 primitive 设置后台循环进行的定时任务,然后检查各个子 agent。 呃,写录的一个这样的一个进程文件, 所以它们中间是有各种设置的,还有对抗大圆模型,懒惰,它们就会通过一个 auditor 来实现。这次呢,反重力二点零还推出了一个 teamwork preview, 这是一个新的啊,斜杠命令。 这个斜杠命令呢,目前是一个研究预览状态,只有两百多的 out 用户才可以去使用它。 呃,官方建议呢,搭配三点 flash, 使用 timoc preview 的 时候,账单是非常高的。 现在呢,简单来看一下谷歌反重力 cy 的 一些命令啊,刚刚有提到 agi 来唤醒,然后我们可以通过问号,斜杠 at 这些比较常规。 那斜杠命令里面的话,比如说有斜杠 agents, 可以 用来查看管理审批正在运行的子 agents skills 呢,也是比较常规的啊,还有 statelines 这些的话都和 crawl code 是 非常像的 啊。当然我们也可以经常看一下它的 usage, 目前呢 ci 里面也是可以使用 opt 四点六的。 我在登录过程中呢,就发现隔了一两小时之后,它又让我重新再登录。 config 的 话,我们可以来管理 c y 的 配置,刚刚我有提到呃,我们进入之后可以把它的信息收集呢啊这样的一个配置给关掉, 要安装反重力的插件呢,我们可以用这样的一个命令啊, what flows 里那我们可以看一下可以斜杠,然后来触发某一个工作流。反重力呢,还可以用安卓 c y, 这里有一些命令,大家可以简单了解一下。现在来介绍一下如何在呃 a s 九九里面构建原生的安卓应用, 可以通过一个提示词就可以构建高质量的呃安卓应用,它呢使用嵌入式的呃安卓模拟器, 可以在 web 浏览器中创建,并且编辑安卓应用还是比较方便的。我们可以通过 usb 线呢,连接安卓手机就可以通过, 之后就可以通过 a d b 把应用直接安装到设备上,而且它还支持你啊直接把应用呢发布到谷歌 play 用于测试 as 丢丢会自动创建应用记录打包,然后并且上传到啊安卓 play 的 开发者控制台的一个测试轨道, 应用会在几分钟之内就可以安装,非常非常方便。当你需要更高级的迭代的时候,你可以去将它下载下来 啊转移到 android studio 里面进行开发,或者是转移到反重力里进行开发。谷歌介绍他们还会在 as studio 里面添加和安卓相关的 firebase 的 集成。官方呢,还给出了一些呃提示词灵感, 比如说这样的一个提示词就可以让 air studio 帮你做啊,手表的应用,或者是折叠屏的应用,再或者是一个面向吉他手的伴奏练习应用。谷歌现在的订阅方案呢,也有了一个很大的升级, 那 air ultra 之前是二百五十刀的,现在是降到两百刀了,而且还提供了一档是一百刀的 pro 呢。啊,之前是二十刀,那现在还有一个五十刀一个月的。 它们的区别主要是这些方面,一个是呃存储空间的区别,第二呢是 jamming 的 使用上限,目前 pro 二十刀的,它的 jamming 使用上限是普通用户的四倍,总体而言的话,这个额度感觉是大大缩减了。 呃,那它新增了一个非常好的额度呢,就是 youtube 影视权益这块还是不错的,因为现在这个单买也是需要呃九刀左右。因为我平常用谷歌的啊 pro 会员比较少, 所以目前订阅它的这样的一个新的二十刀的啊,还是非常不错的。需要注意的是,如果说你现在订阅它的一百刀的 air force 会员, 那可以在反重力里面去领取一个啊一百刀的奖励积分, 这个优惠是有时间限制的,目前邀求用户是能优先访问一些新功能的,比如说 gemina spark, 还有 project jenny。 最后来看一下 gemina sineon flash 这一次的编码能力 啊,我呢将这样一段提示词和这样的一张图片发给三点五 flash, 想要让他呢啊,帮我去复刻一下啊。工具里我选择的是 canvas, 思考程度呢,我是选择了最大。 那它生成的速度还是非常快的。三点五 flash 呢?它有提示我啊,这里用到了完全自主的一个乐曲,是用 web audio api 来合成的。它生成这个效果是我近期测过多个模型里面 应该是啊和 jimmy 五点五 pro 啊非常接近了。和原图的话,嗯,是也是非常接近。而这样的一个效果呢,是我通过三点五 flash 在呃反重力的 c y 里面生成的。那我们看到这样的一个效果就简单非常多。而我们现在右侧看到的这样的一个效果呢,是我在 a s studio 里面拉拉生成的。那这里的主要区别呢?就是 canvas tool 它带的系统提示词, 目前我还不知道它的系统提示词是什么,但是我们可以看到你用不同的哈尼斯那生成的效果就会千差万别。再看它生成的千夫拉船,这千夫拉船呢,是提示了四次。它生成的这个船还是挺逼真的 啊,我最喜欢的就是它这个水面做的特别特别逼真,整个场景是比较暗的。一开始它生成的是这样的一个场景, 后来我就截图让他进行优化,这是他的优化内容。优化后的这个效果呢,左边能看到船,然后要小心的去移动,才能看到纤夫在哪里。 他把这个潜伏还是画在了呃,水面上,没有看到绳索和潜伏黏在一起。而现在我们看到的是 jamal 外部端 canvas 里面去生成的潜伏拉船。他给到了我好几个不同的镜头视角, 还有船体追踪,江岸全景,船手仰望,除了夕阳落日呢,还可以切换到其他不同的天气场景,而且呢,它这里还有音频。 这样一个页面设计,让我感觉,呃 jamal 三点五 flash 非常非常像 gbt 五点五,不知道它是不是向 gbt 进行取经了,右上角还有个感叹号, 点击后我们会看到这样的一段说明文字,我认为 gmail 三点五 flash 是 一个 mo 模型, 它的参数量应该是比较大的啊,激活量的话可能是相对比较少一点, 它的知识丰富度还是比较强的。虽然说三点五 flash 的 速度非常快,但是它在做这样的简单页面的时候啊,控制台是经常出现这样的报错的, 这个可能也是 moe 模型的一些局限。再看三点五 flash 在 jammer 平台上生成的交通信号仿真, 我们明显感知左边呢,是有非常多的参数,非常像 gpt 的 风格,它在这里啊,模拟还是非常不错的。小车呢,非常像我们现实里的各种小轿车,而且它还模仿了这种转弯, 但是他在路口,我们可以看到这两个车子连在了一起,那正常情况下啊,不太会是突然,车子行到这里就停在呃路中间了。我们会看到这样的交通仿真,车辆非常非常多,但是有 穿模现象,有很多都是错误的。再看 flash 做的仓库分解,同样呢,我们页面上看到啊,它的元素是非常多的,右侧能看到事件日记, 现在是一个红色的正方体,日记里显示抓出了,但是实际上啊,物体是突然之间就没了, 所以它的这个物体获取,它是没有完全展示出来的,它就非常适合做各种页面的一个 demo。 然后我们可以把这张图呢 截好发给 control, 再去实现具体的功能。我们在下方还能看到一个极停功能,点击一下啊,也会啊,这个功能的话演示出来也是也是能展现出来的。哎呀,我觉得他在这问题上还是表现的不错的。我最后给他的任务呢,就是给他这样一张截图, 让他帮我输出中文页面要明亮的主题,页面要美观,最终生成的这样的一个画面 啊,我个人觉得和我一开始发给他的图片还是非常像的,包括他这里用的一些小的图标元素也是比较到位。第二个的方框呢,我们会看到有多个颜色, 那最终啊, gmail 三点五 flash, 他 在这里做的是渐变色的效果,所以这一点上他是还原的不到位。那总体而言,我觉得他在这里呢展示的要点, 展示的这样的一个差异,我个人感觉还是不错的。而且现在三点五 flash 它的速度很快啊,是明显要比三点一 pro 要速度要快很多的, 做这样的页面就非常合适。以上呢,就是今天介绍关于啊谷歌 i o 大 会的所有内容 啊 jamal 三点五 flash, 它目前的价格还是比较贵的,输入一点五刀,输出十九刀。但是如果说编程的话,我个人还是更推荐啊,用 gbt 五点五,希望我的视频对你有帮助,我们下次再见。

这次谷歌发布会,才算读懂未来 ai 真正走向。谷歌大会核心只透一个底层逻辑,不再单纯对 ai 模型性能,谷歌海量搜索流量、十亿级用户数据做底盘,把 g m 代智能体下沉到系统底层,目的不是比拼对话能力,而是剥离手动操作, 让 ai 自主完成生活办公全流程行为决策,从搜索直达执行到手机全程自主打理事务,本质是把用户从操作端彻底解放。谷歌放弃单点 ai 优化权力,布局全域自动化生态,抢占下一代人机交互主导权。

与此前 flash 系列总在能力上做减法的做法不同,他在多模态理解测试叉 z 维斯宁中取得了全场最高分。在 terminal bench 二点一编程测试中得分百分之七十六点两,超越三点一 pro 的 百分之七十点三。在衡量智能体综合能力的 gdp y a a 测试中 取得了一千六百五十六的 i o 分 数。速度惊人,输出速度超过每秒两百八十 token 是 g p t 五点五和 cloud ops 四点七的约四倍。使用成本通常不到其他前沿模型的一半, 甚至在某些情况下仅为其三分之一。强化了网络安全防护,降低了生成有害内容的可能性,也更不异于物俱安全的查询请求。

五月十九日二零二六,谷歌 i o 大 会重磅落幕。谁也没想到,曾经被 open ai 死死压制跌入谷底的谷歌,这次居然彻底爆发,上演年度最强 ai 翻盘。今天,我们来一次性讲透这场含金量拉满、野心十足的谷歌 i o 大 会,让我们把时间拨回大会当天的山景城现场, 谷歌 ceo 劈叉一上台,没有客套,没有话柄,直接播放了一段意味深长的短片。视频里亮出二零一七年那篇封神的 transformers 论文,八位作者的名字逐一浮现,旁边,紧跟着他们后来创办的 ai 公司 logo 屏幕后只留下一句话, he came back。 紧接着,当年论文第二作者 norman shazier 登场,谷歌花二十七亿美元把这位出走的顶尖人才重新买回公司。 短短几十秒的开场,看似简单却暗藏深意,浓缩了谷歌十几年最戏剧性的 ai 城府。要知道,谷歌亲手发明穿梭码,却眼睁睁看着别人靠它引爆 ai 革命。自从 chat 的 gpt 爆火后,谷歌彻底慌了, 紧急拉响内部红色警报。为了自救,他招回两位创始人合并互掐多年的 ai 部门,疯狂收拢外流人才。而这场 i o 大 会,就是谷歌蓄力三年半,正式重回 ai 牌桌,抢回庄家位置的翻盘之战。 熬过漫长的低谷与整改,本次谷歌终于亮出了自己的底牌,整场发布会的逻辑也变得格外清晰。如果说往年, i o 谷歌还在执着比拼模型参数、比拼智能程度,而二零二六年,谷歌思路彻底转变, 整场大会只讲一件事, ai 要从会回答变成会干活。整场发布会的核心关键词只有一个,那就是 agent 智能体。 在众多新品中,本次最重磅的产品就是个人 ai 智能体 geminis park。 它常驻云端后台,哪怕手机、电脑关机离线,也能自动整理邮件、梳理日程、跟进工作, 全天候自主处理任务。也正是这款产品的亮相,标志着 ai 彻底摆脱了被动问答,真正迈入主动代办的智能体时代。不止个人智能体迎来升级,谷歌还大胆对自家核心业务下手,带来了颠覆性的改动。谷歌上线二十五年来最大一次搜索改版, 传统十条蓝色链接,成为过去式全新搜索智能体,可以主动筛选、整合、分析全网信息,把搜索引钱变成私人信息管家。与此同时,搭配强悍的 jamie 三五 flash, 谷歌彻底解决 ai 落地最大痛点,性能超越前代旗舰,速度提升四倍,成本直接压缩至原来的三分之一, 企业再也不用在质量和价格之间两难取舍。在亮眼的 ai 智能体背后,谷歌的野心远不止于此,他还悄悄铺开了一套完整软硬件生态,打算从底层改写行业格局。系统层面,他推出全新桌面系统 amoledos, 打通安卓与 chrome os 壁垒,深度内嵌 ai 能力。同时联手联想红旗推出高端笔记本正面硬钢 windows 和 macos, 强势入局电脑端市场。除此之外,谷歌兼顾开发者与普通用户,完善全维度生态布局。面向开发者,谷歌上线专属命令行工具,简化智能体开发部署流程,降低开发门槛。硬件端还联合三星沟通,推出 android x 二智能眼镜,实现跨设备联动,补齐穿戴生态,完成全品类硬件布局。 从顶尖人才回归到全民智能体落地,再到系统硬件开发者生态全面打通。二零二六,谷歌 i o, 标志着 a g 的 时代正式到来。不难看出,未来 ai 比拼不再是纸面参数,而是更低的使用成本、更强的执行能力、更深的生态嵌入。 这一次,折服三年半的谷歌彻底醒来,你觉得满血复活的谷歌能不能彻底碾压 open ai? 欢迎在评论区留下你的看法。