有没有想过柯南的眼镜会变成现实,而你也可以成为神笔马良,或者把横着的旋律变成一首完整的歌? 感谢抖音科技,抖音精选还有 google 的 邀请,我们在本站的前沿科技首发计划中来到了 google i o 的 现场。那今天呢,就带大家来看一下谷歌今年有憋了什么大招,有什么东西我们日常也可以玩到。 那首先这次我很感兴趣,跟我很相关的就是这个 google flow, 那 它像一个一站式的 ai 内容创作工作台, 你可以在里面创建角色,比如说我就做了一个三面的仕图,那这样下次我用到这个形象的时候呢,就直接可以艾特它。 那这次谷歌也推出了他们这个新的 gemini omni 的 视频生成模型,那整体对真实世界的理解和画面连续性都做的不错。你在这个 google flow 里面呢,也可以用这个模型去生成最高十秒的视频片段。而且你有没有发现它生成后的界面其实有点像一个剪辑软件,所以你是可以对它进行裁剪的, 比如说我可以让他再生成一个片段,那生成之后呢,我可以在后面加上我前一段生成的内容。那如果你觉得这个衔接有点奇怪的话,就可以直接进行修剪,那整一个会大大缩短整个导出再导入剪辑软件的时间。 那除此之外呢,他还有很多自带的工具,比如说这个 transition machine 做转场的就非常好用,那我回答他两个片段,他就会根据首尾帧去生成 prompt, 再做出一个转场,那把两个片段连接起来就非常自然 啊。不仅如此,你还可以制造工具在 create tools 这边,比如说我想做一个打字机的效果,他就会理解你的需求,然后自己 vip code 出来一个新的完全按照你需求的工具。这个让我就觉得他有无限的可能了。 除了视觉之外呢,我觉得他的音乐生成也让我很惊喜。那在现场呢,我也提炼了这个 flow music, 你 可以直接让他根据几个非常简单的关键词,生成一段很能用的音乐, 然后发现他还可以录一段,我们试一下啊,嘟嘟嘟嘟,嘣嘣嘣 叮咚。好,我们来试试看,把这个变成一个,嗯,比较 funky 的 吧,嗯,有点厉害吧。然后告诉大家,这条视频全部的 bgm 都是用这个生成的。 除了视频创作呢,这次也更新了新的 gemini 三点五 flash 模型,速度更快,成本更低,处理复杂,任务更强。那届次也推出了一些新东西,比如这个 gemini spark, 那 它不再是一个一问一答的聊天机器人,而是一个可以二十四小时在云端运行的私人 ai 助手,你关机断网,它都可以帮你干活。那这个 gemini spark 在 gemini 里面呢,它的优势就是可以打通你的 gmail, docs 啊,这些 google 自家的产品。 那在这个现场的 demo 里呢,他也演示了,让他去整理上周,比如说 gemini live 所有的发布啊,还有成绩,他会一步步读取你的文件,自动汇总内容。 而且你看这个 us ghostwriter, 就是 用户做的一个写作 skill, 能够让他写出来的风格更像你自己。那他也可以帮你规划团建旅行这种事情,比如整理报名人数的名单,写邮件,甚至帮你直接生成一个活动方案,就真的有点像一个 ai 助理了。 还有一个很实用的,就是在 jammy 的 侧栏呢,更新之后,它会有个叫 daily brief 的 功能,一键就能帮你挖掘日历啊、邮箱等相关信息,去整理出今天要做的事情。我帮大家试过了,非常的 wow, 你 看这个就是它给我生成的一个 daily brief, 它这个会分类,你看这个就是 品牌合作的一些询问,这样点击一下看,它就会自动帮我抓这个疫苗 回复的。哇,那另外呢,他们这次还更新了整个 jamina 的 设计语言,除了更好看之外呢,他还更懂回答。比如你问他可不可以介绍一下罗马水道桥,他会自己去思考,然后用一个更交互的答案,让你更直观的去理解。 那最后就是触手可及的创作,那他跟 google flow 里面的专业创作不太一样,就会更日常。比如在 google i o 大 会现场,我就体验了首播一张小狗草图拍给 jamina, 加上一句 pro, 他 就帮你生成一段非常可爱的视频。 或者你已经有一张图片,可以在上面标注运动方向顺序,他就能理解你想让画面怎么动,然后生成对应的动态视频。那再简单一点,你可以用直接文字生成视频,比如文字动画变成视频邀请函,让我们在日常的表达里多了一种更轻松更有趣的方式。 除了软件之外呢,这次也有硬件的更新,比如 google 的 ai 眼镜,那我在现场体验的是右眼戴屏显的 demo 版本,你可以用它对着镜子拍照,让 jammin 来帮你换一套衣服,也可以看着眼前的字直接问它什么意思, 那甚至可以看到一张海报,之后让它播放海报上乐队的歌, oh can i film this yeah 哦,那和人对话的时候呢,他也可以实时翻译,那文字呢,就会直接出现在你眼前,非常的酷。在这次活动里呢,我觉得挺有意思的, google 把我们叫做 buddhist, 觉得他不只是传统意义上写代码的 developer, 更像说是所有用技术去创造东西的人, 可以是开发者、设计师、创业者,也可以是像我这样的内容创作者。最后呢,我也在现场问了几位 buddhist, oh from yesterday's keynote do you have something like really impressed you a lot this year oh the sign stuff quite mind blowing like it's actually doing things that i think is really gonna help society i think spark agent agent that gonna like help us 247 even like we shut our phone down or computer down but the things that we want to add sign this agent gonna do for us like we're gonna have like the real agent right the real secretary is the flow music i like how the flow music can help someone like me who's not an expert in music to create really nice music and change all the elements in the music instrument vocal et cetera。 所以 我很喜欢 build 这个称呼,它让我感觉 google 的 技术不止属于工程师,还属于每一个想把想法做出来的人。 那如果你觉得这期 vlog 有 收获到很多的话呢?也欢迎去抖音精选 app 帮我点点推荐大拇指按钮,让更多人看到这一期,那也推荐大家上手试试看这些新功能,也许你也可以创造出属于自己的可能。
粉丝20.8万获赞90.1万

今天凌晨一点, jammy 迎来更新,主播也是熬夜蹲着直播,看看官方这次有哪些重大更新。 jammy 这次发布了三点五 flash, 同时发布了一个新的视频模型 omni, 那 么主播也是在更新的第一时间进行了使用,可以看到在福楼页面中增加了 omni 的 模型,同时推出了 flow agent, 能够围绕我们输入的初步想法,自主拆解并规划复杂的创作工作流。 那么主播接下来进行初步的演示效果,进入页面输入我们的指令,同时上传所需的图片,选择我们的奥秘。接下来效果展示。 对于 flow 中的更新还有很多,比如人物角色的替换,人物一致性、动作流畅度等等,那么后续主播会对 flow 的 更新进行一一的讲解,帮助大家更好地应用到跨境电商视频制作当中。关注加收藏,获得最新消息!

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

谷歌昨天更新的 flow 智能体也太好用了吧,可以直接一次性生成十四张图片,再也不需要一张一张去生成了,一起来看看是怎么使用的吧。今天给大家介绍一下最新的 flow 的 这一个 agent, 呃,特别好用啊,它的最好用的点在哪呢?就是它和一次性生成的图片没有上线。 嗯,假如说大家看到像我当前的这一个画面,我可以给他一个画面,他瞬间呢就可以给我生成十四张完全的这样的照片,大家看到瞬间十四个角度,这都可以了。好,这个具体怎么来操作呢?首先第一个,这是我的根图啊,随便拿一张你的图片出来啊,添加到这里面。第二个,这里使用智能体。 好,然后的话呢,点开这个智能体,好,我把它删掉,添加指令,添加指令之后的话呢,把我们的这一个十四分镜的这个模板给它拉进来,放到这里面粘贴啊,就可以了,点击确认。好,这样子的话呢,那么 他就有了十四个的规则啊,有了这个规则之后,那么你就写关键词叫生成十四张图。好,然后根据以上 十四个以上规则,就是因为我的那个里边是有十四个角度啊,以上规则生成十四个角度 的图片,这样子的话呢,你就直接点击开始。哎,这样的话呢,那么他这边就会稍等啊,他这边就会有这个 需要你确认,如果你是 bro 的 这个会员的话呢,升图是免费的,那么他就会让你确认一下,然后您啊积分啊可以使用,当然你也可以批量的生成多个视频。好,这个是 第一个操作,就是大家可以看到他会瞬间给你生成十四个角度的这一个图片,这第一种的。好,第二个的话呢,那么有了这一个之后啊,那么第二个就是我们以前做画面是使用九宫格的,那么以后我们其实从理论上来说就不再需要做九宫格了,那么我们的九宫格直接就可以变成, 大家可以看一下。好,我们的九宫格直接就可以变成一张一张的图。好,那这个的话呢,也是很简单的直接选择智能体,然后的话呢随便选一张这个九宫格啊,对,这些都是我刚刚已经弄完的。 好,假如说我到这个地方选择这张,呃,前面的这个九宫格吧,选择这个九宫格添加到这里面。好,那么直接生成啊,九宫生成九张图片。好,把以上九宫格图,九宫格图片啊,放大每一宫格。 好就可以了。好,直接点击它就可以了啊,这个时候你看到这里就会放大每一宫格的图片,点击确认。好,那么直接点击确认。哎,这个时候的话呢,他就会收到信息, 就帮你把这个呃画面啊,生成九张这种独立的照片,这样子就可以了啊,效果非常好,包括清晰度,大家可以看一下清晰度, 嗯,没有任何问题。好,这个就是他的智能体的使用啊,非常的方便。好,感谢大家观看。

google 的 基于物理世界模拟为基础的世界模型生成器经历三震撼发布这是一个可以通过提示词输入创造环境并控制角色在里面自由活动的世界生成工具。让我们通过对宣传视频和实力的解读,带大家了解下这款工具带来的震撼。 这不是一个视频生成工具,而是真正能在里面游玩交互的世界。 这里输入对环境的描述,这里输入你对操控角色的描述。 提示词输入完毕后,很快生成了如图描述的画面。可以看到画面中的 w a s d space 可以 对狗进行控制,方向键可以控制镜头,就像我们玩三 d 游戏那样。实时的交互空格键可以让狗跳跃,还可以替换场景中的角色, 看到画面中的狗角色变为了气球,兔子也可以保持角色不变,重新生成场景。你可以输入和操控任何角色。 角色和场景道具可以产生正确的物理碰撞效果, 还可以定义角色的物理属性与交互效果。属性的定义甚至能带来玩法。 这里太令人激动了,甚至可以通过添加自己的图像来生成可交互的世界, 控制自己家的猫也不在话下。 更有趣的是,把自己作为游戏角色输入,这样的交互体验想象力太大了,甚至会改变以后游戏的制作流程。开头的展示就是用户生成的 gta 风格的可交互世界的画面。 接下来是一些用户生成集锦,这里看到生成了几乎和塞尔达和地铁跑酷一样的游戏画面, 可见这个模型采集了海量的游戏画面内容进行训练,是不是未来一句话就能生成游戏了,不再需要复杂的建模和动画?这一天感觉越来越近了,是应该期待还是恐惧呢?欢迎在评论区发表你的想法,这次分享就到这里,喜欢请一键三连,我们下期见!

两分钟带你看完今年的 google i o。 今年 google 主推了两个模型,第一个是 gemini omni, 第二个是三点五 flash。 omni 最主要做的就是视频的剪辑。 gemini 三点五 flash 主要用于写代码,还有做 agent 在 写代码这个板块,他们推出了 anti gravity ide 的 二点零版本,最大的亮点是它可以支持有很多的 sub agents, 它们也在现场演绎了林真骑手用很多的 sub agent 做了一个 operating system, 还是挺厉害的。然后在 agent 的 这方面,他们推出了 gemini spark, 它相当于你的一个个人助理。 你在 spark 页面的左边来讲一下你今天要干哪些事情,然后这个 a 阵呢,就会在右边给你列出所有你要办的事情。手机版本长的是这样子的,跟他讲完你要干的事情以后,你的 a 阵就可以在离线状态下把你所有的事情全部都办完。当然这也不是免费的,它是一百道起。 在搜索方面,他们以前就已经推出了 search mode plus, ai mode 这些可以帮你炒股,帮你找房子。嗯,这次他们主推了一个叫 universal cart, 你 在使用谷歌很多产品的时候都是可以同时购物的,你买的所有东西都会被加在同一个购物车里面,你再刷 youtube, 再看你的邮件, 还有在做搜索的时候,你都是可以购物。里面有个很大的亮点就是针对信用卡玩家,如果你有很多的信用卡,不同的信用卡有不同的积分制度,它是可以帮你选能够最大化你的积分的那张卡的。修图方面,他们推出了 google picks, 比如这张图里面, google pix 可以 把竖屏的照片变成横屏的,也可以识别每个人穿的哪些东西,你把这个人的帽子去掉, google pix 都可以帮你一键修掉。在剪辑视频方面,就是之前说的 jamaican omni, 它可以把你的视频的背景换掉,把人物换掉,也可以生成不同的角度,比如说这是一个静态的图片,它可以通过这张图片来生成十六个视频, 是视频哦,也可以把视频的光源从白天换成晚上,还是看起来非常的真实的。在音乐剪辑方面,他们推出了 google flow music, 可以 把几秒钟的旋律生成一首比较完整的歌,还是挺好听的歌。硬件方面,他们推出了 audio glasses, 就是 带音效的眼镜,你可以用这个眼镜来听音乐,在做饭的时候来听你的菜谱,在走路的时候帮你导航, 可以帮你订外卖。这次的 audio glass 也跟两大眼睛商有合作,第一个是 gentle monster, 第二个是 warby parker, warby parker 的 眼睛长这样,然后 gentle monster 的 长这样。在人文科学方面,他们会主攻两个领域,第一个是预测台风,第二个是研究药物,比如说治疗癌症的药物。



大家好,我是 kitty, 今天我们一起看一下谷歌最新发布的 i o 大 会啊,会上发布了非常多的内容,那有很多产品我们现在可以用,也有很多期货产品。今天的话主要介绍一下我们现在可以用的产品。 现在谷歌每个月处理的 top 函数是非常非常多的,那 jimmy app 呢,现在也是被更多人喜欢。 目前谷歌有十三个产品,用户量是超过十个亿的,非常非常恐怖的量。今年夏天呢,我们就可以在 youtube 上面使用它的 ask youtube 功能。谷歌呢,最近还在 cloud nest 上宣布了第八代的 tpu, 大家可以简单了解一下。 此外呢,这次和我们非常相关的有 omni 模型,还有三点五, flash 模型。这次发布没有发布, pro 模型会在下个月发布。谷歌今天发布的是 omni 的 第一个模型 omni flash, 我们可以在它的 app flow 进行使用。需要注意的是,有用户呢是 out 的 会员,它在使用 omni 生成五个视频之后,甚至无法再使用 pro 或者是 flash 模型了。目前 jamal 它在设置里新增了一个使用限制, 它和 pro 的 一样,也分五小时的限制和啊一周的限制。我就提示它生成一个视频, 那它就花了我百分之二十六的一个五小时额度。除此以外,我今天在 gmail 的 啊官网上去提问的内容并不多, 那我们可以看到已经啊有三分之二五小时的额度已经被使用掉了。如果你是 pro 会员,非常推荐你在 flow 的 平台上去调用,让它生成图片,或者是让它生成视频,因为谷歌每个月会给 pro 用户一千积分的一个额度, 那我们用 omni flash 来生成图片,一张图片呢,十秒钟它就会花费三十积分。而如果说是六秒的视频,那就会花费二十积分。但是它生成的视频呢,和 jimmy 上一样, 都有一个视频的水印,这点是,呃,不是特别好的。如果你在 flow 平台上生成图片,选择它的 nano banana 二, 那是不花费积分的,而且这里呢,是没有水印。这次 flow 呢,还非常好,推出了一个 agent 的 模式, 这和我们在其他的一些 ai 绘图平台上 agent 的 模式是非常像的。我提示它让它去生成这样的一个分镜,拉倒不拉倒。二,呃,即使我选择了 agent 的 模式,它生成的图片分镜也是要比 gbt image 二要差的非常非常多。 之后呢,我就根据 gpt 一 米二生成的图片上传给 flow, 让它来生成视频。 this scent is amazing freshly fried stinky tofu crispy outside and tender inside one bite crispy and bursting with flavor it smells bad, but tastes so good。 可以 看到它生成的音频里面呢,有都是英文。此外,呃,一开始给它的原图里面呢,有都是英文。此外,呃,一开始给它的原图呢,是真人的质感, 原图的话是有一些文字的,而它在最后生成的图片里面是没有相关广告文字的,做的是比较差。所以我后来我就提示让它根据这张图片要生成中文视频。 这香味也太上头了吧,那它生成的视频,这就对了,变成了中文。如果你是在 jimmy app 里面直接提示它生成视频的时候, 就不需要我们像在腐肉里面要再明确提示他一下,这香味也太上头了吧。现炸臭豆腐,外酥里嫩,灵魂酱汁,一口咬下去,爆汁,越吃越上瘾,再来一份,非常不可,香到停不下 啊。即使是这样,那我觉得 flash 在 这里表现的和我一开始给他提供的图片这样的一个分镜啊,相差还是比较远的。所以我后来又提示 gbt 呢,让他改一下。我说我的视频是十秒,让他再重新深图 修改后他就将啊镜头变少了一点。然后呢,每个镜头他是安排了两秒之后,我就取消了 agent 的 模式,上传了这样的一个 gbt 的 图片, 然后提示啊, omni flash, 我 让它根据我上传的这样的一个图片啊,输出中文视频。那它最终生产的这个视频和我刚刚提供给它的图片就比较像了。 这味道也太勾人了吧。现炸臭豆腐,外酥里嫩,一口爆汁,香到上头,闻着臭,吃着也太香了。夜市进店,臭豆腐等你来尝。但是我们也可以看到这个视频里啊,它有很多文字是没有体现在这样的一个广告里。 第二呢,呃,这个视频最后,呃,有文字还是有错误,跟我一开始给他的这样的一个横排的广告分镜还是有较大差别的。呃,所以我个人对 omni 这一次的视频输出的话不是特别满意。 谷歌说 omni 提供了一种更容易的视频编辑方式,用自然语言下指令。他们认为 omni 的 优点是角色保持一致,物理效果站得住脚,还有场景会记住此前发生的事情。 omni flash 它的物理表现是非常不错的, 这两个视频都呃展现的非常好,当然了,你让 omni 来切换不同的场景啊,物体变化也是非常简单的。这次 omni 呢,特别强调是它的物理创建,视觉能力非常强,非常真实的这样的一个 demo。 omni 可以 利用 jimmy 的 知识,把语言图像和 e 连接起来,超越单纯的模式匹配。而且 omni 还可以从短的提示词创建有说服力的解释性视频。 它呢,现在也是支持多个图像文本,视频、音频啊合在一起,并且支持从已有的素材延展创作。 我们可以看到一开始就是简单的一条鱼,然后啊几笔图画最终生成的这个视频呢,啊,就很好的保留了原图的一个参考,还有官方这样的一个展示,我认为啊,对我们来说日常帮助也是比较大的。 呃,有这样的一个啊,插画,然后上方是真实视频,最终做出非常有动效的视频。目前节目奶设置里呢,还支持上传你自己的一个头像 啊,然后融入到视频里。三点五 flash 呢,现在是谷歌最强大的模型,官方展示这样一张图呢,意味着三点五 flash 它啊,速度快, 它的制力能力强。我们通过这张图可以看到 gmail 的 三点五 flash 啊,对比 crowd opt 四点七和 gpt 五点五都是有非常大的竞争优势的。 官方又展示了一些案例呢,非常不错,比如这个案例呢就是,嗯,几百张图片,然后让 gemite 三点五 flash 做一个分类,在提示词里面呢,就有明确提到让它用啊自 agent 来处理。我最近呢也是做了一个图片重命名的应用, 我一开始也是让 ai agent 来帮我实现的,在 ai 编程工具里让它去实现,但是我后来发现,嗯,很多都不能完成。 那我后来是做了一个啊, mac 应用啊,用本地的千万模型来去做这样的一个重命名。那我们看到反重力的 id 里面呢,就能直接去实现这样的一个功能。 而且就目前而言, gemna 三点五 flash 在 反重力 ide 里面,它的使用额度还是比较多的。三点五 flash 呢,还可以仅使用科学论文作为输入来再现 alpha zero 的 可玩版本, 这就说明它的治理能力啊,非常强,而且它可以自我改进。官方还有个例子非常好啊,就是让它来做一个工具。这个工具呢,是可以 调用啊,海量的 agent, 然后让它们去搭建不同的场景, 只要你给他足够的 talk, 那 他最终多个 agent 就 能帮你去生成啊,非常丰富场景的这样的一个三 d 建筑群。谷歌还展示了一些通过 as studio 来生成的应用,比如说你给他任意的论文, 最终这个应用呢,啊,就能帮你生成,非常丰富啊,重现论文里面的各种交互的展示。 三点五 flash, 还可以帮你去生成这样栩栩如生的机械操作呃,领悟感非常强的应用。此外呢,也可以一句提示, 它就可以帮你调用六个 agent 探索呃,六个不同的 ui 设计,除了我们可以在 jimmy ipad 里去使用,呃,三点五 flash, 那 它现在呢,也是 air mod 里的呃,默认模型, 可以帮助我们带来更好的搜索体验。谷歌这次大会还有个非常好的变化是它的 anti gravity 升级了,升级到二点零了。虽然说呃我现在的 anti gravity 二点零登录不上, 但是它现在也出了一个新的 cui, cui 呢是我可以登得上的。现在的 gemini cui 呢,也会逐步迁移到 anti gravity cui。 如果说你之前能登录 gemini c u i, 那 现在登录 anti gravity 啊,还是非常方便的。当我们下载反重力二点零之后,它会呃有这样个提示,是否要下载 ide? 如果勾选之后,那你电脑里就会有两个 app, 一个是新的呃二点零,一个是之前的一个界面 ide。 如果大家之前使用呃反重力的 ide 登录有问题,那现在可以试下它的 cy 安装的话,可以看一下这里。安装好之后,我们就可以通过 agy 来进行交互。初次使用呢,他会让你进行一个授权,我们需要把呃网页上面获取到的一段代码,然后输入到终端里。登录后第一次使用呢,呃,建议直接来到他的设置,把数据收集的这样的一个选项给关掉。 工具调用的源序这块建议啊,直接打开。目前呢, jamal 三点五在反重力的 cy 里面运行的时候,的确速度非常快。呃,但是呢,它的质量如何呢? 这块我会放在最后,大家有兴趣的话可以翻到后面看。现在呢,我将介绍一下新的反重力二点零。呃,我们可以看到它的桌面应用是非常大的升级, 它有动态子 agent, 还有一个呃异步任务管理运行的, 而且还可以用简单的 jason 格式定义 hux。 二点零还新增了一个啊,全新的计划任务, 这和 codas 也是非常像,也新增了一些命令,比如说啊, girl 这个命令呢, crowd, codas 都有,包括 ems agent 也有啊, gryalme 呢,这个 scale 一 开始呢,是由马特啊一个开发者,然后他去构建的 反重力这里用到了这个功能呢,是可以在开始实现之前,反向提问以面对以面对计划的具体细节达成一致。比如这里呢,我就通过使用这个命令,然后后面跟上我的一个需求反重力。不明白的地方呢,他就会问你 啊,他问了我多个问题,最终三点五生成的 flash 啊,结果可能不是令我非常满意,但是前面呢,先和它对齐需求啊,这样的一个功能还是非常好的。最后还有一个功能是 browser, 可能这是在 ide 里面独有的。 cy 里面呢,是没有这样的一个斜杠命令的。反中立官方介绍呢,二点零呢,它的 logo 就是 白色的背景, 而 i e e 呢,它的 app 背景呢,就是一个黑色的网格。谷歌呢,这次还介绍反重力构建一个操作系统,它们让反重力二点零呢,用了一组 agent, 从内核进程管理、内存管理、文件系统到视频和键盘驱动, 构建了一个人运行 freedom 的 功能性操作系统。在构建过程中呢,用到了九十三个字, agent, 以 api 价格来算啊,花了差不多是九百多刀。他们分享的这个案例呢,主要是讲同步和异步 agent 怎么去进行操作的。他们认为在异步交互中,通常不再重要的是模型的性格与行为方式,真正重要的是,模型到底有多聪明。 通过这个例子呢,他们是认为 jimmy 是 一个非常聪明的模型。谷歌还介绍了他们怎么编排这些 agent teams, 这并不是几行提示就能完成的事情,实际上有数千行提示。他们没有让单个 agent 身兼多职, 而是创建了一系列具有专门目标和约束的自 agent 的 类型。我们可以看一下,比如说有调度型管理者,策略分析者,实际编码者,独立审查者,还有测试 啊核验的一个 agent。 他 们还采取了一些技巧,比如说啊,怎么处理上下文长度限制的,一旦达到限制,他就会把完整状态写入 handoff files, 结束自己的后台任务,并且调用一个拥有相同目标和权限的一个啊继任者子 agent 者 后,记者呢?从文件平滑恢复。如果遇到任务堵塞的情况下,他们就会使用新的 scheduled tasks 啊 primitive 设置后台循环进行的定时任务,然后检查各个子 agent。 呃,写录的一个这样的一个进程文件, 所以它们中间是有各种设置的,还有对抗大圆模型,懒惰,它们就会通过一个 auditor 来实现。这次呢,反重力二点零还推出了一个 teamwork preview, 这是一个新的啊,斜杠命令。 这个斜杠命令呢,目前是一个研究预览状态,只有两百多的 out 用户才可以去使用它。 呃,官方建议呢,搭配三点 flash, 使用 timoc preview 的 时候,账单是非常高的。 现在呢,简单来看一下谷歌反重力 cy 的 一些命令啊,刚刚有提到 agi 来唤醒,然后我们可以通过问号,斜杠 at 这些比较常规。 那斜杠命令里面的话,比如说有斜杠 agents, 可以 用来查看管理审批正在运行的子 agents skills 呢,也是比较常规的啊,还有 statelines 这些的话都和 crawl code 是 非常像的 啊。当然我们也可以经常看一下它的 usage, 目前呢 ci 里面也是可以使用 opt 四点六的。 我在登录过程中呢,就发现隔了一两小时之后,它又让我重新再登录。 config 的 话,我们可以来管理 c y 的 配置,刚刚我有提到呃,我们进入之后可以把它的信息收集呢啊这样的一个配置给关掉, 要安装反重力的插件呢,我们可以用这样的一个命令啊, what flows 里那我们可以看一下可以斜杠,然后来触发某一个工作流。反重力呢,还可以用安卓 c y, 这里有一些命令,大家可以简单了解一下。现在来介绍一下如何在呃 a s 九九里面构建原生的安卓应用, 可以通过一个提示词就可以构建高质量的呃安卓应用,它呢使用嵌入式的呃安卓模拟器, 可以在 web 浏览器中创建,并且编辑安卓应用还是比较方便的。我们可以通过 usb 线呢,连接安卓手机就可以通过, 之后就可以通过 a d b 把应用直接安装到设备上,而且它还支持你啊直接把应用呢发布到谷歌 play 用于测试 as 丢丢会自动创建应用记录打包,然后并且上传到啊安卓 play 的 开发者控制台的一个测试轨道, 应用会在几分钟之内就可以安装,非常非常方便。当你需要更高级的迭代的时候,你可以去将它下载下来 啊转移到 android studio 里面进行开发,或者是转移到反重力里进行开发。谷歌介绍他们还会在 as studio 里面添加和安卓相关的 firebase 的 集成。官方呢,还给出了一些呃提示词灵感, 比如说这样的一个提示词就可以让 air studio 帮你做啊,手表的应用,或者是折叠屏的应用,再或者是一个面向吉他手的伴奏练习应用。谷歌现在的订阅方案呢,也有了一个很大的升级, 那 air ultra 之前是二百五十刀的,现在是降到两百刀了,而且还提供了一档是一百刀的 pro 呢。啊,之前是二十刀,那现在还有一个五十刀一个月的。 它们的区别主要是这些方面,一个是呃存储空间的区别,第二呢是 jamming 的 使用上限,目前 pro 二十刀的,它的 jamming 使用上限是普通用户的四倍,总体而言的话,这个额度感觉是大大缩减了。 呃,那它新增了一个非常好的额度呢,就是 youtube 影视权益这块还是不错的,因为现在这个单买也是需要呃九刀左右。因为我平常用谷歌的啊 pro 会员比较少, 所以目前订阅它的这样的一个新的二十刀的啊,还是非常不错的。需要注意的是,如果说你现在订阅它的一百刀的 air force 会员, 那可以在反重力里面去领取一个啊一百刀的奖励积分, 这个优惠是有时间限制的,目前邀求用户是能优先访问一些新功能的,比如说 gemina spark, 还有 project jenny。 最后来看一下 gemina sineon flash 这一次的编码能力 啊,我呢将这样一段提示词和这样的一张图片发给三点五 flash, 想要让他呢啊,帮我去复刻一下啊。工具里我选择的是 canvas, 思考程度呢,我是选择了最大。 那它生成的速度还是非常快的。三点五 flash 呢?它有提示我啊,这里用到了完全自主的一个乐曲,是用 web audio api 来合成的。它生成这个效果是我近期测过多个模型里面 应该是啊和 jimmy 五点五 pro 啊非常接近了。和原图的话,嗯,是也是非常接近。而这样的一个效果呢,是我通过三点五 flash 在呃反重力的 c y 里面生成的。那我们看到这样的一个效果就简单非常多。而我们现在右侧看到的这样的一个效果呢,是我在 a s studio 里面拉拉生成的。那这里的主要区别呢?就是 canvas tool 它带的系统提示词, 目前我还不知道它的系统提示词是什么,但是我们可以看到你用不同的哈尼斯那生成的效果就会千差万别。再看它生成的千夫拉船,这千夫拉船呢,是提示了四次。它生成的这个船还是挺逼真的 啊,我最喜欢的就是它这个水面做的特别特别逼真,整个场景是比较暗的。一开始它生成的是这样的一个场景, 后来我就截图让他进行优化,这是他的优化内容。优化后的这个效果呢,左边能看到船,然后要小心的去移动,才能看到纤夫在哪里。 他把这个潜伏还是画在了呃,水面上,没有看到绳索和潜伏黏在一起。而现在我们看到的是 jamal 外部端 canvas 里面去生成的潜伏拉船。他给到了我好几个不同的镜头视角, 还有船体追踪,江岸全景,船手仰望,除了夕阳落日呢,还可以切换到其他不同的天气场景,而且呢,它这里还有音频。 这样一个页面设计,让我感觉,呃 jamal 三点五 flash 非常非常像 gbt 五点五,不知道它是不是向 gbt 进行取经了,右上角还有个感叹号, 点击后我们会看到这样的一段说明文字,我认为 gmail 三点五 flash 是 一个 mo 模型, 它的参数量应该是比较大的啊,激活量的话可能是相对比较少一点, 它的知识丰富度还是比较强的。虽然说三点五 flash 的 速度非常快,但是它在做这样的简单页面的时候啊,控制台是经常出现这样的报错的, 这个可能也是 moe 模型的一些局限。再看三点五 flash 在 jammer 平台上生成的交通信号仿真, 我们明显感知左边呢,是有非常多的参数,非常像 gpt 的 风格,它在这里啊,模拟还是非常不错的。小车呢,非常像我们现实里的各种小轿车,而且它还模仿了这种转弯, 但是他在路口,我们可以看到这两个车子连在了一起,那正常情况下啊,不太会是突然,车子行到这里就停在呃路中间了。我们会看到这样的交通仿真,车辆非常非常多,但是有 穿模现象,有很多都是错误的。再看 flash 做的仓库分解,同样呢,我们页面上看到啊,它的元素是非常多的,右侧能看到事件日记, 现在是一个红色的正方体,日记里显示抓出了,但是实际上啊,物体是突然之间就没了, 所以它的这个物体获取,它是没有完全展示出来的,它就非常适合做各种页面的一个 demo。 然后我们可以把这张图呢 截好发给 control, 再去实现具体的功能。我们在下方还能看到一个极停功能,点击一下啊,也会啊,这个功能的话演示出来也是也是能展现出来的。哎呀,我觉得他在这问题上还是表现的不错的。我最后给他的任务呢,就是给他这样一张截图, 让他帮我输出中文页面要明亮的主题,页面要美观,最终生成的这样的一个画面 啊,我个人觉得和我一开始发给他的图片还是非常像的,包括他这里用的一些小的图标元素也是比较到位。第二个的方框呢,我们会看到有多个颜色, 那最终啊, gmail 三点五 flash, 他 在这里做的是渐变色的效果,所以这一点上他是还原的不到位。那总体而言,我觉得他在这里呢展示的要点, 展示的这样的一个差异,我个人感觉还是不错的。而且现在三点五 flash 它的速度很快啊,是明显要比三点一 pro 要速度要快很多的, 做这样的页面就非常合适。以上呢,就是今天介绍关于啊谷歌 i o 大 会的所有内容 啊 jamal 三点五 flash, 它目前的价格还是比较贵的,输入一点五刀,输出十九刀。但是如果说编程的话,我个人还是更推荐啊,用 gbt 五点五,希望我的视频对你有帮助,我们下次再见。

ai 音乐圈又出新动作了,五月六号,谷歌官宣呢,和法国音乐发行公司 belief 达成了合作,把自家的这个 ai 音乐创作的工具 flow music 向全球的独立音乐人全面开放了。现在呢,大家用 ai 写歌最怕的无非就是三个坑,第一个就是 工具脱离真实的创作流程中看不中用。那第二个呢,就是版权说不清楚,辛辛苦苦生成的歌到底应该归谁啊,能不能商用,全都是糊涂账。 那第三个呢,就是创作和发行脱节,写歌在一个平台发行又要换好几个别的地方来回折腾,实在是太麻烦了。那谷歌这一次的动作呢,刚好精准的解决了这几个痛点。先来说一说这个 flow music 到底是什么东西哈, 据说这个平台的创始人本身就是乐队音乐人出身,所以这个产品从诞生之初就是为了解决真实的创作里的平静,比如说润色歌词啊,探索这个和声走向啊, 可以适配各种曲风啊,甚至连前奏主歌副歌的这个完整段落的结构和多语言的人声,复杂的节奏设计等等,它都能够全程辅助底层呢,用的还是谷歌最新的 lira 三 pro 这个音乐大模型,专业性绝对是够了, 最最关键的也是所有音乐人最关心的版权问题。谷歌声称呢,用户用这个 flow music 生成的原创内容,使用权完全归创作者,平台呢,不会占一分一毫。哎,听起来确实是解决了大家最大的一个顾虑哈,不过在这里呢,我要先放一个小小的疑问, 用户为此需要支付的使用成本肯定会大大提升的,因为平台要提前帮用户解决版权问题啊。那具体如何收费,谷歌尚未提及, 我们也来敦一个后续的声明。另外呢,这次谷歌选择和 believe 合作,其实也是一部妙棋,因为 believe 旗下有 tuco 这样的这个自助发行平台嘛,那已经成熟地打通了音乐发行、版权结算 啊,百税管理一直到营销推广的全链路。所以 flow music 接入之后呢,等于音乐人可以在同一个体系里面就能够完成从 ai 辅助创作到歌曲发行上线的全流程, 不用在不同的平台之间反复横跳了。其实一直以来,大家对这个 ai 音乐的争议都很大哈,有的人觉得它会取代音乐人,那也有人觉得它只是辅助的工具。在我看来呢, ai 音乐的未来从来都不是替代创作者,而是给创作者赋能。 当版权规则清晰了,工具贴合需求,创作和发行的列录也能够打通,那 ai 就 会成为独立音乐人手里的一把利器,会帮大家把更多的精力放在真正的创意本身。也正因为如此呢,我们公司接下来也有一件大事要提前跟大家透露一下啊 哒哒私爆音乐和我们的总公司众梦音乐集团呢,正在和知名的科幻数字 ip 白月城团队展开一次全新的深度合作,我们要一起打造真正的 ai 音乐宇宙,把 ai 短剧配乐、 ai 虚拟偶像音乐、宣推的 agent 智能产品等等全部打通,用 ai 技术真正的帮音乐人去降本增效,来放大作品的价值。 具体的合作细节,上线的时间后面呢,我会一条一条的跟大家来同步,也非常非常欢迎所有关注 ai 音乐发展的朋友可以一起关注,一起 参与进来。最后呢,也想问大家,你觉得 ai 音乐最大的痛点到底是什么?你期待的 ai 音乐宇宙又是什么样子的呢?关注沙总,了解最真实的音乐行业散会啦!

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

哈喽,大家好,我是 coco, 今天跟大家快速分享一下 google 二零二六 i o 大 会到底有哪些新的更新。首先呢, google 更新了他们的最新的大模型 google flash 三点五,这个大模型从它的内容来看,主打的是一个快,我觉得非常适合一些平时日常办公需要一些文字的输入输出。 这次大更新非常有趣的点,我发现它的大模型是结合了 google 下面的所有生态,所以你可以用 google flash 去串联 google 旗下的所有的应用软件,比如说 youtube 啊,比如说 google drive, 比如说 google sheet, 这些办公软件都可以通过 google flash 一 键串联起来。 第二个大更新是 omni, 从官方的描述来看,它的目标是 anything to anything, 也就是从任何的输入到任何的输出。我觉得这点是非常有趣的,因为我们之前大部分的视频生成都是纹身图或者是图身图的模式,但这次 google omni 可以 从 文字、图片、声音,任何形式的文稿去生成任何形式的内容。并且我从他的官方视频看出来,他输出的内容会更加符合物理的规律。打个比方,以前我们做视频呢,常常会出现人飞在空中,或者是一些不符合物理常识的画面。 这次的升级,不管你用什么样的语言去描述你想要画面,他都会遵循一定的物理规律,让视频看起来更加的合理。 第三个更新的是 google spark, 我 把它称之为美国豆包,它的使用方法跟我们平时使用豆包是一样的,支持语音文字的双输入,并且同样一键串联了 google 所有的生态。 我觉得它非常适合放置在手机里面,然后进行一些远程的办公,或者是户外的时候,通过手机来管理你的工作文档。 最后是 google picks, 我 可以喊它为傻瓜式 ps, 它的功能就是可以在画面里面用鼠标去点击一些细小的点,然后圈出来,用文字描述去修改。我觉得它是可以为一些不会使用 photoshop, 不 会使用设计软件的人提供了很好的一个方向。 我觉得这次的更新大会表现了 google 整体的方向是往广度去做了。与其他两家的 ai 大 厂相比,我觉得 google 的 模式更加是像我们国内的字节跳动一样,他们更希望把 ai 用得更广,用户更多,让更多的人真正的用上 ai。 ok, 以上就是一个速递了。

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

与此前 flash 系列总在能力上做减法的做法不同,他在多模态理解测试叉 z 维斯宁中取得了全场最高分。在 terminal bench 二点一编程测试中得分百分之七十六点两,超越三点一 pro 的 百分之七十点三。在衡量智能体综合能力的 gdp y a a 测试中 取得了一千六百五十六的 i o 分 数。速度惊人,输出速度超过每秒两百八十 token 是 g p t 五点五和 cloud ops 四点七的约四倍。使用成本通常不到其他前沿模型的一半, 甚至在某些情况下仅为其三分之一。强化了网络安全防护,降低了生成有害内容的可能性,也更不异于物俱安全的查询请求。

google i o 二零二六这次信息量真的很大。如果只用一句话总结, google 正在把 ai 从聊天机器人推进到搜索工作流、创作工具、系统界面甚至交易基础设施里。先看模型,这次最核心的是 gemini 三点五 flash 和 gemini on the flash。 gemini 三点五 flash 主打清量高效,但能力明显增强,尤其是编码 agent 和工具调用。 官方给到的重点是输出速度约快四倍上下文,达到一百万 token, 并且已经成为 gemini app 和 search ai mode 的 默认模型。 另外一个是 gemini omni flash, 它更偏多模态创作,从任意输入生成任意内容,尤其覆盖视频生成和编辑, 比如保留视频里的某一片段,只修改其他部分。这说明 google 正在把更强的小模型和更完整的多模态能力直接推到产品一线。第二部分是 gemini。 产品本身, gemini 做了全新设计,网页端和移动端都换上了新的蓝色渐变视角,工具入口也被合并进了一个加号模型选择器,新增了标准和扩展思维水平,设置里也能看到当前使用量和每周限额。 同时, ask max 和 ask youtube 开始支持自然语言对话,以后不只是搜关键词,而是可以直接问复杂问题。 ask youtube 还能给出视频概览、片段定位和连续追问。 dos lab 和 gemini lab 也在加强,边说边写。 gemini 自动整理文档,你说到一半改主意,它也能自动修正。 notebook lm 则可以生成电影级视频概览,还新增多种信息图风格,支持 epec 和导出 pptf。 也就是说, gemini 正在从聊天助手扩展成个人信息和内容处理入口。第三部分是 agent 系统, intigravity 二点零升级为独立桌面应用, cli 和 sdk 同步上线,还支持原声语音。 google 也宣布,在六月十八日后, gemini cli 和 gemini co 的 assist id 一 扩展,将停止对 pro 和 ultra 用户服务,开发者需要迁移到 intigravity cli 现场 demo 也很夸张,九十三个 sub agents 并行跑,十二小时内完成一点五万次模型请求处理,二十六亿 token, 总成本不到一千美元,搭建出一个可运行的操作系统。 还有 gemini spark, 一个云端七分之二十四运行的个人 ai agent, 可以 自动处理 docs、 gmail、 sheets、 slice 等任务。 android halo 则像是给 agent 准备的系统,己主界面能显示 spark 正在做什么,做到哪一步,是否需要确认这里的信号很明确, agent 不 再只是一个功能点,而是在变成完整的工作系统。 第四部分是视觉生成, google pics 变成 workspace 里的图像创作和编辑工具,支持局部修改图中文字编辑、多语言翻译,并且所有输出都会自动加 simid 水印。 内置是 google 的 ai ui 设计工具,可以实时语音写作,边说边改 ui, 还能导出代码,甚至直接发布到 notify, 并和 antigravity 打通。 google flow 继续升级创意工作室,接入 gemini omni, 可以 保留表演动作,只改变环境和特效,还支持十六段不同机位的视频生成,大规模场景修改。 full tools 和 full music since id 则是 google 的 ai 内容溯源技术,已经覆盖超过一千亿张图片和视频,以及六万年音频。 chrome 里右键或圈选搜索就能检查内容是否由 ai 生成。第五部分是 google 搜索。 ai 模拟越火已经突破十亿,而且上线以来每个季度查询量都翻一倍,底层模型也升级到了 gemini 三点五。 谷歌说这是二十五年来最大一次搜索升级,搜索框被重做,支持文本、图片、文件、视频等多模态输入。 b i 会帮你理解问题,补全真正想问的内容。 b i overviews 和 b i m o 会自然衔接,搜索结果页会变得更像对话式追问。 search agents 还能在后台长期盯任务,并主动推送结果。更关键的是, agent coding 进搜索 搜索可以实时搭建定制交互界面,比如直接生成一个能拖拽参数的可适化页面,背后由 anti gravity 驱动,让 gemini 三点五 flash 实时写代码、跑代码、回嵌结果,并且今年夏天对所有用户免费开放。 这意味着 search 正在从信息解锁入口,变成一个能理解、推理并执行任务的 ai 操作层。 第六部分是 agent 电商。 google 推出了 ucp, 也就是 universal commerce protocol, 被定位成 agent 电商时代的 http, shopify etc wafer、 target walmart 之外, amazon metacercast、 salesforce stripe 也加入了技术委员会。 还有 a p r agent payments protocol, 专门解决 agent 代买时的授权和风险问题。它有三道护栏,具体品牌、具体商品、支付金额上限。每笔交易都有可追溯、可防篡改的数字授权记录。 universal card 则可以跨 search、 gemini、 youtube 和 gmail 收集商品,自动找折扣、查价格、历史比对银行卡权益,还能补货提醒和跨商品兼容性检查。 这部分最有价值的不是单个购物车功能,而是 google 正在搭建 agent 加交易的底层协议和入口。 第七部分是硬件和科研。 android x 二智能眼镜继续推进,显示眼镜会继续扩大测试首款音频眼镜预计今年秋天发布。 gentle monster 和 warby parker 负责外观设计,三星负责硬件,并且支持 ios 和 android。 现场展示了导航点、咖啡拍照和卡通话处理等场景。 第八代 tpu 也来了, google 首次采用双芯片路线, tpu 八 t 用于训练, tpu 八 i 用于推理, tpu 八 t 原始算力接近上一代三倍, jackson pathways 可以 把训练扩展到全球超过一百万颗 tpu。 tpu 八癌则重点降低延迟,现场推理生成速度接近每秒一千五百。 tokyo ai 科研方面, gemini for science weathernext、 isometric labs 和 code mender 都有更新,分别指向科学发现、天气预报、 ai 制药和自动修复代码安全漏洞。最后总结一下,这次 google i o 二零二六释放的最大信号不是某一个产品更新,而是平台化 模型继续往前推, agent 成为新主线, search 和电商工具 x r t p u 和科研也都被纳入同一套 ai 平台里。 所以如果要给这场发布会找一个关键词,那就是 google 正在把 ai 从模型能力推进到产品界面、执行系统和商业基础设施。

大家好,今天早上,呃, google 开了他们的 i o 大 会,然后也正式推出了 gemini 三点五 flash 的 新的模型,然后我们现在来快速测一下,看它的能力怎么样。 这第一个我要它创建一个 ppt, 然后大概是一个呃客服的一个系统,然后要六页 ppt, 然后它们的字体要清晰啊,然后要每个问题有一个,呃自己的一个,嗯, 要产品要有一个,然后问题有一个,价格有一个,然后啊,等等最后的一些一个流程吧。然后他根据我的需求呢,先制定了一个计划啊,这是他的计划,然后我可可以继续,我们看一下怎么样,这个地方需要跑,那我就继续。 好,这个结果出来了哈,就是就是他做的 ppt, 感觉这个审美还是非常在线,比这个 codex 我 感觉强不少, 就是字体啊,或者是它的这个选择的颜色,还有这个动画设计啊啊,都是挺不错的啊,觉得可以,我们干第二个测试吧。第二个测试的话, 我跟他说要一个这种啊大览图,然后需要有这个产品的一些按,按不同的进行分类,然后他也是啊,搞了一个这个计划 啊,主题啊,字体啊,然后它的画面啊,它的这个整个结构啊,它应该怎么样去去设计,然后它的边框啊,它主要的画板等等,就是它自己有一个有计划以及验证,这都差不多,跟 codex 跟 cloud code, 我 们待会儿看一眼 效果用,哎,好了,第二个也做好了,我们去看一下啊,这是它的一个整体的状态, 都还有各个的一些详细的数据 面框, 根据这个自动进行一个变化,然后它的,哇,感觉这个完全没问题啊。就是这个,我的 u i 还是很能打,前端确实比这个 open i 强不少。我感觉再看一下第三个,三个我要它做一个小游戏吧,看它能不能做。 对,这边同样是有一个,先有计划,然后让你继续啊。 对,这个就是在浏览器里面做一个小游戏,然后就是这个用来收集一些啊 token, 然后用你的键盘去控制上下左右啊,然后重启啊等等,看看行不行。 对啊,这边还是反复地出现这个,而且你点一它不好使,你必须点 submit。 这个是就是他们新的这个 啊, i d e anti gravity 就 反重力。我觉得这个设计还是一个是抄了 codex 二,一个抄的还不好啊,挺挺值得被吐槽的我觉得。 而且他们,呃,我看他们最新的这个就是这个叫 anti gravity, 它另外有一个,如果你想要看它具体代码,就像以前的 i d e 一 样,它把它原本的那个名字改成了 i, 就是 把这个新的,把这个名字 啊做成了新版的 anti gravity, 但是原本的那个就叫做 anti gravity i d e 就 重新改了一下名字啊,也是让人挺摸不着头脑。嗯,有点奇怪。 嗯,看起来也好了,我们去看一眼啊,这是这个游戏的一个页面,我们看看他,是他说哎呦,它是有音效的哇,这个怎么?嗯啊,要接住 a p i, 然后接住接住绿的这个意思吗? 对,那就是要避开对不对?嗯啊对, 让我自己死一下嘛。会重启只有一次 ok 啊,最后得分,然后重启 ok, 还挺有趣的,就是整个没什么问题,音效也很好,然后动作也很连贯,不错不错,达到了这个要求。好,我们现在再看另外一个测试吧,就是一个三 d 的 模型,看它行不行。 三 d 模型啊,相当于要用那个 three d j s 去创建一个,然后是一个旋转的,同样有一个计划,然后让它执行, 同样的我们继续 使让它进行跑这个脚本, 然后这要是做完了,我们可以看一下,哎,中间有遇到一个错误,然后我修复了一下,我们可以看一下啊,工作了十九秒,然后它就生成 三 d 的 for harvard 的, 上面 这个有三点五。 有点看不明白哦,这个是什么东西? ok, ok, 相当于你把鼠标放在上面,它会显示各个模型的一些细节,它感觉整个是一个,它在晃动,现在我点上去之后,它在来回的晃动,也看不清楚,然后这个下边可能会显示一些这个,呃, 基本的东西,就是不动,拉不动,这个有一点点拉垮了,效果不太好,有点,有点不太行。 先看一下他们这个评分的一个标准,他们就今天早上刚刚发布的这个三点五哦,他们在扣顶上,是这边,是啊,七十六点二,然后仅次于这个五点五,然后比这个四点七还要高哦, 然后比之前的 pro 是 他们的轻量级模型啊,他说比他之前三点一的这个 pro 版本还要高哦, 然后就是这种就是 agent 的 能力, agent 能力也是远远的超过了前两个。就是这种啊,也超过了 opus 四点七,仅次于这个五点五,然后 看一下,就总的来说还是像这种打这个中的都是啊,搜塔就相当于是最高分的,感觉 从评分上来看是很优秀的,但是在网上其实已经很多人出现吐槽,就是实际上生生产用起来就是不如啊,首先不如五点五也不如这个啊, opus 四点七哈,这个是大家的一个目前来看测评的一个结果 啊,所以我这边测评主要是看一下前端是不是还是一样能打。因为啊, jennifer 来说他们的一直设计这一块啊,是比那个呃周鹏 i 要好一点点。总的来说就是啊,我的个人体验就是 啊 gemini 这个三点五 flash 我 觉得一般般,就是我如果你要问我日常啊,工作或者是生活,又会用这个啊来作为我的主力模型吗?我觉得答案就还是不会,就是我本来现在用的也不多,因为啊,它在逻辑推理啊以及这种 agantatic 的 能力上还是 明显的弱于 open i 跟这个 cloud。 所以 啊,我会持续关注吧,因为他们下个月应该会推出他们的三点五 pro 啊,那会是他们的旗舰模型,也希望到时候他们能够啊奋起直追啊,这样就是不要被他们两个另外两家落下太多,有机会大家也可以去试一试。

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

大家好,我是 ai 启示录。距离谷歌 au 大 会还有不到四天时间,整个 ai 圈突然被一个提前泄露的消息彻底搅动了。原本所有人都以为谷歌这次会按部就班发布 gemini 三点二,结果就在二零二六年五月十五日,多个独立爆料人同时确认, 谷歌直接把版本号从三点二跳集到了三点五,代号卡布奇诺的 gemini 三点五 pro 检查点已经开始产出。 让人意外的是,这次泄露的内容远远不止一个模型更新,从能直接生成完整交互式外部应用的多模态能力,到一个二十四小时全天候待命,甚至可能不问你就替你下单花钱的全时 ai agent。 谷歌几乎把原本要在 i o 大 会上讲的所有重磅内容提前四天全部摊在了桌面上。 但就在所有人都在讨论谷歌这次终于要狠起来了的时候, the verge 的 资深记者亚利克斯希斯从多个内部信源得到的独家消息却给这场狂欢泼了一盆冷水。他明确表示,下周二发布的新款 gemini 性能最多只能追平 openvi 的 gpt 五点五,距离目前公认的前沿模型 missiles 还有明显差距。 一边是跳级命名的重磅更新,一边是成本低十几倍的轻量模型,一边是依然落后的编程能力。 今天这期视频,我们就把目前所有已经确认的信息拼在一起,看看谷歌这次到底拿出了什么,又到底在打什么算盘。先从已经确认的事实开始讲起,这次泄露最早是从网友 lentos 开始的,他在 x 上放出了 gemini 三点五 pro 的 首批输出结果, 其中最让人印象深刻的有两个例子,一个是 dualshock 四手柄的交互式蓝图拆解,另一个是提壶骑自行车的矢量插画。可能很多朋友对这两个例子没有概念,以前的 ai 生成 svg 最多就是输出一个静态的矢量图, 但这次 jimmy 生成的已经不是简单的图片了,而是一个完整的交互式 web 应用。那个提壶骑自行车的例子,自带七个维度的定制面板, 你可以实时切换车架颜色、光照效果、提壶的头饰、车篮里的内容,甚至是蹬车的速度。所有这些交互都是用一个 prompts 直接生成的,不需要任何额外的代码修改。 这解决了 gemini 长期以来被社区吐槽最多的一个问题,懒。以前你给 gemini 一个生成 svg 的 提示,它经常会输出一个非常敷衍的结果,细节缺失,功能不全。但这次不一样了, 同样是 lantos 的 测试,它只用了一个非常简单的提示, gemini 就 直接输出了四个风格各异、细节拉满的机器人使用图, 每一个都可以直接使用。同期泄露的 gemini 三点五 flash 版本的跑分也印证了这个趋势。 lm arena 的 匿名测试显示, flash 版本在 svg 生成、交互式三 d 编码和动画处理上已经超过了之前的三点一 pro 版本。更炸的数据来自 apex ai 的 首席执行官缤度雷迪, 它放出的数据显示,即将发布的 gemini 三点二 flash, 也就是现在改名为三点五 flash 的 这个版本,在编码和通用推理能力上已经达到了 gpt 五点五的百分之九十二,但 api 成本却只有 gpt 五点五的十五分之一到二十分之一。 这个数字如果属实,对于整个行业来说都是一个巨大的冲击,因为它意味着谷歌的蒸馏加稀疏化技术终于开始收获实质性的回报。他们成功的把前沿模型的能力压缩到了一个轻量版本里,而且没有出现之前大家担心的质量断崖。 不过,真正让整个行业感到震动的还不是模型本身的性能提升,而是谷歌同时泄露的另一个产品, gem spark。 根据 testing catalog 提前发出来的 genomy 网页版隐藏代码,谷歌正在测试一个名为 genomy spark beta 的 全新功能。 它的定位非常明确,你的日常 ai 智能体全天候待命。这不是我们之前见过的那种需要你主动发指令才能工作的聊天机器人。 spark 是 一个二十四小时全时运转的后台程序, 它可以替你处理收件箱,执行在线任务,管理复杂的多步骤工作流。为了做到这一点, spark 会从非常多的来源获取你的个人数据。 根据官方的引导文本,它可以访问你已连接的所有 google 应用,你的聊天历史,你设置的定时任务,你已经登录的所有网站, 谷歌的 personal intelligence 信号,甚至是你的实时位置信息。更重要的是,为了完成任务, jamie 会把你的姓名、联系方式、文件、个人偏好,甚至是一些你可能认为敏感的信息分享给第三方服务提供商。 这里有一个非常关键的细节,也是目前争议最大的地方。谷歌在风险提示里明确写道,虽然 spark 在 设计上会在执行敏感操作前征求你的许可, 但他可能在未经询问的情况下分享你的信息或完成购买。换句话说,他有可能在你完全不知情的情况下用你的账号下单买东西, 也有可能把你的个人信息分享给你根本不知道的第三方。为了保持绘画的连续性, spark 还会保存远程浏览器数据,包括你的登录凭证和远程代码执行数据。当然,谷歌也提供了相应的控制选项, 你可以在设置里清除这些数据,关闭已连接的应用或者删除你的活动记录。但这个功能本身的激进程度已经远远超过了目前市面上所有的 ai agent。 根据掌握的信息, spark 的 前身是谷歌内部代号为 remi 的 agent 项目,之前只面向 google ai ultra 的 订阅用户开放。从 remi 到 spark, 谷歌把 agent 从 gemini 的 一个附加功能直接升格成了一个七乘二十四小时的数字生活管家,这也让他直接站到了两个最强大对手的对面, antropic 即将发布的托管 agent conway 以及 openai 已经上线的七乘二十四小时 agent 的 平台。 除了 spark 之外,这次泄露的模型选择器界面还透露了另外两个非常重要的变化。第一个是谷歌原声支持了 mcp 第三方工具接入。 在模型选择列表里出现了一个之前从未见过的分类,叫做 m c p two testing, 也就是专门用于测试 m c p 工具的模型。这意味着谷歌终于开放了通用的第三方工具生态,而不是像之前那样只能使用谷歌自己提供的有限工具。第二个是思维模式的全面重构。 之前 dammit 的 thinking 模式是一个独立的开关,你需要手动打开才能使用。而现在,它变成了一个全局开关,分为两档, standard 模式适合大多数日常问题, extended 模式则用于求解复杂的长链条问题。把这些变化放在一起看,你会发现谷歌这次的更新其实是一次非常全面的体系升级,而不仅仅是单个模型的性能提升。从模型能力到工具生态,从交互方式到 a 阵的形态, 谷歌几乎对整个 gemini 产品站进行了一次彻底的重构。不过就在所有人都在为这些新功能感到兴奋的时候,亚利克斯希斯的独家爆料却给我们展示了事情的另一面。 希斯在 ai 行业有非常可靠的内部信源,他之前的很多爆料都被证明是准确的。这次他明确表示,根据多个接近 deepmind 的 消息人士透露,下周二发布的新款 gemini 整体性能大致落在 gdp 五点五这个档位, 距离 entropica 的 missus 还有明显的差距。这个评价其实非常耐人寻味,因为就在半年前 gemini 三刚发布的时候,它凭借着 lm irina 一 千五百零一分的一流评分, 几乎横扫了所有主流排行榜的第一名。但仅仅半年时间,随着 gpt 五点五、 cloud opus 四点七和 missus 的 相近发布,整个行业的格局已经被彻底改写了。英国 ai 安全研究所的评测显示, missus 是 第一个同时通过其两套网络安全测试范围的模型, 而 gpt 五点五只通过了其中一套,该研究所甚至公开承认,他们现有的评测框架已经快要跟不上 msiles 的 能力发展速度了。也就是说,谷歌用了半年时间,终于追上了 openvi 上个月发布的模型,但依然没有摸到目前行业最前沿的边。 而在所有能力当中,最让 deepmind 的 内部感到焦虑的就是编程能力。希斯在他的爆料中,对编程部分的措辞是最重的,他说 deepmind 的 内部正面临着切实的压力,尤其是在编程能力方面,需要迎头赶上,而他们追赶的主要目标不是 openai, 而是 android。 过去一年, cloud 在 开发者群体中已经坐稳了默认编程工具的位置,不管是个人开发者还是企业团队,越来越多的人开始把自己的工作流迁移到 cloud code 上。谷歌当然也有自己的 ai 编程平台,叫做 anti gravity。 这个工具在谷歌内部用的非常多,但在外部市场的表现却非常惨淡。 根据公开数据,它发布四个月以来,开发者采用率只有百分之六。这个数字对于一个 ide 来说其实不算慢,但跟 cloud code 和 open icodex 的 势头比起来,差距就非常明显了。 问题到底出在哪? xda 开发者论坛上个月做了一个月度评测,让三个主流的 ai 编程工具完成同一个复杂任务, 结果显示, cloud code 第一次就准确理解了用户的创意提示,输出了符合要求的完整代码。而谷歌 anti gravity 的 输出用评测者的话来说,就像是用微软画图做出来的涂鸦,完全无法直接使用。 除了能力上的差距之外, anti gravity 的 定价策略也让很多开发者头疼。谷歌已经多次调整过它的定价模型,从最初的免费预览,到后来的信用点制度,社区论坛上关于额度用完没有提醒、莫名其妙被扣费的抱怨一直就没有断过。 但最为关键的问题在于,如今 ai 编程已经彻底出圈了,它不再只是专业开发者的工具,产品经理可以用自然语言描述需求,直接得到可运行的产品原型。设计师可以把 figma 搞丢进去,直接拿到可以上线的前端代码。而到目前为止,谷歌没有任何一个产品能够进入这个赛道。 当然也有不同的声音,知名 ai 行业分析师海德尔就提出了另一个视角,谷歌可能并不打算通过跟别人跑同一条赛道来取胜,他们更大的重心在于打造一个更强大的多模态系统,而这需要更长的时间和更多的投入。把这些信息拼在一起,我们其实可以看到一个非常清晰的行业格局, 三家巨头正在三条完全不同的赛道上同时踩下油门。 openai 的 打法是靠迭代速度碾压,他们保持着几乎三周一个新版本的更新频率,不断推出新的功能和性能提升。 就在昨天, openai 刚刚给 codex 追加了 ultrafast 模式,把速度提升了两到三倍。同时还寄出了补贴站,三十天内切换过来的企业用户可以享受两个月的免费使用。这个政策推出仅仅三个小时,就有两千名开发者响应。 antepaper 的 打法是靠模型质量封神,他们不追求最快的更新速度,但每一次发布的模型都能重新定义行业的前沿标准。 missus 的 出现已经让整个行业意识到,我们可能比之前预想的更接近通用人工智能。就在 openai 推出补贴站的同一天, antropic 也同步放出了 open 四点七 fast 的 模式,并且把 cloud code 的 额度提升了百分之五十。而谷歌的打法则完全不同,它们既没有 open i 的 迭代速度,也没有 antropic 的 模型质量,但它们有两个对手都无法复制的优势, 十亿级的用户分发入口,以及完整的生态系统。这就是为什么谷歌这次会把这么大的重心放在 agent 上。 spark 一 旦正式铺开,它就可以接入所有谷歌用户的 gmail 日历、云端硬盘、地图、购物账号。 用户每天产生的海量邮件日程、浏览购物数据,都会反过来为给 gemini 用于下一代模型的训练。 这是一个 open a 和 antropica 都很难复制的飞轮,它们可以做出更强大的模型,那它们没有办法像谷歌那样,把 ai 直接塞进十亿人的手机里,获取最真实、最丰富的日常数据。而这场表面上看起来是抢开发者的补贴战,底层逻辑其实比这要深得多。 现在已经可以确定 gpt 五点六的开发过程,有 gpt 五点五的深度参与,未来的 ai 模型会越来越多的。自己写代码,自己改进自己,谁掌握了编程工具的用户,谁就掌握了这个自我改进循环的加速器。这才是三家巨头不惜血本打补贴战的真正原因。 他们抢的不是现在的那点订阅收入,而是未来通往 asi 的 入场券。对于我们这些每天都在使用这些工具的普通人来说,这场军备竞赛可能是二零二六年最划算的一件事。 我们会看到越来越多的补贴、越来越高的使用额度、越来越强大的模型以及越来越低的价格。但同时我们也面临着一个越来越重要的选择,你的工作流到底要压在哪一条赛道上? 是选择迭代速度最快的 open ai, 还是模型质量最高的 and so fix? 还是生态最完整、分发能力最强的谷歌?这个选择可能会在未来几年里直接影响到你的工作效率和竞争力。我是 ai 启示录,感谢点赞与关注,我们下期再见。