粉丝2082获赞9.1万

谷歌的界面的三点五正式上线了,整体的实力大幅提升,在多模态识别代码的边写以及智能交互体验都相当的不错,运行也很丝滑流畅,还支持大容量的上下文创作和办公,都很适配, 新手也能轻松的上手使用。大家好,我是温谷,我相信有很多小伙伴们已经在界面的官网中已经使用了三点五这样一个模型,我教大家三个使用方法,适合自建工作流, ai 的 写作、文案生成、图片、海报和抖音运营的同学。 第一,课请求调用,适合在工作中前开始调试。第二,通过 python 代码的 sdk 的 调用,适合自建 skills, 最后给 open claw 和 hammer agent 使用。第三, n 八 n 工作流使用,适合打造自己的数字能演示。一,我们用这个课请求来试一试, 好吧,然后课请求就是 c u r o, 这个大家可以往上搜一下,大家可以看一下,就是我这里 api 的 端点,就是 generate language, 谷歌点 api 点 com, 请大家注意一下这个,它不是一个呃, open ai 的 标准的一个模式,就是 如果你是那个 open ai 的 一个标准的模式,它应该是左斜杠杠归,然后再左斜杠 chat 它,这个不是,所以说我们一般做调试用,可以看一下这里面,我这边的这个,你看它后面紧接的模型是 jame 三点五, flash, genevate content, 然后 key 就 跟到我这个 key 啊,这个这个,我 key 把它暴露出来没?其实没有关系啊,因为反正这也是免费的,你看他是,你是一个专业的专业助手,解释一下什么是 leg 这个技术啊,他就已经回复了,从那里看这个这么多模型。那其实啊,这也不是我说的是这个,这个我给大家看一下, as 丢了的话,你去 get 这个 apikey 啊,我这里有好几个 apikey, 拿到这个 apikey 以后,哎,你就可以去做这个啊,就可以去把这个呃,你的 apikey 放在这里就可以做调试使用,调通了以后,你再把这个再去放到代码里面进行调试啊,然后这里它有一个这个 这个限制的。在这个地方啊,你可以看一下这里的 c 末啊,有个三点五 flag, 我 找一找啊,他这个用这个表经常会刷新的,哎,这个有个 jimi 的 三点五是吧?这是个文本输入过大模型, 它的 p r m 也就是每分钟的这个 token 啊,就每分钟五个这样是吧? t p m 这个是代表它每分钟的 token 数,它每分钟给了你两万五千个 token 啊,所以说你养龙虾可能够呛,但是你做这个自动化变卖流啊,是吧? n 八 n 啊,包括底价都是没任何问题,它一个这个分钟应该是可以, 应该是每秒了,是吧? pick lock, 那 每分钟给允许你掉五次是吧?每每分钟给你两万五千个头等,这应该是够用的啊。这个这是最最近昨天更新出来的,因为昨天这个谷歌二零二六的开发者大会是公开了个 gmail 三点五 啊,然后那个杠 max 啊,还 pro 还没有发布吧?应该是啊,但是呢, flash 应该非常强了啊,非非常强,他现在给大家免费的话,呃,大家一定要去用啊。然后第二种用法的话,就是我这个地方调了一下这个这个这个这个这个地方给大家看一下,就是 啊,这里是生成一一张什么图片啊?这这这个倒没什么,这个是我,我那个是纹身图的,是吧?我这里是用的这个谷歌的追未来的一个这个 sdk 啊,大家去引入这个 sdk 啊, flunk 谷歌 input 的 追未来 ai, 然后你下载它的 sdk 就 可以用了,是吧?然后再把我的 api 放进去,你可以跟我老师给大家演示一下啊。好, 我逻辑了下,我这里可以总共使用有五十二个模型啊,有些是收费的,有些是免费的,然后等一等, 哎,这里出来了,是吧?做的是一个让他设计这个一个品牌的一个文案,是吧?文案是吧?对对对,好, 那第三种情况也是大家常最常用的,就是这个在 n 八 n 里面这么用的,我把它拿过来给大家看一下,这个是刚刚跑出来的结果啊,之前我演示的是这个,用这个魔大平台,这个地方我用的是谷歌的,是吧?谷歌的这个是吧?然后这个地方你需要把这个 api 塞上去,哎,这里塞上去以后它连接成功了,连接成功了以后, 在这个地方你可以选择它的模型了,是吧?你一定要选择三点五是吧?最早啊,就是上周前指的免费的模型,就是街面的二点五那个比较拉快啊, 是吧?已经谷歌让我们二点五已经是发布两年前的模型啊,这个是昨天最新的模型,呃,比较强大。其他的都是收费的啊。其他这个 pro、 pro、 vivo 啊,包括这个 max 啊,都是收费的。但是三点五 plus 目前是免费的啊,为什么是免费的?刚刚跟我老师给大家看的是谷歌官网,是 是选选择,目前是现在是免费的,应该他在开发者大会上已经说了这个是免费给大家用,我相信他也不会说他给大家用一两头就关掉他,是吧?谷歌应该丢不起这个脸,是吧?好,然后这个给大家跑一下吧,对, 跑一下,这个乱乱一下就好了,哎,这个我是做了一个这个新闻的整理啊,就是第一步就是我再去搜索这个新闻,是吧?然后搜索到新闻,最后拿到这个新闻的素材,是吧?然后把这个套的新闻给我整理出来,最后拿到这个话我就会发到什么,是吧?是吧?某某抖是吧? 啊?你看这个是今天上午啊,五月二十一号的 a i 新闻,等等等等,是吧?是吧?噔噔噔噔噔,好,这是我今天给大家三个用法,希望大家去调试和使用,有问题的话小伙伴可以在这个评论区留言,我看到都会回复大家的。

昨天谷歌发布了新的模型哈基米三点一 pro, 如果我们只看名称的话,就会发现他只提升了零点一,那是不是能力也只是提升了一点点呢?并非如此,这次更新虽然是一个非常小的版本,但是他的整个推理能力有了一个非常大的跃升。而且我们看他官方展示的例子,只能说明官方很懂啊,他知道自己模型的强势点在哪,就是前端视觉, 所以他们展示的是一个视觉方案。那么这只是卖家秀,接下来呢,将给大家展示买家秀是怎么样的。 首先来到战备贷官网,不管你是什么账号,都可以进行使用,只不过额度不相同。就比如说我现在是一个免费的账户,点击右下角可以切换到 pro 模型,它默认使用的就是三点一,一个经典的小游戏,让它加上了音乐, 我与板栗仔不共戴天,就是我这个免费账户,只用它生成了这一个案例,然后就已经达到了限额。然后是我的 pro 账号,让它生成了一个动画 svg, 展示一只穿轮滑的鸵鸟,我觉得还是非常让人满意的,只不过这个行走动作呢,有点奇怪,像是倒着走一样。 只要你是付费用户呢,你这个额度其实就非常多,可以一直去用,但是相应的他也学会了 open 那 一套,对一些账户呢,给你随记录邮也就降至免费版,虽然次数少,但他肯定不会给你降至,原因呢,就是因为他肯定要让你看一个非常好的效果,然后你才会愿意花钱去购买他们的套餐。至于你已经购买的了,我就随便给你路由,一会让你好用,又让你不好用。 这个就比较烦人了,学坏。给大家看一下我其他的生成效果,重复了很多次,有的降智了,有的不降智。就比如说这个,当我点击皮卡丘的时候,他会有一个闪电。 我靠,但是有些时候他做的还挺好看的。你比如说一个精灵球,我去释放,然后会出来一个皮卡丘,它整个质感是不错的,只不过耳朵的位置错了。我也可以去继续跟他聊天,让他去纠正,他是可以纠正的。我测试过 制作一个赛车飞速行驶的 svg 动画,那它呢?就会自动帮我们进行设计,去思考应该怎么做。那最终结果是这样的,你可以看一看,是完全可以用的,非常的惊人。 但是因为我刚睡醒啊,有点起床气,没有那么激动。什么意思?在同样的提示词下,拆 gps 的 表现就非常的糟糕。而 cloud 的 欧帕斯四点六同样非常惊人,完全可用的状态。那国产模型里边 dbc 老师生成的呢?也是非常幽默,那可以看一下是飞驰。 哇哦,那现在我们再来看 jimmy 生成的这个,这样对比之下,我们就能发现他的细节比上面两个模型要好非常多。不过这个时候呢,可能有朋友要质疑, 那你生成个 svg 有 什么用啊?就只是看着好看,好像没什么用。拜托,这是 svg 啊,他是一个矢量图,这个意思是不管我们放大多少倍,他都是没有像素点的。就比如说,我们可以直接把这一段矢量图放在我们的网站中,我之前他制作一个精致的赛车网站,把 svg 动画当做头图展示, 直接让他来进行生成,这网站虽然生成了,但是说实话,配色整体的感觉是非常丑陋的,所以呢,我让他变得高级优雅,有设计感。这几个词呢,几乎已经被他训练在里边了,他一检测到这个词他就知道了啊,你想要一个那样的, 我就给你个那样的过礼盒了。属于是现在我们再来看这个风格呢,就变得非常高级了,包括这个车的颜色呢,也进行了重新设计。 哎呀我靠,艺术,这就是艺术。我这里呢还让他做了一个小小的演示动画,就是先是一个手机,然后变成赛车在赛道上跑,然后赢。我看一下 整个动画呢,可以说是非常流畅而且很巧妙。这个模型对于一些三 d 效果呢,做的也是非常不错。就比如说我让他制作了一个图书的网站, 然后是三 d 悬浮的书,然后可以这样去滑动去选,还让他制作了一个三 d 的 赛车游戏,你可以注意一下这个车上面的灯光反射做的非常好啊,还有这个碰撞, 每撞一下速度就会减慢,撞三次就死亡了。然后就是经典重现 mac os 系统,哇,整个图标的设计呢,也变得非常好看了哈,挺可爱的。 还有这个小游戏对赢家 x 贪吃蛇,这能放大吗?还可以全屏细节,还能在系统设置里面呢,去设置壁纸。 哎呦,总之这个版本的更新呢,前端依旧是非常的强劲,那至于后端,我们有更好的选择,高的欧巴斯, openid, 酷拽的都是不错的。 至于 jimmy 的 话,就写写前端吧,他们好像是要在前端的路上一去不回了,要走到头,依旧牛大了,依旧无敌,非常的寂寞。各位如果感兴趣的话,可以下去自己试上一试, 得出自己的结论,不要看我怎么说,也不要看别人怎么说,好不好用你用不用,最终呢还是自己来决定的。那以上呢,就是本期视频的全部内容了, 对你的帮助和这个视频做的还不错的话,欢迎给个一箭三连,有什么想看的内容呢,也可以在评论区留下你的足迹。那最后祝大家新年快乐,今天已经初四了,年都跑远了,给大家拜个晚年。依旧祝各位晚年幸福,晚年安康,我们下期再见!拜拜!

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

gemini 三点五 flash 发布三天变美国大豆包,这不是什么野鸡 ai, 这是谷歌三天前才在 i o 大 会上吹上天的 gemini 三点五 flash, 官方说它速度是一重一线 ai 的 四倍,性能远超自家前代旗舰,二十四小时不到就开始降至现在全网统一评价。快是真的快,蠢是真的蠢,它唯一的优点就是更快的告诉你错误答案。 有人让他写个护肤科普,肩带三点五开始犯病,直接给你输出几十行,死死死。 有人让他算三百加一百四等于多少,他一本正经的告诉你,等于四百六啊。很多人说这是谷歌的服务器,顶不住偷偷砍算。我翻了几百条开发者社区的贴子。第一个真相,他的默认是 high 档位, 而三点五 flyx 官方写的是 medium, 但实际逆向出来的却是 low。 为了达到二百八十九 tok 每秒的恐怖速度,他把所有能省的步骤都省了, 深度推理砍了,逻辑较验砍了,甚至连最基本的算术计算都懒得调用工具。第二个真相,它涨价了三倍,还更费 tok。 上一代三 flyx 的 每百万输出是 tok 零点五美元,输出九美元。 更坑的是,为了完成同样的任务,他会在后台进行更多无效的自我修正,导致 token 的 消耗量平均上涨了百分之四十。第三个真相,发布会吹的 computer use 功能上线直接没了,官方连个解释都没有,好像从来没提过这事一样。 那谷歌为什么要这么做?答案很简单,下个月要发布三点五 pro 了。这是谷歌玩了无数次的老套路,先发布一个吹上天的阉歌版,让所有人来测试,把流量炒起来,等大家骂他笨的时候,再推出一个真正好用的 pro 版,让你心甘情愿掏钱。而且他还故意把旧的 flash 模型下架, 要么用轻的更贵的 flash, 要么等更贵的 pro。 也许从某种角度来说,人家这是精准的商业算计,用一个阉割版模型吸引了全球流量,还涨了价,顺便为下个 pro 版铺路。大模型的军备竞赛早就变味了,现在比的不是谁更聪明,而是谁能把用户当韭菜割的最舒服。

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

就在刚刚五月二十号凌晨一点的时候,谷歌的开发者大会正式的开始直播,那肯定有很多朋友没有看这个直播,我只能说各位真是有先见之明,整个直播时长有两个多小时, 又臭又长,直接给我看历劫了。信息密度呢可以说是非常的小,就是发布了一个全新的模型三点五 flash, 其余的其他功能呢都是接入的这个模型,各种乱七八糟,内容呢都加了在一起,大会的后半段呢,直接变成了现场直播带货,我看完就是一句话,真是闹闹又麻麻 闹马。我们首先看一下大会的第一个部分,就是 gmail 模型家族,整场都在讲这个, gmail ai 发布了 gmail 三点五 flash, 它的定位呢是前沿智能模型和 agent 执行力合二为一的旗舰快速模型,头跟的输出速度呢是其他旗舰模型的四倍, 非常的夸张,而且在编程 agent 的 多模态基础上,超过了 gmail 三点一 pro 就是 一个 flash 模型,超过了三点一 pro 模型,这个就意味着这次模型呢是小而快,听起来非常的不错, 但是我不禁要问,那么代价是什么?没错,它的价格也赶上了 pro, 上一代的 pro 模型呢,每输入百万, token 呢是二美元,输出是十二美元。这次的三点五 flash, 它的输入是一点五美元,输出是九美元, 其实非常接近了,在他们直播中有这样一张图,说是用了九十三个 agent, 输出了二十六亿的 token, 总共金额小于一千美元啊,我先保持一下质疑, 这次价格涨的确实有点多,这还只是 flash 模型三点五 pro 呢,预计在下个月,也就是六月上线,那你想想吧,那个价格肯定会更高呀。那第二个呢,就是 jimmy 欧姆尼全新系列,目前用的也是三点五模型,核心定位呢是推理能力加创作能力融合首发的 jimmy 欧姆尼 flash 接受图片、音频、视频文本的输入,也可以输出生成视频,还可以创建我们自己的声音生成的视频呢,让他说话的声音就是我们自己的。 你可以理解为把视频生成模型,图片生成模型全都融到了一块,缝合怪奇美拉。另外顺带一提,它的内容检测能力呢,从 jimmy nike 的 app 版扩展到了搜索和谷歌浏览器中,也就是说,当你看到一个图片,你不知道它的真伪,那么你可以把这张图片发给他,问问他是否由 ai 生成 它可以进行判定。这个怎么说呢,就我体感下来,其他的生成模型我都能认出它是 ai, 唯独 g p t 的 那个确实是有点真假难分,你不会针对的 g p t 吧?那山姆就有话说了,你不是我的兄弟,你是个路人。 接下来就是重头戏,谷歌的 a i d e 反重力二点零上线了,全新独立的设计啊,真是不愧是谷歌啊。从这个设计页面上呢,我就看到了无数个神支持了 doa 盾,并且速度非常的快,而且如果你是新开通的,或者以前就是 o 叉用户,还会送你 一百套的额度,那去领吧。什么意思?下一个更新的是全新的设计语言,几乎是全平台桌面版、手机版以及网页端都进行了更新,变得非常优雅,动画非常丝滑,同时引用了全新的字体,不过对于阅读中文来说好像不是特别方便, 只是阅读英文的时候看起来确实很优雅。每天的额度呢,也改成了卡尔的那种限额五小时刷新,直到达到周限额 结束了,也就是说,如果你是 pro 用户,可能用一会就没有了这个额度。下一个 jimmy spark, 二十四小时全天候, agent 直接运行在云端,在手机上,电脑上拿起来就直接控制它使 用的模型呢是 jimmy, 三点五,可以实时监控我们的信用卡账单,追踪邮件,自动整理笔记,制作文档。这个几乎就是一个 agent 的 平台的标配了,它本身就是一个超级 mcp 客户端,接的非常多。这个时候可能有朋友说了,哎,这个不是小龙虾吗?是吗? 目前这个我们用不了,你是 plus 用户, pro 用户都用不了,你必须得是 air ultra 用户。二百五十美啊,不对,现在降价了,是二百美元一个月。但是这个计划对我个人吸引力不是特别大,再下去沉淀沉淀吧,我们看下一个谷歌搜索 三十年以来最大的更新,在二五年年底的时候呢,谷歌浏览器就推出了 ai 模式,那现在呢?把这个 ai 的 模型换成了 gmail。 三点五, 我们输入的越长,搜索框越会主动的进行扩展,因为它是内置在浏览器上,主要还是为了搜索嘛。当你一个很简单的问题,他就会给你回复很短的内容,但是当你长篇大论的跟他讨论的时候,他就会开始进行深度思考 啊。 deep think, 也就说类似可绕的那种,判断你的意图,以及你这个问题的复杂程度,他自己来决定给你回复多少。另外这样一个浏览器也有 agent 了,二十四小时全天监控。我们提一个问题, agent 在 后台跨博克新闻社媒以及谷歌的实时数据 持续监控,也就说你可以让他实时帮你监控一些内容。那这个监控的功能呢?我个人认为可以用在理财的方面,比如说黄金的金价,实时给你追踪一些股票的价格,实时的给你发送。 不过这个功能呢,暂未发布,夏季向 ai pro 凹叉用户开放下一个 mini app。 这个功能是在我们搜索的时候,那一个非常长的任务,它会自动给我们生成看板,或者是生成网页,生成一个小应用,我们可以直接快速的跟它交互,那比如说我问一个太阳 长什么样子,那它呢?就会生成一个类似网页,或者是一个三 d 的, 我们可交互,可以拖动旋转。这个太阳演示看下来呢,还是非常有意思的,但是仍未发布, 发布时间是未来几个月。 ai pro ultra 美国地区的用户可以使用,也就说你不在美国,或者你是免费用户,那么你都是用不了的,太可恶了,他不是我们的兄弟,他是路,厉害。最后还有几个我快速给大家过一下,因为我个人感觉非常的无聊,一个是全网通用购物车, 让 ai 帮我们去购物,去比价美国豆包啊,真是实至名归啊。还有一个呢,是给油管准备的 ask youtube, 可以 直接处理复杂的查询和后续的追问,其实跟 grog 差不多, grog 呢,是可以读取 x 平台的所有推文,那这个 youtube 呢,自然是可以读取油管上的所有视频,以结构化交互形式呈现。这个呢,现在已经可以用了,局限于 youtube 会员的美国用户啊,注意你得是会员哦。 最后呢,就是他们的带货环节,首先是他们的安卓 x r 啊,智能眼镜,想当年我也买了一个小米的异样眼镜,老傻了。我 目前呢是两个版本,一个是带屏幕的,一个不带屏幕的,只不过带屏幕的还没有发,各位感兴趣可以去看一看。大概 就这么多内容,如果各位非常闲的话也可以去看看。这个直播还是蛮催眠的。那以上呢,就是本期视频的全部内容了,如果你对上述我们提到的这些内容某 某一部分你感兴趣,可以在弹幕里留言,我们可能会单独出一些视频来测试,或者是解读一下。各位记得点赞,不点赞的话你就不是我的兄。 ok, 最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

各位,此刻我们正在谷歌年度开发者大会的现场,让你速看一波第一首最炸裂的消息。全场最炸裂的绝对是快到离谱的,专门在三点五 flash 模型,这个模型的重点就一个字,快!比现在市面上的其他顶尖模型快了整整四倍! 现场直接用它及时生成了一款类似 chrome 小 恐龙的游戏,生成速度高达每秒一千五百个头肯,几乎是零延迟,代码在你眼前一行行的跳出来,但这个价格也很炸裂,大家看这个图标感受一下。 而这次谷歌还发布了全新的视频生成模型,专门在 omni 现场演示,丢了一张图进去, ai 瞬间就生成了十六个风格,运镜角度完全不同的分镜短视频,这个简直太牛了,等于 ai 已经不只是在生成画面,而是在理解整个三维空间,然后用导演思维帮你构思不同的画面,而这个也是下 下一个时代 ai 视频和设计的大方向。而且现在视频、音乐这些都可以 web 直接改了,就像这样,给一个正在弹吉他的女生视频,加上各种炫酷的特效,或者直接把主角换成一个卡通玩偶,又或者是把一段音乐从这样的 demo 变成这样, 全程只需要用对话的方式给 ai 讲就可以完成,创作门槛被彻底拉到了地板。最后就是 谷歌全新的 ai 智能体叫 gemini spark, 你 可以同时把好几个复杂任务丢给他,他就在后台默默帮你处理好一切。现场演示了一个场景,让 gemini spark 帮忙策划一场社区派对,他自己就汇总了所有人的回复, 整理了谁会带什么东西给没回复的人起草了催促邮件直接用 gmail 发出去,还做了一个实时的回复跟踪表格。而且 gemini spark 是 云端运行的, 也就是说你关上笔记本电脑,锁上手机,他还会在后台工作。这个全新的 ai 代理人很快就会在我们用的 chrome 浏览器里面直接上线。看完发布会,我发现谷歌真的是想用 ai 完全革命我们和 ai 的 交互方式。就像发布会最后哈萨比斯说的,在十到十五年后,我们就能迎来一个新的黄金时代了。

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

谷歌昨晚扔了一枚重磅核弹,但真正大的可能不是 openai, 而是你我手机里的每一个 a p p。 五月二十号凌晨呢,谷歌 i o 大 会连发三款的重磅产品, jimmy 欧米视频模型、 jimmy 三点五 flash 超高速模型,还有能在后台自主干活的助手 ai 的 spark 詹姆奶应用,月活冲到了九亿,一年翻了一倍,搜索 ai 模式用户超过十亿。但我今天不想只跟你复述参数,我想换个角度聊聊这三个产品的背后,一场正在发生的权力转移。 先说两个模型,詹姆奶欧米是谷歌目前最强的多肽系统核心,就一句话,从任何输入生成任何输出, 你给他文字、图片、视频、语音,他能够生成视频,还能用对话的方式进行改画面、换背景、换角色、换风格,一句话的事。 而且它不是纸堆画面,它用谷歌的物理知识做底座,它模拟重力动能、流体动力学这些真实世界的物理规则。这么在三点五 flash 呢,走的是另外一条路, 极致的速度和低成本输出速度呢,是 gpd 五点五和克拉的 opus 四点七的四倍,每秒有两百八十九个头,肯生成成本呢,只有同类前沿模型的一半或者是三分之一。 谷歌现场展示了一个炸裂的场景,九十三个智能体并行工作十二个小时,从零写出一个完整的操作系统的内核消耗还不到一千美元 a p i。 的 一个额度,现场还直接运行了一款三 d 游戏,非常非常的炸裂。 但这里我要说一句可能更扎很多人心的话,模型跑得越快,视频生的越真,普通内容创作者的存在感就越弱。这不是危言耸听,谷歌已经把 omni 免费接入了 youtube 的 shots, 你 想想看,以后刷到的短视频,可能一半是 ai 生成的。你费劲拍三天剪出来的片子, ai 三秒就生成了,你的优势在哪里? 那谷歌砸一千八到一千九百亿的美元搞 ai 的 基建,到底图什么呢?答案是,它要把 ai 塞进你的手机、浏览器、眼镜和生活的每一寸裂缝。新发布的 spark 智能体能,二十四小时后台运行,帮你监控邮件、整理文档、跟踪任务,不需要你盯着屏幕。 谷歌管这个叫做搜索进入智能启时代,但说白了,他在做的事情就是让用户从自己动手变成下达指令,然后等结果。这个转变一旦达成,过去靠用户停留时长吃饭的所有产品、社交内容、电商都得重新洗牌。 这也是我之前讲到腾讯股价下跌时提到的逻辑, ai 强的不是某个功能,是用户的时间结构。所以这场发布会真正让我警醒的不是谷歌有多强,而是一个已经加速到来的趋势, ai 负责生成,人类负责判断。 ai 负责效率,人类负责连接。 昨天是图片生成,今天是视频生成,明天可能就是全场景的 ai 代理。我讲过很多次,包括红山的峰会也说过, ai 不 卖工具,只卖结果。 当 ai 把结果做得越来越快,越来越真,普通人还剩下真正值钱的就两样,你的审美判断力和你客户之间那层真实的信任连接。这也是我们做无相机摄影一直坚持的逻辑。我们不做通用 ai, 我 们是帮实体店的老板把最复杂的视觉能力封装好, 只需要拍一张照片,不需要下达指令,都可以来去生成四 k 高清的商拍大片和文案。技术上的事让 ai 来做,你看一眼觉得行还是不行,怎么用更好,这事只有你能做。 谷歌把 ai 往世界模型推,我们把 ai 往帮老板省时间来拉。方向不同,底层逻辑一样, ai 负责效率,你负责人情,你负责关系。 五月二十一号晚上八点,我将在人大商学院分享我们的产品,欢迎到我的直播间一起聊聊。我是明哥,关注我,陪你一起看懂 ai, 用上 ai。

兄弟们,你们猜我发现了什么?谷歌的 jamie 脸 ai pro 会员竟然又可以白嫖一年了,而且可以赠送你三百美金的 api 调用额度哦!注意,这不是学生优惠,不是之前的学生优惠,是三月份的最新方法, 趁着现在知道的人不多,咱们赶紧去薅起来吧!你不用怀疑啊,经过我的亲测,不管是你的老账号还是你的新账号,甚至说你之前购买过杰米尼的学生优惠的账号 被搬掉的,咱们现在都可以去薅这个羊毛。我已经把这个方法整理成了文档,有需要的 滴滴一下,我免费的分享给你。最后呢,老规矩啊,咱们就是测试用的一个账号,我们随机抽取一位有缘人免费的赠送给他。好吧, 呃,最后说一句啊,我会持续给大家带来关于如何挣钱 ai 相关的这些信息,有喜欢的朋友,咱们欢迎持续关注。

绝大多数人使用 gmail 三的方式,其实依然停留在两年前使用豆包的那个时代。今天我想结合谷歌的官方文档和我的实战经验,给大家分享三个 gmail 三点零的进阶的使用技巧。第一招是能帮你把它训练成你的专属顾问,第二招能够让你更高效地去创建你的 agent skill。 第三招甚至能让你无 现白嫖。顶级算力过程中会有一些提示词的模板,我都会在片尾告诉大家获取方式。我们现在看第一招吧。系统指令。很多人都知道要给 ai 写人设提示词,但是其实大家都没有用。对,如果你只是给 ai 对 话框里发一提示词,它其实只有临时记忆, 你会发现聊着聊着就变味了。而这个系统指令其实是给这个 ai 对 话框写入一个基因代码,它是一个永久的人设或者是思考框架。现在你在这个 google ai studio 里面, 在右侧就可以去写出你的这个系统指令。在 gmail 官网有一个叫 jim 的 地方,也是大家去设置系统指令的地方。那这个系统指令怎么写才让它成为你的专属的战略级顾问呢?我参考了 google 的 官方文档,还有我自己的一些用法,给大家总结了五个模块的万能公式。第一个模块其实就是用户画像,简单说就是亮出你自己, 把你的这个底牌和限制告诉 ai。 举个例子,你像我没有任何的海外公司,那当我想做一个出海的 ai 产品的时候,涉及到支付模块,我的 ai 就 不会给我推荐像 stripe 这样我不具备任何资格的一个方案,而是直接给我能用的平替。再比如像我告诉 ai 说我的电脑是 macbook, 以及我不懂 c 加加,我就是一个 webco 的 用户,那他给我代码的时候就会给我直接能在 mac 终端去运行的命令,而不会给我一些看不懂的 windows 指令。 那第二块其实是关于行为和语气,其就是你和 ai 的 沟通方式。其实 gmail 三有一个特别容易犯错的地方,就是他特别爱讨好人,他训练的时候就默认是一个顺从的助理角色,那你像我这种 i n t b 性格,我一般会给他下个死命,就是你不要谴责我,你也不要附和我, 而且我告诉他就我是 ceo, 你 是执行层,但是你在给我建议之前,你必须像苏格拉底一样去反问我,这样呢?时间长了,他现在给我口头禅就是 ceo, 你 百分百是对的,但是有三个风险在落地的时候要考虑等等,这 就是我觉得 ok 的 沟通方式,当然你也可以找你喜欢的有效沟通。第三个是关于时效性啊,因为 gmail 三的这个模型内置的训练数据都是二五年一月份的,所以我会强制告诉他涉及到一些行业动态,你 必须给我开启 google search, 不要拿这个一年前的这个旧新闻来骗我,在 studio 里面的话,它现在也默认会开启 groundwave。 google search 在 底部大家应该能看到第四和第五个模块是关于逻辑推理、输出规范的,优先评估风险是个永远正确的事情,不确定的给我 ai 幻觉, 并且因为我平时经常整理提示词,所以我会要求他给我输出格式基本是 markdown, 如果有一些专业名词的话,对中文给我参照一下,然后你把这五个模块的这个提示词都填进去的话,你的 jimmy 瞬间从一个只会讲片儿脏话的网友变成一个最懂你的专属顾问。 不过各位注意啊,如果你像我一样经常用 google s studio 的 话,你千万不要放任何的真实的姓名、电话等隐私信息,因为这些会被拿去平台做模型的训练数据的。 那第一招说完,我们再说第二点,建立你的 agent skill 的 实验室。现在 agent skill 这个概念其实真的挺火的,但本质就是用提示词 去封装一套工作流。那你现在已经会了这个系统指令了吧?那其实你就可以在任意一个对话框去创造一个工作流提示词的测试环境。简单说其实就是让 ai 自己卷自己。比如我就会告诉 jimmy 三,你有两个活儿,第一个活儿就是按照我的这个流程写文案生成内容。那还有一个角色是你要站在旁观者的角度去 去记录我的评论,去找茬,去想你刚才哪一轮工作做得不够好,去底层去修改和完善。基本上当我每一轮的任务结束之后,我就会输入复盘这个指令,它就会生成一个升级版优化过的提示词, 以此循环往复,不断的去完善这个核心的一些算法,提示词等等。这个可以给大家看一下,我基本上在我很多的提示词测试的时候,都会在开头加上这样的一些规定,其实比我们自己去复盘在那瞎琢磨效率高了不止十倍。 你在这些实验室里面测试好了,直接搬到 course deal 或者是 webcointing 里面,效率大大的。那还有一个进阶用法,其实是白嫖免费额度。大家都知道免费的 gmail 用多了都会被限制额度,那怎么榨干它的价值呢?我自己平时是用三个策略哈。第一招就是 多个账号, google a s studio 和 gmail 的 官网,它其实是两套额度系统,所以如果你有两套谷歌账号的话,那你每天相当有四波免费额度,可以疯狂白嫖,轮着造。那如果你没有的话,有更好的法,比如说模型混用,简单说就是一些普通的追问或者查资料,你直接让 gmail 三六零 flash 去做,一点不比 pro 差,而且速度快,占用的额度也非常的少。只有你做一些核心的复杂决策,需要回顾上下文,包括第八个的时候,你再找 pro 模型去做好纲要,用在刀刃上。 第三招其实我觉得反而更重要,一定要紧盯着 token 的 使用进度条。免费额度其实它不是看你问了几个问题,它其实看的是你整体的算力消耗,对话越长,上下文越多,哪怕你只发个嗯嗯, 你的消耗也是翻倍的。根据我的经验哈,五万是个小卡,十二点九是个大卡,这个数在哪看呢?在 google a s 六里面,在每个对话框上面能看到这个对话框已经 累积的这些算力。我这个对话框已经快要废弃了,因为一旦它超过了这个预值之后,你会发现它的反应变慢,幻觉增加非额度,用不了几次它就会告诉你到顶了。所以如果你发现已经到这些极限的时候,你就千万不要犹豫,直接开个新对话框,这就叫卡 bug 级的省流。 当然啊,如果大家对这个上下文无损迁移感兴趣的话,我也可以专门出一个视频讲一讲我天天干这个事。最后多一嘴很多官方的一些参数,选用默认值就好了,不需要多刻意的调整,够用的。 其实 ai 好 不好用,强不强就关键看你怎么用,你有这些进阶的方式的话,你就可以在免费的额度情况下发挥它最大的潜能, 这其实就是最大利好于我们普通人的一个时候。今天视频里面提到这些提示词模板,老规矩我都会整理在我的 ai 同款笔记里面,大家去一小说幺零幺回复关键词自助拿走就行。好吧,那我继续去开发我的 ai 产品了,咱们下期再聊吧,拜拜。

大家好,我是 kitty, 今天我们一起看一下谷歌最新发布的 i o 大 会啊,会上发布了非常多的内容,那有很多产品我们现在可以用,也有很多期货产品。今天的话主要介绍一下我们现在可以用的产品。 现在谷歌每个月处理的 top 函数是非常非常多的,那 jimmy app 呢,现在也是被更多人喜欢。 目前谷歌有十三个产品,用户量是超过十个亿的,非常非常恐怖的量。今年夏天呢,我们就可以在 youtube 上面使用它的 ask youtube 功能。谷歌呢,最近还在 cloud nest 上宣布了第八代的 tpu, 大家可以简单了解一下。 此外呢,这次和我们非常相关的有 omni 模型,还有三点五, flash 模型。这次发布没有发布, pro 模型会在下个月发布。谷歌今天发布的是 omni 的 第一个模型 omni flash, 我们可以在它的 app flow 进行使用。需要注意的是,有用户呢是 out 的 会员,它在使用 omni 生成五个视频之后,甚至无法再使用 pro 或者是 flash 模型了。目前 jamal 它在设置里新增了一个使用限制, 它和 pro 的 一样,也分五小时的限制和啊一周的限制。我就提示它生成一个视频, 那它就花了我百分之二十六的一个五小时额度。除此以外,我今天在 gmail 的 啊官网上去提问的内容并不多, 那我们可以看到已经啊有三分之二五小时的额度已经被使用掉了。如果你是 pro 会员,非常推荐你在 flow 的 平台上去调用,让它生成图片,或者是让它生成视频,因为谷歌每个月会给 pro 用户一千积分的一个额度, 那我们用 omni flash 来生成图片,一张图片呢,十秒钟它就会花费三十积分。而如果说是六秒的视频,那就会花费二十积分。但是它生成的视频呢,和 jimmy 上一样, 都有一个视频的水印,这点是,呃,不是特别好的。如果你在 flow 平台上生成图片,选择它的 nano banana 二, 那是不花费积分的,而且这里呢,是没有水印。这次 flow 呢,还非常好,推出了一个 agent 的 模式, 这和我们在其他的一些 ai 绘图平台上 agent 的 模式是非常像的。我提示它让它去生成这样的一个分镜,拉倒不拉倒。二,呃,即使我选择了 agent 的 模式,它生成的图片分镜也是要比 gbt image 二要差的非常非常多。 之后呢,我就根据 gpt 一 米二生成的图片上传给 flow, 让它来生成视频。 this scent is amazing freshly fried stinky tofu crispy outside and tender inside one bite crispy and bursting with flavor it smells bad, but tastes so good。 可以 看到它生成的音频里面呢,有都是英文。此外,呃,一开始给它的原图里面呢,有都是英文。此外,呃,一开始给它的原图呢,是真人的质感, 原图的话是有一些文字的,而它在最后生成的图片里面是没有相关广告文字的,做的是比较差。所以我后来我就提示让它根据这张图片要生成中文视频。 这香味也太上头了吧,那它生成的视频,这就对了,变成了中文。如果你是在 jimmy app 里面直接提示它生成视频的时候, 就不需要我们像在腐肉里面要再明确提示他一下,这香味也太上头了吧。现炸臭豆腐,外酥里嫩,灵魂酱汁,一口咬下去,爆汁,越吃越上瘾,再来一份,非常不可,香到停不下 啊。即使是这样,那我觉得 flash 在 这里表现的和我一开始给他提供的图片这样的一个分镜啊,相差还是比较远的。所以我后来又提示 gbt 呢,让他改一下。我说我的视频是十秒,让他再重新深图 修改后他就将啊镜头变少了一点。然后呢,每个镜头他是安排了两秒之后,我就取消了 agent 的 模式,上传了这样的一个 gbt 的 图片, 然后提示啊, omni flash, 我 让它根据我上传的这样的一个图片啊,输出中文视频。那它最终生产的这个视频和我刚刚提供给它的图片就比较像了。 这味道也太勾人了吧。现炸臭豆腐,外酥里嫩,一口爆汁,香到上头,闻着臭,吃着也太香了。夜市进店,臭豆腐等你来尝。但是我们也可以看到这个视频里啊,它有很多文字是没有体现在这样的一个广告里。 第二呢,呃,这个视频最后,呃,有文字还是有错误,跟我一开始给他的这样的一个横排的广告分镜还是有较大差别的。呃,所以我个人对 omni 这一次的视频输出的话不是特别满意。 谷歌说 omni 提供了一种更容易的视频编辑方式,用自然语言下指令。他们认为 omni 的 优点是角色保持一致,物理效果站得住脚,还有场景会记住此前发生的事情。 omni flash 它的物理表现是非常不错的, 这两个视频都呃展现的非常好,当然了,你让 omni 来切换不同的场景啊,物体变化也是非常简单的。这次 omni 呢,特别强调是它的物理创建,视觉能力非常强,非常真实的这样的一个 demo。 omni 可以 利用 jimmy 的 知识,把语言图像和 e 连接起来,超越单纯的模式匹配。而且 omni 还可以从短的提示词创建有说服力的解释性视频。 它呢,现在也是支持多个图像文本,视频、音频啊合在一起,并且支持从已有的素材延展创作。 我们可以看到一开始就是简单的一条鱼,然后啊几笔图画最终生成的这个视频呢,啊,就很好的保留了原图的一个参考,还有官方这样的一个展示,我认为啊,对我们来说日常帮助也是比较大的。 呃,有这样的一个啊,插画,然后上方是真实视频,最终做出非常有动效的视频。目前节目奶设置里呢,还支持上传你自己的一个头像 啊,然后融入到视频里。三点五 flash 呢,现在是谷歌最强大的模型,官方展示这样一张图呢,意味着三点五 flash 它啊,速度快, 它的制力能力强。我们通过这张图可以看到 gmail 的 三点五 flash 啊,对比 crowd opt 四点七和 gpt 五点五都是有非常大的竞争优势的。 官方又展示了一些案例呢,非常不错,比如这个案例呢就是,嗯,几百张图片,然后让 gemite 三点五 flash 做一个分类,在提示词里面呢,就有明确提到让它用啊自 agent 来处理。我最近呢也是做了一个图片重命名的应用, 我一开始也是让 ai agent 来帮我实现的,在 ai 编程工具里让它去实现,但是我后来发现,嗯,很多都不能完成。 那我后来是做了一个啊, mac 应用啊,用本地的千万模型来去做这样的一个重命名。那我们看到反重力的 id 里面呢,就能直接去实现这样的一个功能。 而且就目前而言, gemna 三点五 flash 在 反重力 ide 里面,它的使用额度还是比较多的。三点五 flash 呢,还可以仅使用科学论文作为输入来再现 alpha zero 的 可玩版本, 这就说明它的治理能力啊,非常强,而且它可以自我改进。官方还有个例子非常好啊,就是让它来做一个工具。这个工具呢,是可以 调用啊,海量的 agent, 然后让它们去搭建不同的场景, 只要你给他足够的 talk, 那 他最终多个 agent 就 能帮你去生成啊,非常丰富场景的这样的一个三 d 建筑群。谷歌还展示了一些通过 as studio 来生成的应用,比如说你给他任意的论文, 最终这个应用呢,啊,就能帮你生成,非常丰富啊,重现论文里面的各种交互的展示。 三点五 flash, 还可以帮你去生成这样栩栩如生的机械操作呃,领悟感非常强的应用。此外呢,也可以一句提示, 它就可以帮你调用六个 agent 探索呃,六个不同的 ui 设计,除了我们可以在 jimmy ipad 里去使用,呃,三点五 flash, 那 它现在呢,也是 air mod 里的呃,默认模型, 可以帮助我们带来更好的搜索体验。谷歌这次大会还有个非常好的变化是它的 anti gravity 升级了,升级到二点零了。虽然说呃我现在的 anti gravity 二点零登录不上, 但是它现在也出了一个新的 cui, cui 呢是我可以登得上的。现在的 gemini cui 呢,也会逐步迁移到 anti gravity cui。 如果说你之前能登录 gemini c u i, 那 现在登录 anti gravity 啊,还是非常方便的。当我们下载反重力二点零之后,它会呃有这样个提示,是否要下载 ide? 如果勾选之后,那你电脑里就会有两个 app, 一个是新的呃二点零,一个是之前的一个界面 ide。 如果大家之前使用呃反重力的 ide 登录有问题,那现在可以试下它的 cy 安装的话,可以看一下这里。安装好之后,我们就可以通过 agy 来进行交互。初次使用呢,他会让你进行一个授权,我们需要把呃网页上面获取到的一段代码,然后输入到终端里。登录后第一次使用呢,呃,建议直接来到他的设置,把数据收集的这样的一个选项给关掉。 工具调用的源序这块建议啊,直接打开。目前呢, jamal 三点五在反重力的 cy 里面运行的时候,的确速度非常快。呃,但是呢,它的质量如何呢? 这块我会放在最后,大家有兴趣的话可以翻到后面看。现在呢,我将介绍一下新的反重力二点零。呃,我们可以看到它的桌面应用是非常大的升级, 它有动态子 agent, 还有一个呃异步任务管理运行的, 而且还可以用简单的 jason 格式定义 hux。 二点零还新增了一个啊,全新的计划任务, 这和 codas 也是非常像,也新增了一些命令,比如说啊, girl 这个命令呢, crowd, codas 都有,包括 ems agent 也有啊, gryalme 呢,这个 scale 一 开始呢,是由马特啊一个开发者,然后他去构建的 反重力这里用到了这个功能呢,是可以在开始实现之前,反向提问以面对以面对计划的具体细节达成一致。比如这里呢,我就通过使用这个命令,然后后面跟上我的一个需求反重力。不明白的地方呢,他就会问你 啊,他问了我多个问题,最终三点五生成的 flash 啊,结果可能不是令我非常满意,但是前面呢,先和它对齐需求啊,这样的一个功能还是非常好的。最后还有一个功能是 browser, 可能这是在 ide 里面独有的。 cy 里面呢,是没有这样的一个斜杠命令的。反中立官方介绍呢,二点零呢,它的 logo 就是 白色的背景, 而 i e e 呢,它的 app 背景呢,就是一个黑色的网格。谷歌呢,这次还介绍反重力构建一个操作系统,它们让反重力二点零呢,用了一组 agent, 从内核进程管理、内存管理、文件系统到视频和键盘驱动, 构建了一个人运行 freedom 的 功能性操作系统。在构建过程中呢,用到了九十三个字, agent, 以 api 价格来算啊,花了差不多是九百多刀。他们分享的这个案例呢,主要是讲同步和异步 agent 怎么去进行操作的。他们认为在异步交互中,通常不再重要的是模型的性格与行为方式,真正重要的是,模型到底有多聪明。 通过这个例子呢,他们是认为 jimmy 是 一个非常聪明的模型。谷歌还介绍了他们怎么编排这些 agent teams, 这并不是几行提示就能完成的事情,实际上有数千行提示。他们没有让单个 agent 身兼多职, 而是创建了一系列具有专门目标和约束的自 agent 的 类型。我们可以看一下,比如说有调度型管理者,策略分析者,实际编码者,独立审查者,还有测试 啊核验的一个 agent。 他 们还采取了一些技巧,比如说啊,怎么处理上下文长度限制的,一旦达到限制,他就会把完整状态写入 handoff files, 结束自己的后台任务,并且调用一个拥有相同目标和权限的一个啊继任者子 agent 者 后,记者呢?从文件平滑恢复。如果遇到任务堵塞的情况下,他们就会使用新的 scheduled tasks 啊 primitive 设置后台循环进行的定时任务,然后检查各个子 agent。 呃,写录的一个这样的一个进程文件, 所以它们中间是有各种设置的,还有对抗大圆模型,懒惰,它们就会通过一个 auditor 来实现。这次呢,反重力二点零还推出了一个 teamwork preview, 这是一个新的啊,斜杠命令。 这个斜杠命令呢,目前是一个研究预览状态,只有两百多的 out 用户才可以去使用它。 呃,官方建议呢,搭配三点 flash, 使用 timoc preview 的 时候,账单是非常高的。 现在呢,简单来看一下谷歌反重力 cy 的 一些命令啊,刚刚有提到 agi 来唤醒,然后我们可以通过问号,斜杠 at 这些比较常规。 那斜杠命令里面的话,比如说有斜杠 agents, 可以 用来查看管理审批正在运行的子 agents skills 呢,也是比较常规的啊,还有 statelines 这些的话都和 crawl code 是 非常像的 啊。当然我们也可以经常看一下它的 usage, 目前呢 ci 里面也是可以使用 opt 四点六的。 我在登录过程中呢,就发现隔了一两小时之后,它又让我重新再登录。 config 的 话,我们可以来管理 c y 的 配置,刚刚我有提到呃,我们进入之后可以把它的信息收集呢啊这样的一个配置给关掉, 要安装反重力的插件呢,我们可以用这样的一个命令啊, what flows 里那我们可以看一下可以斜杠,然后来触发某一个工作流。反重力呢,还可以用安卓 c y, 这里有一些命令,大家可以简单了解一下。现在来介绍一下如何在呃 a s 九九里面构建原生的安卓应用, 可以通过一个提示词就可以构建高质量的呃安卓应用,它呢使用嵌入式的呃安卓模拟器, 可以在 web 浏览器中创建,并且编辑安卓应用还是比较方便的。我们可以通过 usb 线呢,连接安卓手机就可以通过, 之后就可以通过 a d b 把应用直接安装到设备上,而且它还支持你啊直接把应用呢发布到谷歌 play 用于测试 as 丢丢会自动创建应用记录打包,然后并且上传到啊安卓 play 的 开发者控制台的一个测试轨道, 应用会在几分钟之内就可以安装,非常非常方便。当你需要更高级的迭代的时候,你可以去将它下载下来 啊转移到 android studio 里面进行开发,或者是转移到反重力里进行开发。谷歌介绍他们还会在 as studio 里面添加和安卓相关的 firebase 的 集成。官方呢,还给出了一些呃提示词灵感, 比如说这样的一个提示词就可以让 air studio 帮你做啊,手表的应用,或者是折叠屏的应用,再或者是一个面向吉他手的伴奏练习应用。谷歌现在的订阅方案呢,也有了一个很大的升级, 那 air ultra 之前是二百五十刀的,现在是降到两百刀了,而且还提供了一档是一百刀的 pro 呢。啊,之前是二十刀,那现在还有一个五十刀一个月的。 它们的区别主要是这些方面,一个是呃存储空间的区别,第二呢是 jamming 的 使用上限,目前 pro 二十刀的,它的 jamming 使用上限是普通用户的四倍,总体而言的话,这个额度感觉是大大缩减了。 呃,那它新增了一个非常好的额度呢,就是 youtube 影视权益这块还是不错的,因为现在这个单买也是需要呃九刀左右。因为我平常用谷歌的啊 pro 会员比较少, 所以目前订阅它的这样的一个新的二十刀的啊,还是非常不错的。需要注意的是,如果说你现在订阅它的一百刀的 air force 会员, 那可以在反重力里面去领取一个啊一百刀的奖励积分, 这个优惠是有时间限制的,目前邀求用户是能优先访问一些新功能的,比如说 gemina spark, 还有 project jenny。 最后来看一下 gemina sineon flash 这一次的编码能力 啊,我呢将这样一段提示词和这样的一张图片发给三点五 flash, 想要让他呢啊,帮我去复刻一下啊。工具里我选择的是 canvas, 思考程度呢,我是选择了最大。 那它生成的速度还是非常快的。三点五 flash 呢?它有提示我啊,这里用到了完全自主的一个乐曲,是用 web audio api 来合成的。它生成这个效果是我近期测过多个模型里面 应该是啊和 jimmy 五点五 pro 啊非常接近了。和原图的话,嗯,是也是非常接近。而这样的一个效果呢,是我通过三点五 flash 在呃反重力的 c y 里面生成的。那我们看到这样的一个效果就简单非常多。而我们现在右侧看到的这样的一个效果呢,是我在 a s studio 里面拉拉生成的。那这里的主要区别呢?就是 canvas tool 它带的系统提示词, 目前我还不知道它的系统提示词是什么,但是我们可以看到你用不同的哈尼斯那生成的效果就会千差万别。再看它生成的千夫拉船,这千夫拉船呢,是提示了四次。它生成的这个船还是挺逼真的 啊,我最喜欢的就是它这个水面做的特别特别逼真,整个场景是比较暗的。一开始它生成的是这样的一个场景, 后来我就截图让他进行优化,这是他的优化内容。优化后的这个效果呢,左边能看到船,然后要小心的去移动,才能看到纤夫在哪里。 他把这个潜伏还是画在了呃,水面上,没有看到绳索和潜伏黏在一起。而现在我们看到的是 jamal 外部端 canvas 里面去生成的潜伏拉船。他给到了我好几个不同的镜头视角, 还有船体追踪,江岸全景,船手仰望,除了夕阳落日呢,还可以切换到其他不同的天气场景,而且呢,它这里还有音频。 这样一个页面设计,让我感觉,呃 jamal 三点五 flash 非常非常像 gbt 五点五,不知道它是不是向 gbt 进行取经了,右上角还有个感叹号, 点击后我们会看到这样的一段说明文字,我认为 gmail 三点五 flash 是 一个 mo 模型, 它的参数量应该是比较大的啊,激活量的话可能是相对比较少一点, 它的知识丰富度还是比较强的。虽然说三点五 flash 的 速度非常快,但是它在做这样的简单页面的时候啊,控制台是经常出现这样的报错的, 这个可能也是 moe 模型的一些局限。再看三点五 flash 在 jammer 平台上生成的交通信号仿真, 我们明显感知左边呢,是有非常多的参数,非常像 gpt 的 风格,它在这里啊,模拟还是非常不错的。小车呢,非常像我们现实里的各种小轿车,而且它还模仿了这种转弯, 但是他在路口,我们可以看到这两个车子连在了一起,那正常情况下啊,不太会是突然,车子行到这里就停在呃路中间了。我们会看到这样的交通仿真,车辆非常非常多,但是有 穿模现象,有很多都是错误的。再看 flash 做的仓库分解,同样呢,我们页面上看到啊,它的元素是非常多的,右侧能看到事件日记, 现在是一个红色的正方体,日记里显示抓出了,但是实际上啊,物体是突然之间就没了, 所以它的这个物体获取,它是没有完全展示出来的,它就非常适合做各种页面的一个 demo。 然后我们可以把这张图呢 截好发给 control, 再去实现具体的功能。我们在下方还能看到一个极停功能,点击一下啊,也会啊,这个功能的话演示出来也是也是能展现出来的。哎呀,我觉得他在这问题上还是表现的不错的。我最后给他的任务呢,就是给他这样一张截图, 让他帮我输出中文页面要明亮的主题,页面要美观,最终生成的这样的一个画面 啊,我个人觉得和我一开始发给他的图片还是非常像的,包括他这里用的一些小的图标元素也是比较到位。第二个的方框呢,我们会看到有多个颜色, 那最终啊, gmail 三点五 flash, 他 在这里做的是渐变色的效果,所以这一点上他是还原的不到位。那总体而言,我觉得他在这里呢展示的要点, 展示的这样的一个差异,我个人感觉还是不错的。而且现在三点五 flash 它的速度很快啊,是明显要比三点一 pro 要速度要快很多的, 做这样的页面就非常合适。以上呢,就是今天介绍关于啊谷歌 i o 大 会的所有内容 啊 jamal 三点五 flash, 它目前的价格还是比较贵的,输入一点五刀,输出十九刀。但是如果说编程的话,我个人还是更推荐啊,用 gbt 五点五,希望我的视频对你有帮助,我们下次再见。

谷歌你做模型给我做好了呀,接下来三点五 flash 真的 就拉完了,就比如我问他三点五 flash 大 概是个什么水平,他回答我这个什么,他回答我 step 三点五 flash, 他 直接这个理解能力首先就不行, 然后我就想着那我再问一句吧,我说 jamming 的, 结果他回我什么 jamming, 一 点五 flash, 他 甚至连连网搜索都懒得搜,他就直接用旧的知识库里的信息去给我回答,直到最后我直接说三点五 flash, 他 才去就真正的回答对了。 然后我们去用 cloud 去跟他对比一下,我问 cloud 三点五 flash 的 什么水平,他第一时间是能反应过来,我再问三点五 flash 的, 然后后面我又补了一句,他就直接就回答对了,对了,而且这个是三奈特啊,几个月前的模型,我们再看一下他新出的那个 antigo, 二点零只有这个,嗯,对话历史和日常任务没了,就就这俩。 然后我们看 codex, 真的 就没法比,有插件,有自动化,还有搜索,就就光这这一个侧边栏都比它多那么多功能,而且还有直接能用的什么 play mode, agent mode 之类的, 然后这个 antigravity 呢?他甚至连一个直接能看见的 play mode 都没有,真的就拉完了。不知道谷歌在下什么大级,但是现在的见面礼真的很拉,还是希望谷歌以后越来越好,我是不开心,祝你们天天开心。

我实在太后悔来谷歌 i o 二零二六了,因为我发现我过去很多事没干成的借口一个都没了。比如说我梦想是拍一部电影,放在过去想想就行了啊,剧本、拍摄、剪辑、配乐、宣发,每一部都能把人选对。所以以前很多梦想死的特别体面。不是我不想干,是条件不允许。 但这次谷歌 i o。 供下来,我有点尴尬,因为它好像在一层一层告诉你,条件不允许。句话,以后可能越来越不好用了, 你说你没预算,拍不了大片。好,新升级的 jimmy 现在可以先帮你把脑子里的画面画出来,你可以生成一段视频,还能继续对话修改这个人物,保留这个镜头,别动背景,换掉风格,换掉其他部分重新来。以前你要把一个画面画出来,得找人,找场地、找设备。现在第一步可能变成,你先把脑子里那个画面说清楚, 好画面有了,可你总不能变成,你先把脑子里那个画面说清楚,好画面有了,可你总不能变成了电动车,可还行。 这时候 flow 就 很关键,它不只是生成视频,而是让你开始控制镜头视角和连续性。比如你给他一张自行车图,他可以生成不同的角度。所以 flow 更像是 ai 时代的导演工作台。你不是只让 ai 给你一个结果,你 开始调度它,换机位,换角度,换景,别换节奏。好画面能动了,镜头也有了,可电影不能是末片吧,没有声音,所有高级感都得打五折。 以前配乐也很麻烦,要找版权翻曲库,找制作人,但 flow music 让我感觉音乐也开始变成可以对话修改的创作主键,你可以说,这里更燃一点,这里更梦幻一点,古典再重一点,更像科幻片。这就不是简单生成一首歌了, 而是 ai 开始帮你补上情绪。因为很多时候,一部片子真正让人起鸡皮疙瘩,不是画面本身,而是画面和音乐撞到一起的那一秒。 好预告片有了,配乐也有了,可你总得宣传吧?过去做宣发,又是另一套系统,广告公司、物料制作平台适配,听着就投的。 但 jamie 让我看到的是,广告也可能变成 ai 原声的。它不是提前拍好一条广告,让所有人看同一个版本,而是可以根据产品卖点、场景和上下文,生成更贴合当下内容环境的视频广告。换句话说,未来你做的不只是一条宣传片,而是一套可以不断变化的广告。表达 好宣传有了,那如果我还想做点电影衍生呢?比如互动官网、小型游戏,或者让观众提前探索的电影世界呢?放到过去,这基本是大 ip 才敢想的事。但 project jenny 开始把这个想象往前推了一步, 你可以移动,可以转视角,可以在里面走,最后连网站和界面也在变 flatter 这类 g i u i 的 方向,让我感觉未来界面可能不是写死的。 你要做电影官网、角色页、预约页、互动页面,它可能都能根据你的内容和用户意图动态生成。它不是在展示几个孤立的 ai 工具,它是在告诉你一个想法,从脑子里冒出来,到变成能看、能听、能传播,甚至能互动的作品。过去那些很贵很难卡点的环节,正在被 ai 一 点点打通, 这些看起来像魔法的东西背后其实是谷歌用模型平台和开发工具给开发者铺的一条更短的路。所以来了谷歌 i o 二零二六,我感觉自己以后不能再装怀才不遇了。而最后只剩下一个问题,我脑子里那个东西到底值不值得被做出来?

哈喽,早上好,现在是早上的七点,其实我五点钟就起来了,因为今天欧迷你上线,我就想看一下我的账号能不能有幸的去使用上它。在拍这个视频之前我已经嗯简单的探索了一下了, 所以现在的话呢,可以给大家拍一个视频。首先我准备了一段大概十五秒的一个脚本,脚本里面是包含了创意,然后就设计元素,因为早上试的时候呢啊,放了一个真人参考图上去是不过审的,那么我就把这个形象人物形象的 这些描啊特征我都用文字去让 ai 给我描述出来了。我试过有大概两个渠道是可以用上欧迷你的,详细的话我就视频里面不能讲了,你们自己看就好了。然后,呃,然后的话选择十秒,竖屏参数都是一样,然后把这个内容放上去,我们点开始 一次就呃生成两个哈,这一边是 c 档是二点零的,同样的 c 档是二点零,我们选十五秒,这边可以选十五秒哈,哦, ok, 呃,然后欧米尼这边的效果已经出来了,我们看一下哈,唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的种熟时区 deep moment 咖啡。 然后这一次,呃,点进去之后呢,是要有一个像进度条的一样的东西,就是我可以随意拖动,随意拖动到每一帧的一个地方,然后刚刚我尝试一下这个,这个挺有趣的,就是我拖动到男主角的这个地方,然后跟他说把男主角的衣服改成黄色,其他 五遍,然后直接发送给他。这个就有点像我们在啊制作制图的时候啊,对话框的一个形式,告诉他我在哪里修改修改什么地方,然后就跟我昨天发的一个前三是很相似的,哎,你看他就把这个男主角的衣服改成黄色了。这时候我们回去看一看, c 档是二点零的,还在排队。好,现在 c 档是二点零的效果也出来了,我们看一下哈。 唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的专属时区, deep moment 咖啡, 专注每一滴。然后两个模型对比下来的话, c 档子二点零的运镜还是比较优秀的。然后欧米尼的话呢,它就是中规中矩的一个感觉,在实际应用上面的话呢,它的效果也已经不错了。 呃,今天演示的这个还相对比较简单的,动作幅度小,场景简单。呃,那么在后面的话,还会在实际应用上面去看一下动作幅度大,场景切换的比较丰富的情况下,它的一个表现是怎么样。 讲的再好,实际应用上面的体验感是非常重要的。那么在后面的一个广告片的时候,我也会融入到,如果使用 omini 的 话,它的效果会是怎么样?那么我们下期见啦,拜拜。

上班了各位,昨天晚上谷歌又发布了 drive my 三点五 plus, 还有 anti gravity 二点零竞争真的是进入白热化了。 coldest 昨天晚上赶紧重置了一下额度。