兄弟们两天没睡好,全因为给他们上刷到一本书。这本书是一个谷歌的资深工程师亲手写的,专门拆解 ai agent 底层设计逻辑的硬核内容,中文名叫智能体设计模式。 我之前对 agent 的 认知说实话就很乱,知道有这个概念,但是就是联系不起来。这本书简直就是给我打通了任督二脉 提示词怎么串联成炼乳工作调用的出发机制,多个智能题,怎么协同配合?这些东西怎么拼在一起,怎么让 agent 真的 能干活, 里面全都有。更香的是有人专门做了完整的中文翻译版,直接免费放在 excel 上。目前已经积累了五 k 的 star, 想把 agent 吃透的这本不看一定会后悔的。
粉丝1.1万获赞9.7万

ai 全 skills 排行榜来了,先看效率工具 top 三第一名, agent brother 浏览器自动化神器第二名,谷歌全家桶管理工具第三名, out of data 自动更新系统再看成本控制神器 free ride 聚合免费资源 token operator, 降低百分之九十 七的成本。认知进化系统 self improving agent 排名第一的自进化系统 delete long time memory 让 ai 越用越聪明,你用过几个。

两分钟带你看完今年的 google i o。 今年 google 主推了两个模型,第一个是 gemini omni, 第二个是三点五 flash。 omni 最主要做的就是视频的剪辑。 gemini 三点五 flash 主要用于写代码,还有做 agent 在 写代码这个板块,他们推出了 anti gravity ide 的 二点零版本,最大的亮点是它可以支持有很多的 sub agents, 它们也在现场演绎了林真骑手用很多的 sub agent 做了一个 operating system, 还是挺厉害的。然后在 agent 的 这方面,他们推出了 gemini spark, 它相当于你的一个个人助理。 你在 spark 页面的左边来讲一下你今天要干哪些事情,然后这个 a 阵呢,就会在右边给你列出所有你要办的事情。手机版本长的是这样子的,跟他讲完你要干的事情以后,你的 a 阵就可以在离线状态下把你所有的事情全部都办完。当然这也不是免费的,它是一百道起。 在搜索方面,他们以前就已经推出了 search mode plus, ai mode 这些可以帮你炒股,帮你找房子。嗯,这次他们主推了一个叫 universal cart, 你 在使用谷歌很多产品的时候都是可以同时购物的,你买的所有东西都会被加在同一个购物车里面,你再刷 youtube, 再看你的邮件, 还有在做搜索的时候,你都是可以购物。里面有个很大的亮点就是针对信用卡玩家,如果你有很多的信用卡,不同的信用卡有不同的积分制度,它是可以帮你选能够最大化你的积分的那张卡的。修图方面,他们推出了 google picks, 比如这张图里面, google pix 可以 把竖屏的照片变成横屏的,也可以识别每个人穿的哪些东西,你把这个人的帽子去掉, google pix 都可以帮你一键修掉。在剪辑视频方面,就是之前说的 jamaican omni, 它可以把你的视频的背景换掉,把人物换掉,也可以生成不同的角度,比如说这是一个静态的图片,它可以通过这张图片来生成十六个视频, 是视频哦,也可以把视频的光源从白天换成晚上,还是看起来非常的真实的。在音乐剪辑方面,他们推出了 google flow music, 可以 把几秒钟的旋律生成一首比较完整的歌,还是挺好听的歌。硬件方面,他们推出了 audio glasses, 就是 带音效的眼镜,你可以用这个眼镜来听音乐,在做饭的时候来听你的菜谱,在走路的时候帮你导航, 可以帮你订外卖。这次的 audio glass 也跟两大眼睛商有合作,第一个是 gentle monster, 第二个是 warby parker, warby parker 的 眼睛长这样,然后 gentle monster 的 长这样。在人文科学方面,他们会主攻两个领域,第一个是预测台风,第二个是研究药物,比如说治疗癌症的药物。

谷歌 ai agent 智能体白皮书大家好,今天用一分钟讲透谷歌官方发布的 ai agent 智能体到底是什么。 ai agent 不是 普通大模型,它是能自主思考、会用工具、能分布干活的超级程序, 相当于给 ai 装上了大脑加加手脚。它有三大核心,组建模型,做决策的核心大脑工具连接外部世界,能查数据、调 a p i, 读文档、编排层,负责推理规划、循环执行,像厨师做菜一样一步步完成任务。 和普通 ai 比,它有三大突破,知识不局限于训练数据,能实时联网获取信息,自带记忆,能做多轮复杂推理,原生支持工具调用,会查、会算、会执行。它常用三大推理框架, react 思维链、思维数, 还能调用扩展函数、数据存储三大工具,靠 r a g 检测实时数据。一句话总结,普通 ai 只会回答 age, 会主动干活, 这就是 ai 从聊天走向办事的未来。

谷歌昨天更新的 flow 智能体也太好用了吧,可以直接一次性生成十四张图片,再也不需要一张一张去生成了,一起来看看是怎么使用的吧。今天给大家介绍一下最新的 flow 的 这一个 agent, 呃,特别好用啊,它的最好用的点在哪呢?就是它和一次性生成的图片没有上线。 嗯,假如说大家看到像我当前的这一个画面,我可以给他一个画面,他瞬间呢就可以给我生成十四张完全的这样的照片,大家看到瞬间十四个角度,这都可以了。好,这个具体怎么来操作呢?首先第一个,这是我的根图啊,随便拿一张你的图片出来啊,添加到这里面。第二个,这里使用智能体。 好,然后的话呢,点开这个智能体,好,我把它删掉,添加指令,添加指令之后的话呢,把我们的这一个十四分镜的这个模板给它拉进来,放到这里面粘贴啊,就可以了,点击确认。好,这样子的话呢,那么 他就有了十四个的规则啊,有了这个规则之后,那么你就写关键词叫生成十四张图。好,然后根据以上 十四个以上规则,就是因为我的那个里边是有十四个角度啊,以上规则生成十四个角度 的图片,这样子的话呢,你就直接点击开始。哎,这样的话呢,那么他这边就会稍等啊,他这边就会有这个 需要你确认,如果你是 bro 的 这个会员的话呢,升图是免费的,那么他就会让你确认一下,然后您啊积分啊可以使用,当然你也可以批量的生成多个视频。好,这个是 第一个操作,就是大家可以看到他会瞬间给你生成十四个角度的这一个图片,这第一种的。好,第二个的话呢,那么有了这一个之后啊,那么第二个就是我们以前做画面是使用九宫格的,那么以后我们其实从理论上来说就不再需要做九宫格了,那么我们的九宫格直接就可以变成, 大家可以看一下。好,我们的九宫格直接就可以变成一张一张的图。好,那这个的话呢,也是很简单的直接选择智能体,然后的话呢随便选一张这个九宫格啊,对,这些都是我刚刚已经弄完的。 好,假如说我到这个地方选择这张,呃,前面的这个九宫格吧,选择这个九宫格添加到这里面。好,那么直接生成啊,九宫生成九张图片。好,把以上九宫格图,九宫格图片啊,放大每一宫格。 好就可以了。好,直接点击它就可以了啊,这个时候你看到这里就会放大每一宫格的图片,点击确认。好,那么直接点击确认。哎,这个时候的话呢,他就会收到信息, 就帮你把这个呃画面啊,生成九张这种独立的照片,这样子就可以了啊,效果非常好,包括清晰度,大家可以看一下清晰度, 嗯,没有任何问题。好,这个就是他的智能体的使用啊,非常的方便。好,感谢大家观看。

自从有了 ai 编程啊,感觉自己强的可怕,手握 cloud code 和 codex, 看到啥呢,都想自己搓一个有好的开源的轮子啊。我不用哎,就是要自己搓,结果搞了一大堆没人用的东西,除了烧了一堆 token, 啥用也没有。被说中的小伙伴可以弹幕扣个一哦。 作为一个自媒体博主啊,我经常看到别人用 ai 编程开发出一些很不错的产品,甚至啊,还能商业化变现,然后直拍大堆,我咋就没想到这个 idea 呢? 于是我开始琢磨,能不能第一时间知道别人在开发什么样的 ai 产品,给我一些借鉴的灵感呢?嗯,思来想去,我想到了一个办法,那就是去看每天注册的域名情况。 一款 ai 产品大概率是有自己的网站的,如果我能拿到每天注册的域名清单,从中筛选出与 ai 相关的产品, 然后整理成一份报告,那可就在第一时间能够发现一些潜在的产品商业化的机会了呀。虽然这个方法不绝对有效,也无法覆盖一些潜在的帮助,这就够了。 我的计划呢,是这样的,第一步,先搞到数据源,也就是过去一天新注册的域名清单。我找到了一个叫 dosmonitor 的 网站,有提供这样的服务, 包含过去一天、一周、几个月新注册的域名,不过呢,需要付费才能下载。我刻进了九刀,买了一个会员。 第二步,为了简单起见,先只关注点 ai 点 com 下面的子域名。第三步,很多域名注册之后呢,它不会立刻上线,所以呢,需要先初筛一遍,把没有绑定 dns 无法访问的域名啊给去掉。 有些虽然可以访问,但是只是域名占坑,要么会进行跳转到其他网站,要么挂了个域名出售的页面可以通过网络获取到首页的信息。之后啊交给 ai 做一层过滤,把与 ai 不 相关的给删掉。第五步,剩下的量就比较少了, 让 ai 根据首页的 html 进行分析,排序出前十个与 ai ai 产品高度相关的域名 老。第六步,让 ai 操作浏览器,依次访问这些域名,然后把这些网站的首页给截图。最后一步,综合分析这些数据,给我出具一份报告,我把上面这一套流程啊写成了一个 scale, 然后使用 marvis 这款产品啊完成给跑通了。 marvis 是 腾讯最新推出的一款 ai 硬件的产品, 界面非常清爽,开箱即用,不用你配置任何 ai 接口之类的东西。它的 logo 呢,是一匹马,对,就是牛马的马。 marvis 把不同的工作拆分成了多个不同的子 agent, 每个呢擅长的工作不一样,比如 app agent, 专门负责调用电脑上安装的其他应用,与他们打交道。 computer agent 呢,负责操作电脑等等。那通过这些 agent 的 协助就可以完成复杂的工作。那具体是怎么用 marvis 跑我上面的 ai 域名分析流程呢?我来给大家演示一下。 打开 maris, 找到技能广场,然后点击工具库,在右侧可以筛选我的技能。点击这个加法,把我写的这份 skill 给导进来。 ok, 解析没有问题,接下来就可以使用它了。新建一个对话,直接告诉他帮我运行 ai 域名分析这个 skill, 他 就开始干活了。 点击这里啊,可以看到他内部的详细工作过程,为了让流程更加稳定可控啊,我把这里的二三四这三步啊筛选域名的过程写成了一个拍成脚本。因为这里面的流程呢,他相对比较固定,直接用程序来处理会更好一些。一方面呢,我可以发挥多线层的优势,域名量大了,分析起来会更快。 另一方面呢,这样不依赖 ai, 还省下了很多的 talkin。 ai 只需要根据 skill 里面的工作流程的约定啊,去执行这个脚本就可以了。说一个我觉得挺让我意外的点,我发现 marvis 一 开始执行这个域名过滤脚本的时候啊,它执行失败了, 那一般的 app 可能就直接告诉我任务失败,因为关键环节的脚本跑不通。但是 marvis 啊,他根据报错分析了原因,发现是电脑上的拍摄环境缺少了 request 这个库,然后他居然自己主动去把这个库给我装上了,然后重新跑了脚本。 这一点小的设计,让我感觉真的有那种质能的感觉了。不仅是机械的执行,我 skill 里面写的流程遇到问题呢,他还会灵活的应对。 我这里为了给大家展示效果,所以就只截取了过滤之后的前一千个域名。可以看到 mars 给我挑选出了最有价值的五个域名,然后他打开浏览器,一个一个的访问这些网站,全程自动,不用我动手。最后他把所有的截图和首页信息综合起来,给我生成了一份图文并茂的分析报告, 每个产品是做什么的,大概的商业模式是什么,有没有参考价值,一目了然。整个流程跑下来呢,差不多十几分钟, 换我自己手动做的话,怎么也得折腾大半天,而且还容易漏。更爽的是啊, marvis 可以 非常方便的设置定时任务,我直接告诉他每天早上七点自动运行这个 skill, 把报告保存到桌面,设置好之后啊,他就真的每天自己跑,我完全不用管。 说到这里,可能有人要问了,这种自动化任务,用龙虾 clark 的 会也能做吗?为啥要用 mars 呢?我来说说我自己的真实感受吧。首先是开箱即用这一点啊,龙虾和很多同类的工具呢,配置起来真的很费劲,要自己去申请 api 的 k 填各种参数,研究 m、 c、 p 怎么接入,光是这些环节啊,就能圈脱一大部分人了。 marvis 的 体验完全不一样,装好就能用,模型工具都已经给你配好了,技能广场里面也有很多现成的 skill, 可以 直接安装,小白也能上手。其次是 windows 友好。说实话吧,现在很多 ai 编程工具和 a 镜头类的产品啊,对 mark 的 支持普遍比 windows 要好很多。 很多。工具啊,在 windows 上都有奇怪的 bug, 一 跑起来就各种异常。 marvis 针对 windows 的 环境啊,做了深度的优化处理,用起来呢就要顺滑很多了。这对大多数用 windows 的 朋友啊,是一个很实际的优势。 但我觉得最方便的还是它的多端操控体验。手机上通过微信来对接 mars 啊,属于机操,就跟微信上对接 opencloud 一 样。这个没啥好说的,但是手机上能够直接看到电脑屏幕,不仅能看,还能直接操作应用,这就爽了。每天早上我醒来不用开电脑,直接拿起手机,打开 mars 的 移动端, 昨天晚上定时任务跑出来的报告就已经在那等着了,直接在手机上看。如果我对某个域名背后的产品感兴趣啊,还可以让 marvis 继续挖一挖他的竞品,或者抓更多的详细信息,直接在手机上输入指令, marvis 就 在家里的电脑上帮我执行,我还能实时的看到任务的进度,这种远程操控的感觉真的很爽。 妈妈是不仅仅是一个 agent, 他 还是一个智能的电脑管家。我说两个非常有趣又实用的功能你就明白了。首先是文件的语义搜索,这个是让我觉得非常惊艳的一个功能,传统的文件搜索呢,只能基于文件名,文件内容, 但有的时候啊,我们享受一个东西,名字和内容都不太好表达。最典型的呢,就是图片,比如我的头像是蜘蛛侠,我直接搜索蜘蛛侠就能找到我的头像图片。 marvis 能够理解本地电脑上的文档图片内容,基于自然语言进行搜索,非常的好用。哎,看到这里啊,我估计有小伙伴担心数据安全的问题了。 marvis 有 一个隐私模式,可以切换到端侧大模型,文件完全不上传,数据都在本地跑,甚至可以完全断网运行。 这个对于处理一些隐私性要求比较高的场景来说啊,这一点非常重要。而且啊,本地模型它不消耗云端的 talk, 对 于我这种要跑大量日常自动化任务的人啊,还能省下不少的成本。 第二个是用自然语言控制电脑的设置, mars 有 一个指 aint 的, 叫做 computer, aint 的, 专门负责电脑的各种操作和设置,要修改一些电脑设置的时候呢,不用再去控制面板里面找半天。比如直接跟他说把我的屏幕亮度调低一点,把分辨率给调高一点,他直接就帮你做了。这对于很多电脑新手来说啊,真的非常实用。 总体来说, mars 给我的感受就是简洁实用,没有什么学习门槛,打开就能上手,而且工作啊非常靠谱。 maris 刚刚开放了全量下载使用,快去领取一个试试吧!我是轩辕,我们下期再见!

哈喽,大家好,我是 coco, 今天跟大家快速分享一下 google 二零二六 i o 大 会到底有哪些新的更新。首先呢, google 更新了他们的最新的大模型 google flash 三点五,这个大模型从它的内容来看,主打的是一个快,我觉得非常适合一些平时日常办公需要一些文字的输入输出。 这次大更新非常有趣的点,我发现它的大模型是结合了 google 下面的所有生态,所以你可以用 google flash 去串联 google 旗下的所有的应用软件,比如说 youtube 啊,比如说 google drive, 比如说 google sheet, 这些办公软件都可以通过 google flash 一 键串联起来。 第二个大更新是 omni, 从官方的描述来看,它的目标是 anything to anything, 也就是从任何的输入到任何的输出。我觉得这点是非常有趣的,因为我们之前大部分的视频生成都是纹身图或者是图身图的模式,但这次 google omni 可以 从 文字、图片、声音,任何形式的文稿去生成任何形式的内容。并且我从他的官方视频看出来,他输出的内容会更加符合物理的规律。打个比方,以前我们做视频呢,常常会出现人飞在空中,或者是一些不符合物理常识的画面。 这次的升级,不管你用什么样的语言去描述你想要画面,他都会遵循一定的物理规律,让视频看起来更加的合理。 第三个更新的是 google spark, 我 把它称之为美国豆包,它的使用方法跟我们平时使用豆包是一样的,支持语音文字的双输入,并且同样一键串联了 google 所有的生态。 我觉得它非常适合放置在手机里面,然后进行一些远程的办公,或者是户外的时候,通过手机来管理你的工作文档。 最后是 google picks, 我 可以喊它为傻瓜式 ps, 它的功能就是可以在画面里面用鼠标去点击一些细小的点,然后圈出来,用文字描述去修改。我觉得它是可以为一些不会使用 photoshop, 不 会使用设计软件的人提供了很好的一个方向。 我觉得这次的更新大会表现了 google 整体的方向是往广度去做了。与其他两家的 ai 大 厂相比,我觉得 google 的 模式更加是像我们国内的字节跳动一样,他们更希望把 ai 用得更广,用户更多,让更多的人真正的用上 ai。 ok, 以上就是一个速递了。

谷歌正在用 ai 杀死自己!在 google i o 二零二六上,谷歌戴着 gemini 搜索 android xr 眼镜、 ai 购物、 ai 视频、 ai 操作系统,全面冲进 a 阵时代。他想做的不只是让 ai 回答问题,而是让 ai 主动替你完成任务。 这次最值得关注的有三点,第一, google search 迎来二十五年来最大改版,搜索正式被 jimmy 接管后,用户不再只是输入关键词,而是可以上传图片、文件、视频,让 ai 直接理解和解答,甚至持续追踪租房、商品上新等信息变化。第二, google 开始抢下一代屏幕。 android x。 二、全面推进,重点不是屏幕,而是 ai 加摄像头、加语音。未来你不一定低头看手机,而是让 ai 直接看见你的世界,帮你导航、翻译、提醒和判断。第三,个人 ai 一 阵正在成型,他不只是聊天助手,而是能在后台持续干活,帮你整理邮件、汇总文档、维护表格、制作 slides, 甚至一句话完成多个任务。 所以这场发布会的核心其实就是一句话, ai everywhere 购物地图、视频、照片都开始 a 震画,这对企业来说信号也很明显。未来用户不一定自己搜、自己比,而是直接让 ai 给答案。品牌要想的也不只是搜索排名,而是 ai 答案里的推荐位置, 这就是 ai 搜索优化越来越重要的原应。当用户问 ai 哪家公司靠谱,哪个品牌值得选时,企业能不能被 ai 理解、引用和推荐,可能就会直接影响用户决策。

我他妹的,我看到这个十五点五十以后的时候,我以为到了三点五十以后他这个额度会重新刷新,然后到了四点多我给他发消息的时候,我发现他还给我这个弹窗, 这个是呃, google 这个 it gravity 的 一个客户端, 然后他不是第一次谈这个啊,我以为他到了几个小时可能就会轮回,然后就会刷新这个免费额度,没想到我再仔细看了一下,他全是五月二十七号,我现在是 五月二十一号,也就是他这个是以周围单位去记的,我,我再要用这个就出发到五月二十七号了,因为我用的是比较,一直是比较把这个能力比较强的。这几个两个模型你看都是这个 cloud ops 四点六,这个应该在 cross 四点七发出之前,这两天刚发的四点七是最强的模型, 因为我开我是在开发一个呃,一个大模型的记忆系统吧,因为我觉得 从底层逻辑来讲,现在的记忆系统它都会有各种缺陷。大模型的提取的其实就是你逻辑上,就是你整理你的文件的一个逻辑,你整理的你的文件和你读取你的文件的一个逻辑,你整理的越具体越巧,然后你读取的时候越快 啊,这个越精准,这样的话你不光说是你这个速度快,你这个手头肯,而且大模型给你的回答会越精准,因为你没有干扰因素啊,这这方面我觉得我们这些 做工程师的他是个强项,他本来就就喜欢去整理他的资料,大家有空可以开给大家看一下,我整理我的,我做的规范的,我给你念,讲真的是整理的非常的细致,每个规范我都自己单独给他执行了一个命令,按统一的格式 就十几个 g 的 规范,所以说我自己就想改造一个这个 ai 政策的一个记忆系统。 但是我我我这个比较思考的比较复杂,这里面有,你看有各种,有各种这个逻辑,逻辑的判断,还有一个循环, 这个只是其中一个很小的一个解锁模块,就这么复杂,还有还有机器的模块,还有互相的直接之间的联动关联传输, 所以说我就用的比较高一点的这个模型,能力比较强一点的模型,所以说很快把它耗完了啊,我现在在考虑了,我给大家配一个其他的模型,再试一下,看能不能验证一下这个想法。

一年一度的 googleio 又来了,今年的核心主线只有一条, ai 从副驾驶正式进化为执行者。我们直接拆三个层面模型、平台、硬件一个一个看,而且你会发现 它们是环环相扣的。先从模型说起,首发 gemini three point five flash, 比上一代 pro 快 四倍,但快只是结果,真正的设计目标是为 agent 工作流优化,低延迟加高行动力。 另一个核心模型 gemini, 原声多模态,它真正吃透了视频中的物理规则,能直接从视频理解并生成内容,支持内联编辑。这是多模态的一次实质性跃升。模型再强,如果没有一套调度系统,也只是孤立的引擎。所以 google 把重心放在了下一层 平台 anti gravity 二点零不是普通 ide, 是 agent first 的 桌面级中书,支持多智能体并行调度,动态子智能体后台自动化,对高频自动化场景是降维打击。 开发者测 gemini a p i 正式推出 manage agents, 大 幅降低编排门槛。 google ai studio 也原生支持 android vibe coding。 移动端 agent 开发成本骤降, c 端落地。最炸裂的是 universal cart, 能跨平台自主规划、比价结算的智能体购物车搜索即执行,电商逻辑被重构。同时, gemini app 内置了全天候 agent, gemini spark 配合 workspace 原声语音交互,办公场景开始真正无人值守。但聪明的你可能发现了,这些 agent 如果只能在手机或电脑里运行,体验终究受限。 google 显然也想到了 安卓 xr 智能眼镜,今年秋天发售。端测 ai, 让你不用掏手机就能实景导航、实时翻译,即拍即发。系统层面, aluminum os 正式登场, android 与 chrome os 深度融合,为 google books 桌面硬件提供统一 ai 原生的跨端体验。 最后顺带提一句,安全 sense id 和 c to p a 全面铺开 ai 生成的音频可追溯。总结一下, google 今年不再拼参数,而是构建一个可大规模商用的 agent 执行层,模型是基础,平台是股价,硬件是触点,环环相扣。我是 ashley, 分享更多 ai 资讯,我们下期再见。

谷歌这次不是发新模型,是真想把 ai 变成操作系统。 google io 发布会最新一波消息里,最炸裂的不是参数,也不是跑分,而是两个字, agent。 谷歌这次主推的 gemini 三点五 flash, 卖点非常简单粗暴,更快更便宜。 多家媒体提到,输出速度大约二百八十九 tokens 每秒,比部分前沿模型快四倍以上,价格低了将近一半。 他瞄准的已经不是最会聊天的 ai, 而是最适合跑智能体、工作流的 ai 引擎。为什么这件事值得你特别注意? 因为 agent 最怕的不是不够聪明,是太贵太慢跑不动。一个真正能干活的智能体,不是调用一次模型就完事,他要连续拆任务、查资料、调工具、写代码、反复验证 模型便宜一半。整条工作流的成本差距就是天壤之别。更狠的是谷歌展示的另一个案例,在 anti gravity 二点零平台上,九十三个 ai agent 协同工作十二小时,写出一个操作系统 api, 成本不到一千美元。 这个数据目前主要来自发布会展示和二次传播。第三方独立赋现的信息还有限,但他指向的趋势很明确, ai 已经不只是回答问题,他开始像团队一样组织起来干工程了。 所以这次发布会真正可怕的地方,不是谷歌又秀了一轮技术肌肉,而是他把模型、编程工具、搜索、个人助手、中端入口全部往 a 景化这条线上收拢。 过去的大模型像聊天机器人,下一阶段的 ai 更像一个能调用工具拆解目标、持续执行的数字员工。谷歌想做的不只是这个员工的大脑,他还想做这个员工的办公系统、工作流平台、搜索入口、操作系统,甚至未来的远近和终端。 模型战争结束,这个说法不一定准确,但模型不再是唯一主角。这件事越来越清楚了,真正的竞争已经在转向,谁的 agent 更会干活,谁的成本更低,谁的生态更完整,谁能把 ai 接近真实世界的工作流。 从这个角度看,谷歌这次不是在追赶,是在重新定义下一阶段 ai 的 游戏规则。 过去两年叫大模型时代,从现在开始, ai 可能真的要进入 agent 时代了。这个转变对每一个做商业决策的人来说,比任何一次模型跑分的刷新都重要得多。

主题, google ajax 智能体大家好,今天聊聊谷歌全新推出的 ajax 智能体。这类智能体突破传统问答模式,不再局限单次对话应答,具备自主规划分布、执行、复盘纠错的完整能力。它能拆解复杂任务, 自主调用工具查页信息,衔接多步骤流程,一步步推进,直至达成目标。一拖强大底层模型加持 a 阵就有记忆留存与逻辑推理能力,可理解长周期需求适配、办公协助、生活服务、科研诊所等多元场景,同时支持多轮交互调整方案, 灵活应对过程里的各类突发状况。和普通 ai 相比,智能体更像独立助手,主动思考行动,而非被动接收指令。总结来说,谷歌 a 阵的标志着 ai 从对话交互迈向自主办事的新阶段, 也开启了人机合作的全新形态。

本期终于轮到 google pay 提交一笔真正的支付了,听上去有点激动,别着急,让我们先了解一下 ai 支付里包含哪些 google 重磅产品。一、 gemini 是 总指挥。二、 universal cart 通用购物车。三、 google wallet 是 凭证保险箱。四、 google pay 是 最终结账收银台。 先看 gemini, 这是整套体系的大脑,也是用户唯一直接交互的入口。它有四个核心角色,第一,意图理解层。小胡说,帮我买适合马拉松的跑鞋,脚稍宽,预算八百以内。 gemini 把这句话拆解成结构化参数 宽限二亿四亿,长距离跑步价格上限八百,品类 running shoes, 这已经不是关键词搜索,而是真正理解你在说什么。 第二,个性化推荐层,基于这些参数在六百亿家商品中做语义匹配,而且能理解高档但不浮夸这类模糊约束。第三,智能体执行层,用户授权后, gemini 在 后台持续监控,条件满足时自动触发购买,不需要用户在线。第四, business agent, 宿主 品牌方可以在 gemini 里部署自己的 ai 导购,并提供专属折扣。 gemini 的 输入方式不只是文字,它支持图像语音,二零二六年还新增了眼镜端。 再说一下广告模式的转变,这一点非常关键。传统搜索广告的路径是展示广告,用户点击跳转到商家网站才能完成购买。 google 只从点击这一步收钱,后面发生了什么,他看不见。 gemini 导购把 google 从卖点击升级为卖成交计费,从 cpc 变成 cpa, 每次成功购买才计费。对广告主来说,转化质量有保障。对 google 来说,单次收入大幅提升,这是广告模式的根本性改革。 universal cut 是 今年 iu 大 会上刚发布的新产品,五月二十日才公布首发。它解决的是一个长期存在的痛点,你在 google 上搜索到了商品,就要跳出去,到商家网站才能加购、比价、结账。 现在, universal cut 把这些全留在 google 内部,跨越 google search、 jello、 youtube、 gmail 四个平台,购物车是统一的。它的五个能力我快速过一遍,价格监控和历史追踪,降了就通知你库存预警,补货了第一时间通知 商品。兼容性检查,这是一个很独特的功能。比如你在不同商家买电脑配件, cart 会帮你检查各个零件能不能组装在一起,不兼容就在结账前告诉你,而不是等你买回来才发现。 忠诚度整合,自动帮你叠加积分优惠券,算出最省钱的组合。 a p r 约束执行,结账时自动叫验价格上限,超了就拒绝,保护你不被坑。 universal cart 的 战略意义,过去 google 是 流量分发者,用户搜索点击广告,跳转到商家网站,在商家那里完成购买, google 只赚了一次点击的钱,后面什么都不知道。 现在,整个购物旅程都在 google 内部完成,发现商品、加购、监控、价格、最终结账一气呵成,不需要跳转。这个变化的本质是身份跃迁, google 从流量中介变成了商务操作系统。但有一点我要特别说明, google 设计上让商家依然保留 merchant overcourt, 也就是说,这笔交易法律上还是你跟商家之间的。 google 只是提供了平台和工具,这样设计一方面规避了很多监管风险,另一方面也让商家更愿意接入 google wallet 在 整套体系里扮演的是凭证保险箱的角色,所有敏感信息都锁在这里,外界只能拿到加密令牌。 最核心的设计是 opaque token, 也叫不透明令牌。具体怎么工作呢? wallet 后台存着你的真实银行卡号。每次发起支付, wallet 生成一个一次性随机自付串作为 token, 这个 token 交给智能体去走 a p r 流程。只有当最终清算的时候, wallet 后台才会把 token 映射回真实卡号。这意味着什么? 整个购物过程中,任何一个智能体,任何一个商家,拿到的都只是一串对他们毫无意义的随机字符,即使被截获,攻击者也拿不到你的真实卡号。 这和 apple 配 google 配 nfc 支付的 token 化原理完全一样,是成熟的安全架构。 wallet 还同时担任 a p r 的 基础设施,为 intent mandate 提供你的历史购买偏好,为 payment mandate 提供 opic token identity linking 是 wallet 里一个非常贴心的设计。大家可能会有顾虑在 google 里买东西,我在那个品牌的会员积分还算不算? 答案是,算!而且全算!流程是这样的,你在 wallet 里一次性绑定各商家会员账号以后,每次在 google 内购买 ucp 建立商务绘画时, wallet 会生成一个加密的会员身份 token 传给商家。商家用这个 token 在 自己的系统里查到你的账号,识别你的会员等级, 积分折扣、免运费,全部自动叠加,跟你在官网买一模一样。这里有个很重要的隐私设计,你的会员账号密码不经过 google, google 也看不到商家的会员数据库,双方的数据隔离,靠加密 toker 来做桥接。在小胡买鞋的例子里, brooks 会员积分十五块,就是通过 identity lincoln 自动叠加的十副,价格从六百二十九降到六百一十四。 最后一个产品 google pay 角色是结账收银台。先说和 wallet 的 分工,很多人会混淆。 wallet 是 凭证,保险箱存着你的卡号和权益。 pay 是 执行扣款的那个,负责把钱真正划走。 google pay 在 ai 支付里有三个特殊作用,第一, agent present 标志。当 ai 智能体发起支付时, payment mandate 里带着一个标志 agent present true, 告诉发卡行这是 ai 发起的交易,不是你本人点击的。发卡行就可以针对 ai 交易起用专门的风控规则,而不是直接把它当异常交易拦截。 这个标志是 ai 支付能被传统金融体系接受的关键。第二,全球覆盖,通过 mastercard 可以 触达全球任意一家发卡行。第三,闭环,但不垄断。 google 掌控了整个购物体验,但商家依然是法律意义上的卖房监管合规和品牌责任还是在商家那边,这让接入变得更容易。 最后,开放性。 google ai 支付支持全球各个卡组织支付公司接入,做到来者不拒。好,四个产品都讲完了,我们做个横向对比。 gemini 是 大脑,负责理解你说的话,协调所有其他组建,最终推动整个购物流程。 universal cart 是 耳朵和眼睛,在你下线之后持续监控价格和库存,等待最佳时机。 google wallet 是 保险箱,守住你的卡号和会员权益,其他人只能拿到加密令牌。 google 配是手,最终执行扣款,把钱真正转给商家。在购鞋的例子里,这四个产品分工清晰,各司其职,缺一不可。 我们来做个系列总结。核心设计原则只有一句话, ai 可以 执行,但每一步授权必须来自用户,不可被绕过。这是整套体系的底线,也是用户愿意信任它的根本原因。三个带走的结论,第一,信任靠密码学。 不是因为 ai 说我不会乱花你的钱你就信了,而是因为 mandit 链把每一步授权都写成了密码学合约,任何参与方都可以独立验证,出了纠纷有证据。第二, google 完成了从入口到操作系统的跨越。 universal cut 是 这个月签的标志性产品,但 google 同时通过 merchant of record 设计,让商家保留主权,监管和品牌责任都留在商家侧,降低了接入门槛。 第三,两层缺一不可。协议层的四个协议解决了,怎么实现产品层的四个产品解决了,用户能感知什么,把两层放在一起,才能看清楚整套体系。下一期我们看商业层面, google 为什么要花这么大力气构建这套体系?谁是赢家,谁面临挑战?谢谢大家关注我,下期见!

agent 这一年的进化,三步走完了,先是小龙虾 open claw, 然后是 hermes, 现在是 open human 说人话前两个给即刻玩儿。 open human 给普通人用。 它有三个杀招,第一招,一百一十八个 os 集成, gmail, notion, github, slack, 全是一键登录, 每二十分钟自动拉一次数据,你不用配 api, 它自己长记忆。第二招, memory tree 加 obsidian wiki, 所有数据本地 sql lite 导出就是 markdown, 你 的记忆永远是你的。第三招最离谱, 一个会口型同步的桌面吉祥物,能以真实身份加入你的 google meet, 不是 分享屏幕,是当一个真的忏悔者。 get up 两万八千六百颗星 token, 直接省百分之八十桌面 agent 这件事第一次有了能用的产品心态, open claw 让 agent 能干活, hermes 让 agent 会编程, open human 让 agent 终于能陪你过日子。

不用换编辑器也能用 ai 改代码。 gemini 现在幺零五 k star 儿。 google 把 gemini 做成了开源命令行 agent 工具,本底开源个人 google 账号,每分钟六十次,每天一千次, a p i p 按掉又付费。维米写了 emtoki 上下文窗口能读更大的代码。现场 内置 google 搜索文件操作 shell 命令和网页抓取查资料改文件连在一起。支持 mcp gemini mb 和检查点,复杂绘画可以恢复。所以强的不是 star, 是 把 ai 助手从聊天框推回终端。

google i o 这场直播核弹级发布会,你们真的看懂了吗?说实话,它讲的很杂,创新点没有。但是我关注到了未来方向的三大线索。 首先,新模型, gemini omni 新应用,未来人与 agent 的 交互方式,新方向,云端多 agent 的 运行架构,现在一口气带你看懂 google i o 大 会第一, gemini omni 与世界模型在大会上号称能从任意输入产生任意输出的世界模型,但目前看来,视频生成质量并不如 cds 二点零,但其特殊意义在于, 它似乎可以生成符合物理世界规则的虚拟世界,可以直接让机器人学习,意思就是生成一个虚拟但是符合物理规则的环境让机器人训练未来。我认为机器人训练的关键就在于能不能把真实的世界变成可训练、可推理、可交互的虚拟世界。 这就为什么我认为 omni 世界模型是未来发展方向之一。如果 omni 真的 可以从任意输入到任意输出,并且保证物理一致性,那它将完成迈向智能机器人训练闭环的关键基础设施的一大步。 omni 这条线真正值得看的不 不是谁的视频更好看,而是谁能先把生成内容推进到生成可训练世界。未来机器人智能体训练可能都需要这种符合物理规则的虚拟环境,所以别只把它看成视频生成工具。第二,交互方式的更新迭代演变。目前的交互方式对比以前变得大相径庭。 以前的 opencloud cloud 是 以终端看命令行的形式,现在例如 codex 桌面板有着更丰富的表达与交互。而 google 这次更新的 anti gravity 也在往这方向演变,原因很简单,更多面向普通人出发,像以前的需要一些代码基础,还要一直盯着代码细节,而 现在还能看清楚多个 agent 的 状态, google 称之为 mission control。 并且 anti gravity 是 以生成式 u x 进行实时交互,就是让使用者可以更快确认结果,从而提高工作效率。这和职场人、小老板、创业者有什么关系?以后不会代码可能不用焦虑,但未来的方向很可能在于,以前你输给懂代码的人,未来你可能输给会管理 agent 的 人。 当然,前期条件是你也要懂得 agent 的 知识。第三, google 版的 opencloud gemini spark。 它跟 opencloud 很 像,可以接入很多 m c p 工具,但 gemini spark 接入的是谷歌的全家桶,但更加吸引人的是,它将多个 agent 和谷歌的搜索一起交互, google 将它称之为 search agents, 它也可以像龙虾一样做到七乘二十四小时自动干活。 就是你设定好目标后,它将启动多个 agent, 开始时刻盯着不同维度的信息源以及处理信息,而且是根据信息的增加不断更新。重点是,如果一次调用,就会有无数个自带沙箱环境的云端 agent, 让 agent 持续看市场、看竞品、看客户、看政策。你还靠自己临时搜索、临时整理、临时判断,效率差距会越来越大。未来的 agent 不是 一个 ai 在 回答你,而是一组云端 ai 分 工协助,有的负责搜索,有的负责分析,而且每个任务都在独立沙箱里运行,安全隔离,互不影响。总结下来就是,第一,机器人训练方向 类似于 omni 世界模型生成物理规则供机器人训练。第二, anti gravity 负责调度 agent 人与 agent 不 断发展的交互方式。第三, search agents 负责长期盯任务, 以及七乘二十四多 agent 在 后台工作的架构。这才是我觉得普通人、小老板和创业者真正要关注的地方,不是马上焦虑自己会不会被替代,而是要看懂下一代 ai 工具已经不只是你问他答,而是在变成一套能训练、能调度、能持续运行的任务系统。这里是猫易同学陪你看懂 ai 变化背后真正和你有关的部分。

今天看到那个 google pay 已经把支付接近了 agent, 里面就是说下一代的入口可能已经不是说是一个单纯的按钮,而是说它是交易权限,就是 ai 支付这件事情,我觉得不能只理解成 ai 替你点一下这个付款按钮这么简单。然后真正大的变化是这个商业入口已经从人点击按钮变成了 agent 拿着授权去完成交易。 然后我看到这个 google pay 呃,不是发了一个那个新的开发者更新吗?就是里面有几个信息还是挺值得放在一起看的。然后今天可以跟大家聊一下。第一点就是这个 google pay 现有的后端已经跟这个 呃 merchant 的 id, 呃,就是已经兼容最新的这个 propter 了,也就是说这个商家不需要去重建核心的支付逻辑,然后就可以进入到这个 agnic commerce 这个嗯, 就是这个公共的支付前端了。然后第二点就是这个 google pay 还有呃它相关的一些 m c p 已经可以呃公共预览了,也就是说它可以让这个 ai agent 帮助开发者管理集成,然后排查错误,分析趋势,生成代码,然后官方说可能这个呃晚,今年晚些时候可能就会去开放。然后第三点就是 google pay 已经支持把这个支付能力扩展到这个搜索 app 呃上面,然后同时呃安卓端的这个新增动态也会回调,就是可以把这个支付按钮 提前放到这个商品页或者购物车的页面,然后做这个更快的 express checkout, 就是 更快的这个呃支付嘛。然后如果说你只看这些功能,很容易把它理解成这种普通支付的升级,但是我觉得它真正的含义就是 支付已经开始为这个 agent 做准做准备了,就是因为 agent 他 要替用户购物订票,下单,还有续费采购,最后一定会撞到同一个问题上面,就是他没有没有权利去花这个钱,然后有权利去花多少钱,呃,以及出了错谁负责?商家是如何知道 这笔交易是用户真实授权还是说是模型的误操作?就我看到小红书,抖音上面最近这个 ai 支付,还有智能体支付啊,支付宝 ai 支付啊,就是还有 agent 自己花钱这些内容已经有明显的这个热度了,然后抖音上面也能看到这个支付宝 ai 支付有三亿笔,然后 ai 智能体支付入口啊这些话题就都能看到。那小红书里面的这个 ai 智能体发起支付宝说明用户关心的已经不是 ai 会不会聊天,而是 ai 真的 能不能在商业世界里面完成一整套 工作流。那我现在看这件事情最关键的不是说是炫技,而是说是几个产品的问题吧,就是 agent 的 第一个边界就是他能不能帮你下单,然后但不能去这个无限的消费嘛,他必须知道就是说单词的上限周期上限,然后以及是否需要二次确认。然后第二点就是这个授权边界,买一杯咖啡可以自动, 然后买一台电脑要不要确认,以及这个续费软件是可以自动,然后转账给陌生人到底是不是自动的?这些不是说是单纯的体验问题,而是说是责任免责。然后第三点就是这个风控跟审计嘛,然后过去的支付风控主要是面对人和设备的,那未来就还要面对这种 agent 的 指令链上下文以及工具调用, 包括这个商户返回信息,其实每一步都需要去溯源。然后最后一点就是说你这个呃 agent 不 只说能成功付款,然后他还要可以进行失败了的回退,然后他要处理这种 呃缺货啊、价格变动啊、地址错误啊、支付失败,然后还有退款的这些争议。这个也就是我为什么说呃下一代 ai 的 商业入口不只是这个聊天框, 也不是说是一个单纯的支付按钮,它是这个交易权限,就是谁能让用户把这个一部分的消费决策交给 agent, 然后谁就有机会拿到这个新的入口。然后这件事情就是不能靠一句 ai 帮你下单去解决,它背后是这个支付系统,还有授权系统以及商户系统、分控系统,还有用户的信任都要去重新的设计。

现在有一个年收入三百万的机会,只要你对某一个行业有丰富经验,你就可以考虑成为一个 f d e。 anthropic 在 抢, open ai 在 抢,连 google 上个月也开始大规模招了。 f d e 是 什么? forward? deployed, engineer, 前沿部署工程师? 说人话就是公司派一个顶尖工程师驻扎到客户公司里,不是卖软件,是帮客户把 ai 真正用起来。工程师加顾问加产品经理三合一。你可能会问,这不就是麦肯锡那种咨询公司干的事吗? 还真不一样。传统咨询公司,比如麦肯锡、埃森哲,交付的是一份 ppt, 一 套方案,顾问访谈完,报告写完,人就撤了。客户拿到的是我现在知道该怎么做,但 fde 不 一样, fde 驻场三到六个月,亲手把代码写进客户的业务流程里,交付的不是建议,而是一个能跑起来的系统。 客户拿到的是,我的业务已经在跑了。这个差别是致命的。咨询公司一个项目几百万到几千万做完结束,但 f d e 模式,一个客户一年就是几千万到几个亿,一旦上线,深度绑定几乎换不掉。谁把这个模式做到了极致?帕拉蒂尔这家公司,今天市值三千两百亿美 金,比如空客几百万个零件的供应链,帕拉蒂尔派人驻场,把数据打通,交付周期缩短百分之九十五。为什么?大模型公司现在也急了, 因为光卖 a p i 一 年就赚几十万美金,养不活。但派人帮客户把业务用 ai 重做一遍,一单就是几千万。就在上周, opai 直接成立了一家独立公司,叫 deployable, 拿了四十多亿美金投资,专门干这件事。讲到这,屏幕前的你可能在打退堂鼓。 我是懂行业,但我不懂 ai 啊,我也不会写代码,这岗位跟我有啥关系?先别急着划走。 f d e 真正稀缺的能力不是技术,是行业,技术是可以学的, q c。 成本的低,但 但是一个客户的业务到底怎么转?痛点在哪?决策链上谁说了算?这些东西没在那个行业里泡过五年十年, ai 再聪明也学不会。所以这个岗位真正的稀缺资源是你这种懂行业的人,而不是懂技术的人。 f d e 这条路是为你准备的,绝对有启发。转给你身边那个在传统行业干了很多年,还在犹豫要不要碰 ai 的 朋友,关注 a 阵,早知道二零二六年,一起了解更多 ai 资讯。