粉丝2769获赞9336


最近谷歌推出了一个新的东西,叫做 a two u i, 它是让 agent 可以 实时生产交互页面的开源项目。我举个例子, 比如说我们手机里面有豆包,但是我们的豆包它是没有打车功能的,所以说它需要去对接一个打车服务。我说帮我去叫个车去机场,那他可能就打开某个打车服务,并且直接弹出来一个打车服务的窗口,就像这个样子, 有时间,有车型,还有确定轿车,这个就是 a two u i 的 工作, and i can 可以 实时生成可以交互的界面,它搞定了现在 m c p 和 skills 都完成不了的工作。如果你用 cloud 的 比较多,我认为这件事情对我们来说都很重要。 noshop 的 下一步可能就会出现在 artifacts 里。为什么会有这个产品呢?我们首先要讲一个事情,就是 mcp 和 skills 的 局限。由于它们是纯数据流的,所以说当 agent 去调用 mcp 的 时候,我们只能看到文字,或者说一串数据。 当 agent 去调用 skills 的 时候,我们也只能看到一串数据。就比如说我说定一个会议室会问你说要几点,你说下午两点,他就说预定。 我们全都是靠这种文字交流去完成任务的,但是有些任务用界面他是更好的。比如说我们要去选一个航班,我更希望的交互式,他能弹出来这一种列表,而不是给我一串文字, 这个列表我还能够去点他,这是最好的。我们人的大脑天生就喜欢画面一些的东西,而不是纯文字的东西,那么 a to u i 就是 补上上面那一层,交互的一层,就回到我们刚开始的豆包打车,例子,我们说帮我叫一个车,他就会弹出来一个地图让我们点,最后他怎么完成呢? 我们首先会发给 agent 一个任务, agent 它会写一串代码,它这个代码里面是包含里面的前端代码,还有一些数据, 也就是说我们所需要的打车的数据,它会经过一个渲染器,这个渲染器里面会有 a u u i 默认的组建和它的渲染方法,就会生成原生的 u i。 如果说豆包有它专门的渲染器,那它就会专门生成符合豆包 页面样式的 ui, 然后再返给用户,用户再去操作,然后这个操作又会给到 agent, 然后 agent 如果说 还需要这个界面交互的话,它又会形成这个循环。就像我们现在如果问一个 agent, 请问几点?我们是需要打字回答, 那么等到 a to u i 它成熟并能让人接了以后,它可能返回的就是一个日历组件。那么我们这里有个问题,既然它能画页面,为什么我们还需要 a to u i 而不是让 agent 直接去写代码呢?它有几个优势, a to u i 做法是给 agent 进行一个受限的组件库, 也就是说它能用日历,能用地图,能用表单,还有很多一系列的工具,但是它是不能去读取文件,执行代码或发送请求。 更糟糕点的是说不能够反问我们的系统,我们给了他很多工具,但是他是不能够让外部的文件通过这个组件库去伤害或者说去影响到我们本地的系统的,这本身是从安全角度去考虑。总结下来他就有几个特点,一个是安全, 我们只会让 agent 把允许的组建,不会让他去执行外部给我们的恶意代码。第二个是实时界面,它是边生成边渲染的。第三个是这个是一个跨端的, 因为它是实时渲染的,所以说它会根据我们的机型让 agent 去自我判断,这就是它的几个特点。那么除了这一层以外,我认为它影响更大的是它会形成我们的一个基础设施。 有了这层交互层,我们的整一个 agent 工具就全部完整了。我们的上下文层有 skills 可以 用,那么我们的工具层有 mcp 或者说 google 的 a to a 可以 用, 那么最后就还差一个交互层,交互层就是 a to u i 去弥补上,那么这三个能力注入了以后和 agent 去一起去合作,我们就能够去完整的做一个 agent 的 产品了。 这里我们再回感到 ansopik, ansopik 我 认为它接下来应该也会出 artifacts 的 二点零。 artifacts 是 什么?它之前 ansopik 出的代码渲染工具,也就是说我们左边写一串代码,右边就能够直接显示出来,它其实是 a to u i 的 一个图形了。接下来的下一步,我们现在的 agent 可能就会从一个对话的工具, 可以变成一个对话式的操作系统。最后说两句,一个是 a to u y 的 本质,其实就是给我们的存数据流补上交互层,我们是需要交互层的, 因为对于我们有好几个选项的时候,如果说除文字给我们,我们是需要靠脑子去记的,但良好的交互可以帮助我们降低脑子的负担,所以说很多交互是有必要的。我这里做了个例子,比如说写一个计时器, 这个 a two ui 的 魔法网站立刻就会生产出来一系列的代码,你看这边就是它展示出来的可以用的计时器,包括它的仓库里面也有很多案例,比如说这是飞机的,比如说这个是邮件的内容, 如果我们在 agent 里面去使用了以后,我们点击这个 setmail, 它可能就能直接去发送,还有购物车,还有这个音乐播放器,所以说 a two ui 其实就补上 agent 的 能力的最后一环。

谷歌憋了个大招,今天放出了一个颠覆性的 a i 浏览器实验 disco, 目标是把你的几十个标签页混乱现场,一键变成定制化的 ai 智能体工具。它的第一个王炸功能叫帧 types, 基于谷歌最强的网页标签, remix 成一个完整的交互式的网页应用。想想这个场景,为了规划一次旅行或者深度研究一个课题, 你同时打开了十几个甚至几十个标签页。机票、酒店、攻略、评价信息碎片让你头大。现在帧 types 能主动理解你这些标签背后复杂的任务, 直接为你生成一个聚合所有信息的定制工具。谷歌正在通过 disco 这个实验场,探索 ai 原生的网页使用方式,让浏览器从一个被动的内容显示工具,变成一个主动理解你意图并能自主组装工具的智能体操作系统。

google 大 神星座智能体设计模式来了!这本书几乎解决了所有关于智能体的问题。它是由谷歌 ai 大 佬 antonio 孤立锁住。全书共三百零四页 pdf, 系统梳理了智能体 a 帧设计领域的二十一种常见模式,还在提示链路由定型化反思工具使用规划多智能体协助记忆管理等内容。 每个模式均提供可运行的代码模板与清晰的架构图解,有效协助读者打通从原理到实现的关键环节,适合不同背景的读者深入理解和实践。书籍完整版 pdf 已整理,希望能对你有所帮助。

每天分享一个 ai 在 各行业的应用案例。大家好,这里是 ai, 这是 link, 我 们今天来介绍一下谷歌最新发布的 a two ui 协议, 这个协议的话可以让智能体交互不再局限于文本和音频,从而可以扩展到副文本聊天框计算,它可以推动智能体的交互范式转移, 然后实时的实现实时文本生成和实时工具应用生成的一个大融合。然后简单点的说,比如说我们以前在用 ai 的 时候, ai 对 我们的回复都是一堆的这个文字,比如说你帮我订一张从北京到上海的机票,那么 这个时候 ai 可能会问你啊,你需要周几的,然后你又回复周五的,然后回复完之后他又问你,你倾向于啊,这个就是说晚上还是下午啊?然后你再再回复,这个过程就非常繁琐。 如果说我直接可以在聊天界面里面有个附文本,让我选择这个的话,会使得用户的这种交互会变得非常简单。 那么的话,其实今天的 a to eui 协议就是解决这个问题的。我们知道谷歌在之前 gem 三发布的时候, 同时发布了它的这种复文本的能力,可以告诉谷歌说,哎,帮我寻找两张这个对应的机票,在什么什么什么,然后两张对应的游戏的这个票等等的啊,然后它这个时候它会帮你去寻找,寻找出来之后的话,这个界面上,你看这个界面上你可以直接跟它交互的,比如最便宜的有这些,然后你直接点击这个按钮,就可以跟它进行下一步的交互了。 那么我们的话,如果说想在自己的智能体里面,或者想在自己的按钮就可以跟它进行下一步的交互了,那么我们的话,如果说想在自己的智能体里面,或者是帮我们去实现这个东西的, 它可以帮所有的智能体都可以实现在聊天框里面进行互动式交互,进行这种附文本的一些个呈现,那么这是今天的 a two ui 的 一个价值啊。 ok, 我 们下面来看一下,这是我本地跑起来的这个项目 啊,就是这个是本地的一个演示啊,那么就说这个是一个组建,只是一个单一的一个势力的一个组建,比如说我是让他帮我寻找一下五个中国餐馆,在纽约的这个餐馆,现在给大家生成这个对应的人 聊天框里面的,只是说为了这演示方便,这是一个单独的一个东西,那么哎,他帮你找出这个餐馆来,对吧?你可以点 book nano, 然后 book nano 之后的话,哎,下面会对应的这个让你去哎,这个填写在这个多大尺寸的,然后日期啊,等等等等,然后你再提交就可以交互了。这个其实跟刚才我们看的这个里面的这个逻辑是一模一样的, 当它不光是举现在这个手机端,在应用端也是可以的,那么这是它的一个价值。那么我们下面看一下这个协议的一个具体的一个情况。这个协议很有意思啊,如果直观点来说,首先它是一个协议,我给大家简单过一下啊, 比如说首先啊这个这个是一个协议,就是能使智能体生成丰富的交互用户界面的这种协议,然后这个界面可以在外部移动和桌面上进行原生确认,不需要执行任何代码,那么这就它的价值啊,我给大家看它的背后的一个实现逻辑啊, 它的实现的路径啊。你首先比如用户发送一个消息,发送了之后,然后有 a to a 的 这个智能体,然后有这个智能体的话,去调用 gemini api, 遵循 a to u i 的 这个协议生成一个 a to u i 的 json, 然后有了这个 json 之后,把这个 json 给到 a to u i 的 light 的 渲染器,然后这个外部端的这个渲染器就可以渲染出我们刚才看到的 这个东西,那么这个是通过这个对应的这个渲染器渲染出来的,那么它的过程什么意思?就说你把这个东西的 s、 c、 k 集成进去,把它这个协议集成进去之后,你只要说句话的时候,那么它会调用对应的 a、 two u i 的 这个协议去生成对应的 jason 啊,什么意思呢?比如说这里我再再用更直观一点给大家看,比如拿这里来说,你假如提一个需求出来,提一个需求出来之后,比如说我让他寻找一个北京 top 斯的景点, 那么它会生成这么一个 jason, 生成这么一个 jason, 生成这个 jason 之后,然后就可以再经过它的这个 a to u r 这个协议里面的渲染器就可以渲染出这个效果,那么这个效果是可以呈现在这个聊天框里面的, 那么这就是它的一个价值。 ok, 那 么我们下面告诉大家怎么来来安装使用啊?这个很简单,你按照这个步骤,按照一二、三这几个步骤就可以。呃,实现啊,这里稍微说一下,就是说,当然这个项目方这里也公布了对应的一个啊,使用的一个路径啊。比第一步是做 git clone 啊, git clone, 比如你在这个咱们对应的 聊天里面啊,做对应的 copy clone, copy clone 之后的话,然后再去做这个,把这个 jimmy 的 a p r k 导入啊,就是比如 cd 到这个目录底下,因为我已经下载下来了,我给大家简单演示一下啊。 ok, 呃,然后我 cd 到这个目录, ok, 然后 cd 到这个目录底下, cd 过来之后的话,然后进一步的执行这个导入这个这个音我已经导入,我就不得,我就不,我在这里不演示了啊。然后再到这个 cd 到啊,这个运行后端的这个 cd 到这个后端这个底下, cd 过来之后的话,然后再把后端跑起来 啊,那么你运行这个就后端可以跑起来了,后端跑起来之后的话,紧接着运行前端啊,因为前端这个的话是你同时要去运行它,我们把这先停了。比如你要 cd 到这个底下,这里稍微说一下啊。如果有的有的人电脑在 cd 到这个底下,然后运行的时候会报错,报错的时候你该怎么弄呢?就是说不要 cd 到这个底下了, 用这个就是说你首先 cd 到渲染器底下,就是参考这个官方这里参考这个地方,就是按照这个就是 cd 到这个 cd 到这个底下啊,就是 cd 到 sample, 呃,或者说那个 cd 这个 就是说你在运行的时候,因为有很多人会出现报错啊,就在运行这个前端时会报错,那报错的时候你就应该运行这个命令,首先 cd 到这个底下啊 cd 到这个底下啊, cd 到这个底下。 cd 要过来之后的话,呃然后我们,呃 ok, 呃。我先先退出一下啊 cd ok, 然后再 c 再 cd 出来,然后再 cd 到这个底下,到这个底下之后,然后你再运行 n p m install 啊,就比较方便一点了啊然后 n p m install 之后,然后再到这个底下再去运行啊,再到这个底下,然后再运行这个, 再运行这个 ok, 那 么这个时候这个就跑起来了,因为我的 server 的 话停掉了啊,停掉了的话,所以说这个,呃没法跑我这样吧,我再重新开一下啊,比如说啊 cd 的 啊这个底下,然后我把后端也跑起来啊,咱们后端服务是呃这个啊,就是对应的是这个 啊,然后再哦 uv run 这个啊,因为我没有导入 gem 的 啊,这个里面按理正常来说需要把 gem 的, 需要环境变量需要导入,我把 gem 的 导入一下啊 ok 这个导入了,导入,然后运行就可以了,运行的话这个就可以跑起了哦这里又说我不能用这个不能用这个啊,我这我还得把它拿掉啊,我再重新重新重新啊。 cd 呃因为我刚才用了我的那个是用了我的,哎呀,这个用老是用我的那个什么呃用我的微呃那个这个这个东西啊,就是我不用它这个这里不能用它,用它会报错啊 呃。然后 cd 过来,然后再去做啊对应的环境变量就是那个 jimmy 的 api 的 导入, api 导入之后再执行 uv 就 可以了啊呃给我也给大家演示还是执行一下啊 ok 呃我的 ok 在 这然后就是 cd 到这个 sample 这个底下,哎,我到这个底下,我,我先到得到这个, 得到 shell, 得到 shell, 嗯,应该再出来到 shell 到这个底下,然后 n p m run d o k 这个时候就跑起来了啊?这个里面反正有各种的一些个小的问题啊。 anyway 吧, 就是有时候有些小插曲,这里稍微弄一下,当然你也可以按照官方这里给的这个命令来执行,那么执行出来之后的话就可以得到对应的这个结果,你在这里可以交互了。 这里想说什么?这个东西是可以集成在你的智能体的聊天框里面的,比如说这个就是 copilot kate 他 们做的一个,就是你在这里可以提一个需求,比如说帮我寻找下北京到上海 啊,就是最便宜的三个航班,假如说这个需求,那么他会按照这个需求的话帮你,对吧?就做对应的就是他,你看这里又问这个时间什么的啊? 对,就时间是周五, ok 啊,我假如说这个这个给他,然后他这个时候他自己会, 然后你跟他说呗,跟他聊天呗,然后他帮你去做这个界面啊,他问我是否需要一个查询界面?我需要, ok, 对啊,这个已经做出来了,做了之后的话就是说你相当于,如果说你要在聊天框里面用的话,相当于就是这行东西,就这些东西的话,相当在你的聊天框里面就能产生这个东西啊,这里你可以选择,然后查询就可以了, ok 啊,这个当你可以把这接口闭下来,然后直接在渲染器里面它就能渲染出来啊。所以这是这个项目的一个价值啊,这个项目反正对于整体的行业来说非常非常有价值的,使得智能体的交互发生了一个新的范式转移,未来将会的话整个行业会产生比较大的影响啊。 我们今天分享的就主要是关于 a to u u i 的 这个协议,然后最后的话给大家看一下最新的一些个行业的一些最新东西啊, 纤维的 amang 也发布了, one 二点六也发布了,就几个多模态的模型都已经发布了啊,那么这个行业现在多模态的模型已经进入了一个新的竞争的一个新阶段了啊,因为一致性问题解决之后的话,现在很多人已经在用 ai 生成短句了,那么我们一起来关关注,一起来期待啊! 一月十七号 a i g c 在 北京望京举行啊,这个第五届的 a i g c 啊,这个开发大会大家如果有兴趣的话可以去 参与报名,目前在活动行上是可以直接报名的啊,中国开发大会这是第五届的啊,然后这次大会邀了很多大佬过来啊,然后大家一起来交流和参与啊。 ok, 我 这就是关于今天的内容,希望对大家有帮助,如果你觉得不错,请报名您三点,谢谢,记得点赞关注哦。

