如果 ai 能直接看懂网页,点按钮,很多重复操作就要没了。今天我看到一个项目冲上 github trending, 叫 page agent, 它是阿里开源的 仓库,介绍就一句, java script in page gui agent, 用自然语言控制网页界面,现在已经四千二百多星,今天还在 trending。 它最反常的点是默认不走 browser extension, 不 走 python, 也不走 headless browser。 官方 redmi 直接写它就活在你的网页里,官网甚至把话说的更狠,一行代码就能把网站变成 ai native app。 文档里还强调它不是靠截图 ocr 硬猜,而是直接做 text space 的 dom 操作。如果你要跨多个页面,在家可选的 chrome extension。 这个方向我特别有感,因为我最近一直在折腾发布页。 shadow dom 自动填表单。真正耗人的不是 ai 会不会写代码, 而是它能不能稳定看页面,点按钮填内容。所以 ai 编程下一阶段可能不只是比模型强不强,而是谁先让 ai 替你点哪个网页动作评论区聊聊。
粉丝2062获赞4.7万

卧槽,这个阿里开源项目真的神了! page agent, 一个浏览器内 g u i agent, 你 只要说人话,它就能在网页里自动操作页面。它不需要任何浏览器扩展和自动化。 python 脚本整体来一行代码,让你的网站变 ai 原生应用,帮助用户解答或者操作页面,并且任意可以选大语言模型, 只需一行 copy script 代码即可引入成功。最后测试案例让它进行总结,快速开始相关文档,并且整理成 m d 文件,全程无需操作,然后就能在页面中自动化操作。最后得出总结,这个也可以当做网站指导 ai 进行使用,就像是一个页面聊天框,不占据任何位置,方便操作使用。

ai 可以 让网页全自动干活了!阿里刚开源的网页 ai 神器 page editor 太牛叉了,只需说人话, ai 就 能自动接管网页操作。它不用装插件,不用 python, 不 靠截图 ocr 直接精准操控 bom 一 行 gs 代码,就能把普通网页变成 ai 英。 作为浏览器内 g u i agent, 它支持自定义大模型,可自动完成页面操作、用户答疑、测试、案例总结并生成 md 文档,全程无需人工干预, 使用起来像一个轻量聊天框,不占位置,方便快捷,零门槛极速上手。无论是做自动化还是网站智能助手都非常合适。觉得有用的话可以点赞收藏一下。

大家好,今天咱们来简单测试一下最近阿里开源的这款 page agent 网站操作员啊。首先我们打开这个网站,把网站中的这个按钮给它拖到书签栏这里,然后打开需要进行自动化操作的网站, 再点击这个标签,在网页中就会出现这个输入框,下面我把我想要做的事情粘到这回车这个网页就开始进行自动操作了啊, 他要先进行思考,然后开始动了, 现在就填好了,现在就根据我的指令把有的信息该填的就都填了,然后现在点提交就可以了。

兄弟们,今天给大家分享一个只用一句话就能控制整个网页的开源项目,它就是阿里最近开源的 ai 工具 pageant。 不 同于传统 web 自动化思路,从外面控制浏览器,该项目让 ai agent 直接住进网页里面,实现自动控制开源,几天就已经狂揽十一 k 轻标。 该项目最独特的点在于它不需要 python 或 had 类似浏览器,也不需要截图,不需要 ocr, 不 需要特殊权限,甚至不需要使用多模太大模型,仅通过简单易用的大语言模型就可以实现多级任务执行。 该项目通过直接读取和操作页面 d o m 来理解和控制界面,把清理后的 d o m 结构发给 l o m, 由 l o m 决策操作步骤,再由 pageant 执行, 整个过程全在浏览器里完成。相比于传统的视觉模型识别,类似 browser use 等方案,陪 jason 的 速度更快,成本更低,准确性更高。 github 上提供了快速体验和本地部署的方法,感兴趣的朋友们赶紧去试试吧!

只需一行简单的代码,就能让你的网页自己动起来的开源神器!记住这个项目,它在 tiktok 已经斩获十 k 的 star, 它是阿里刚刚开源的横货,一个浏览器里的 ai 操作助手,你只需要说一句人话,它就能帮你自动点网页、填内容、找信息, 一步步帮你完成操作,甚至还会给你做操作记录和总结。完全不需要插件,不用写自动化脚本,直接一行代码接入你的网站,立刻变成 ai 原生应用就非常夸张。

这是一个能让你只用一句话就能控制整个网页的 ai 项目,它是由阿里最近开源的 ai 工具。记住这个项目名字,它几天时间就狂揽九 k 的 斯大。 它干的事情非常简单,就是让网页听得懂人话。它最反常的点是不走 extension, 不 用 python, 也不用 high list, 它就是完全住在你的网页里的 ai 助手。与传统依赖截图 ocr 的 浏览器自动化工具不同,它是采用 text based dom 的 分析方式,让你的操作更加高效。最夸张的是,你只需要输入一行代码,它就能把普通网站直接变成 ai, 可理解、可交互的原生应用就非常逆天。

阿里今天刚刚开园的一个新的项目哈,好多人还不知道这个项目呢,就是通过自然语言的形式去控制浏览器,它是自动化运行的, 这样咱们就可以把它跟 oppo core 龙虾机器人做一个连接,尝试开发一些比较新的啊,比较好用的工作流啊,现在正在测试啊,操作起来很炫酷。

c l i anything 让所有软件变成 ai agent 的 原声工具。一条命令把任何软件变成 agent。 可以 通过 c i i 控制的工具安装,超级简单,只需要添加这个 marketplace, 然后安装 play anything 插件,一行命令,插件就装好了。最酷的部分来了一条命令就能给任何软件生成完整的 c l i 接口。比如给 g m p 生成 c l i, 它会自动完成分析设计,实现测试文档和发布全部七个阶段。 它支持的平台超级多, cloud code, open code code, 还有更多平台正在路上。基本上你想用的主流 ai 编程工具都支持它能做的事情超乎想象。 创意工具,像 gimp blender create 办公软件,像 library office 开发工具,像 jenkins github, 还有像 zoo 这样的会议软件, 全都能变成 agent。 原声工具质量也是顶级的。十一个专业应用,一千五百零八个测试,百分之百通过率。每个生成的 c l i 都经过单元测试和端到端测试,确保生产环境可用。它最大的优势是什么? 不是用 u i 自动化,不是调用有线的 a p i, 而是直接生成真正的 c l i 接口。完整的软件能力零妥协。 agencies 可以 像专业用户一样控制这些工具。 c l i anything 让任何软件都能被 ai agent 控制,不需要 api, 不 需要重新实现。一条命令,让软件真正变得 agent native。

阿里刚刚开源了一个项目 paper agents, 一 行命令就可以把你的网页用改造成 ai 原生的网页用,只需要一行命令,直接把你的网页用里面加一个机器人对话框,可以让用户跟机器人对话框跟你的网页进行对话,并且还可以控制你的网页。最离谱的是它还可以跨页面的去控制网页, 其实就是内置了一个 agent, 然后可以控制你的网页和回答。我们来大概看一下,它叫 paper agent 啊,安装也是非常的简单,一行命令直接就可以搞定,然后安装之后它就会跑出来这样一个对话框,然后你就可以跟这个进行对话, 同时还可以语音对话,它可以去控制你的浏览器,去点击你网页里面的每一个按钮,去自动化的操控都是可以的。 我们来详细看一下这个项目,它这个项目可以把任何的网页页面极低的成本就可以转成这种 ai 原生的,但是它还是有一些缺点或者缺陷,我们来看一下它整体的一个架构,我是让这个 deepweek 来做了这样的一个梳理, 我其实是想要知道的是它是拿什么样的一个方式让它可以进行的网页的控制,因为可以对话,那是很简单的嘛,它只要抓下来所有信息,跟这个大模型进行一个交互就可以对话,根据你的这个页面进行回答, 这个是很简单可以完成的,但是它是怎么样操纵的?之前我是以为它会去扫描一遍你的这种前端所有的这种页面,把它转化成一个 a p i 的 形式,然后再生成 two, 再去 edit 进行调用,其实它这个是没有那么复杂的,其实是比较简单的一个形式, 本质上就是内置了一个 agent, 可以 进行思考、行动和反思。然后我也有一个问题,它是否会读取每一个页面作为知识库,它这个也是一个比较大的欠缺,它是完全没有记忆机制的,如果说你想要记忆,你可能需要给这个 agent 去内置一个知识库,可能会更好一点。把你的一些操作文档,比如说你的网页的一些文档,全部打在这个 paper agent 的 知识库里面,或者直接塞到它上下文里面也是可以的。它只能对当页的所有内容进行绘画和对话,它是没有办法去下一页去进行对话的,这是也是它比较欠缺的一个点。 还有就是它进行操作,我之前以为是用 playwrite 的 方式,其实没有用 playwrite, 就是 把这些 dom 全部提取,用了一些脚本的方式进行提取,提取了之后进行的编号,编号了之后,比如说像这样一是什么,二是什么?它每一个都会有这样的一个写的方式, 然后由这个 agent 去思考下一步应该点哪个,下一步应该点哪个。它整体形式还是比较简单哈,但是它还有一个功能,就是可以跨页面的, 但是跨页面的它必须要安装一个扩展,安装扩展之后,它就可以跨页面的进行操作。整体来讲它这个实现起来并不是特别复杂,唯一可能稍微麻烦一点,就是跨页面的操作,可能稍微麻烦一点,它还要做这样的一个扩展, 但是它这个思想非常好啊,因为它就一个操作,直接安装了之后就把这些配置好,就马上就可以配置可以使用,所以说降低了很多配置的门槛,可以让所有的这种应用都可以变成 ai 原生的。

codex 原声版来了, windows 开发者告别复杂配置,那个时代结束了,那么这次的原声版到底强在哪呢?首先,它不是简单的套壳,这是一个为 windows 全新设计的底层架构,核心就是速度和安全。 以前的网页插件设置麻烦,性能也总感觉差点意思,现在完全不一样了。它是个真正的原声应用,在独立的沙盒里运行,跟系统深度集成。这意味着什么呢? 简单说,这个沙盒就像一个给 codex 准备的专属空间,它在里面怎么运行都不会影响你的系统,既保证了速度,又保证了安全。 而原生性的关键就是它直接在 pro shell 上跑,这就意味着它能调用最底层的 windows 系统能力,性能自然是原汁原味的。好的架构最终还是为了提升效率。我们来看看它具体怎么改变你的开发工作哟, 你是不是也烦了?同时开好几个项目窗口,来回切换,思路总被打断。现在好了,一个界面就能管理你所有的项目,再也不用痛苦地切换上下文了。实现这个的关键就是工作树, 它能让一个项目里同时开好几个互不干扰的任务空间。想象一下,这边的工作树专心修一个紧急 bug, 另一边的工作树同时开发一个新功能, 逻辑清楚,互不干扰。还有一个亮点是自动化,你在专心写核心代码的时候, codex 已经在后台默默帮你搞定代码格式化、写文档这些杂我了,让你能真正专注。 除了工作流, codex 还带来了一整套专为 windows 开发者打造的生态工具,比如能不断扩展的记忆能库,专门给桌面开发用的 winui 技能,甚至能一键切换终端,可以说每个功能都非常懂。 windows 开发者 特别要说说这个 win u i 技能,如果你开发 windows 桌面应用,这个功能简直就是为你量身定制的。 当然,如果你习惯用 linux 环境也完全没问题,它的编码代理和终端可以一键切换到 wsl, 无缝衔接你的工作习惯。说了这么多,肯定想问这么好的工具怎么拿到?非常简单,直接去微软商店或者官网下载,然后用你的账户或者 api 密钥登录就行。 最方便的一点是,你不需要重新注册你手头现有的 chad gpt 账号或者 api 秘诀,直接就能用,没有任何门槛。所以总结成一句话就是,入门的门槛更低了,但效率的天花板却更高了。对所有 windows 开发者来说,一个全新的时代可能真的来了。

hello, 大家好,我相信大家一定给自己的 open curl 装了很多的插件, skill 啊, hulk, mcp 之类的,那我说这些插件对于我们来说有什么用处呢?以及我们该如何去使用这些插件? skill 其实就是一个基于你的经验啊,赋予给 agent 的 一个 markdown 文件,后壳的话就是说啊,你什么时候开始执行,你什么时候停止? mcp 的 话就是说你可以去动我的哪些文件,你不能动我的哪些文件,你可以动我的哪些工具,你不能动我的哪些工具,就是这样的一个意思,所以说这三个的话是一个搭配的系统,而不是一个独立的工具啊。 你比如说像我们会把我们的写作手法给到一个 skill 文档给到它,那么说它就会掌握我们的一个写作技能, 然后的话我们可以要求他什么时候开始写,什么时候不能写,比如说明天早上八点啊,帮我整理一下 ai 的 一个信息咨询啊, 然后的话,如果说我想让他发给我的话,其实我们还是需要一个东西的,需要一个 m c p 接口,那这样子的话, ai 检测它就可以去帮我们这个 ai 信息啊,传到我的一个飞书啊,或者是传到我的 qq 里面来。 所以说 ai 检测的一个能力啊,它不是一个类似于工作流那样的逻辑好吧,它是一个特定的技能, 这个是 agent 和工作流最大的一个本质区别就是 agent, 它其实是一个技能,比如说像有营销 agent 呀,像什么呃客服 agent 呀之类的,他们每一个 agent 都可能会有一个特定的技能。 skill 其实就是一个反复解释,后壳的话就是反复提醒 mcp 就 决定了它能不能做得到,所以说这三个的话是可以完全的联合起来去做事情的。 skill 规定日报格式发到我的一个推送聊天,所以说,呃, 对于大家说想要去装什么 skill, 装什么 m c p, 装什么后壳的话,大家一定要清楚自己的业务,我觉得 a 型呢,其实是基于我们业务本身去放大的,而不是说去帮我们从零到一跑通的, 一定是在于你业务本身的基础上去优化一个增加增加效率的一个事情。所以说我们要了解我们自己装什么,什么时候开始动,以及这个东西我们到底能不能去做。

别再死磕向量切片了,传统 r a g 模式在复杂剪辑面前已经输了。最近爆火的 page index 项目,配合 mapping 二点五模型,在金融领域最高难度的测试中,跑出了百分之九十八点七的惊人准确率。 而我们常用的传统向量 r a g 还在百分之六十左右挣扎。他最狠的地方在于彻底放弃了向量数据库,也不把文档切得支离破碎。他只做了一件事,把剪辑从单纯的关键词匹配, 升级成了人类专家级别的逻辑推理。 r a g 的 慢思考时代已经来了。为什么说传统 r a g 已经遇到天效瓶颈了? 因为它本质上是在用直觉做题。这种模式对应心理学里的系统一思维,当你提问时,向量库就像个没过脑子的抢答选手,瞬间把长得最像的五个片段扔给你。问题就在这项量搜索只看与意相似度,他根本看不懂逻辑。在他眼里, 一段话和另一段话之间的因果、时序或者层级关系是不存在的。这种碎片化的处理方式,注定了他在面对复杂文当时会变得非常愚蠢。 我们拿金融分析实操来举个例子,如果你问苹果公司去年的净利润,传统项链库很可能会甩给你一段两千零二十年的旧文,或者一段讲苹果醋利润的冷门严爆。 最离谱的是,他可能只给你找回一个光秃秃的表格头,而具体的财务数据在切片时被丢在了另一边。为什么会这样?因为在向量看来,苹果净利润这些词都对上了,得分就是满分。至于年份对不对、业务对不对,数据在哪一页,他完全没概念。 这种缺乏逻辑的暴力剪索,在金融这种高精度场景里,显然已经跟不上时代了。 page index 之所以能跑出这么高的准确率,是因为它复刻了人类专家查阅几百页招股书的过程。 他不是把文档切碎了扔进库里,而是利用多模态模型,把整篇文档解析成了一颗大局与艺术。从最顶层的总览,到目录章节,再到最底层的正文和表格,所有的信息都在这棵树上,这意味着他保留了文档最原始的拓扑结构。 当你在搜某句话时,模型能清楚的知道他的复写点是谁,属于哪个章节。逻辑链条从一开始就是完整的,完全避开了切片带来的信息断裂问题。 有了这棵树,解锁就变成了一个路径搜索问题。比如你问 a 公司海外业务的营收占比模型不会去盲目搜关键词,他会先看树的根节点思考,这是不归研发投入管,应该去经营状况分析里找。 然后他会沿着这个分支进入目标章节继续推理,最后精准锁定在第四十五页的第三章表格。 你看,这不再是概率性的关键词匹配,而是一个带逻辑的决策过程。他不是在几万个碎片里乱捞,而是带着上下纹,顺着藤摸到了那个瓜。 page index 还有一个非常超前的黑科技,就是直接支持视觉 r a g。 大家在做金融文档处理时,最头疼的就是那些无边框表格或者嵌套图标,传统的文字提取一读就是一头乱码。而 page index 允许模型直接去看 pdf 的 页面截图。 你要知道,在复杂的招股书里,排版和布局本身就是一种语义模型,直接看图说话,完全绕开了 o c r 乱码的大坑。 这就好比你给 ai 配了一双眼睛,让它能像人一样直接从视觉拍板里捕捉信息,这在工程实线上,简直就是降维打击。很多人会问, page index 这种逻辑推理模式既然这么准,为什么以前不火?说白了,以前是用不起。在 gpt 三点五时代, 如果你让大模型一遍遍去读目录做决策,再找论文,那个 token 消耗和延迟能让项目负责人当场破产。但现在不一样了, 随着 cloud 三点五、 sonet 或者 deep seek、 v 三这些高智商、低成本模型的出现,以算力换精度的经济账终于算了过来了。 page index 的 爆发,本质上是模型推理成本下降带来的技术红利。 作为架构师,咱们得理性看问题。 page index 确实准,但它不是万能药,它的致命伤在于慢、贵,而且目前还没法像项链库那样轻松扩展到千万级文档。所以你的选型逻辑应该是这样, 如果你做的是海量文档的通用剪索,向量 r a g 的 好秒级响应依然是你的首选。但如果你处理的是单份文档的深度分析,比如审合同、看财报,对精度要求极高且能容忍秒级的延迟, 那 page index 就是 降维打击。记住一句话,降量解锁负责找书,而 page index 负责读书,两者是协助关系,不是替代关系。说了这么多,未来的企业级 r a g 到底长什么样?绝对不是二选一,而是混合编排。 第一层,先用向量搜索在大海里捞针,把几十万份文档秒集缩减到最相关的几十份。第二层马上切换到 page in text 模式,给这几十份文档构建大局与艺术。最后一步,让大模型在数结构里进行深度推理,提取逻辑闭环的答案。 这就是从解锁引擎到认知引擎的进化。向量负责找书, page in text 负责读书,二者合一才是 r a g 真正的终局。

阿里开源了一个住在网页里的 ai 助手,他不截图,不猜测,直接读懂页面里每一个按钮和输入框,用户说一句话就能完成操作。我实测了一下,可以先装个 chrome 插件版本, 下载完成之后打开设置,打开 o fox, 点 ai, 接上模型,创建 key, 再选择 base url, 选择千问来试试 测试一下。它自动识别了网站的内容,变成所在网页的小助手。不仅如此,它可以直接帮你操作,直接让 ai 帮我在 o fox ai 后台创建 apikey, 能看到它自动识别了所有的内容, 然后梳理出来路径并执行全程无需人触碰一个按钮。更厉害的是,它能切入到你自己的网站,加一行 script, 你 的产品就有了。 ai 助手。举个例子,这是个团队后台任务管理系统,加一行就能引入 page agent 进行协助,把它放入你的产品, 用户不用再翻帮助文档,不用找客服,直接告诉页面他想干什么。这不只是个开发者工具,更是产品体验的升级方向。

如何开发一个 open class 插件?我们以 graph memory 这个知识图谱上下文引擎插件为例,把插件的结构、框架、写法、思路全讲清楚。先看一个 open class 插件最少需要哪些文件,必要的三个文件, open class plugin json 是 插件清单, package, json 是 n p m 包描述 index t s 是 插件入口,另外可选 tix config, json 是 type script 翻译配置 s r c 目录,放你的业务代码,我们一个一个看。第一个, opencll plug in json, 这是 opencll 识别你插件的唯一凭证,里面必须有两个字段, id 是 插件的唯一标识,对应 opencll 点 json 配置里填的那个名字 comvis kima 定义了用户可以配置哪些参数,什么类型。 open kla 启动时会用它来叫验建议,再加上名称描述版本,让用户知道你这个插件叫什么,干什么。 第二个 package, jason, 他 做两件事,告诉 npm 怎么安装和管理这个包,告诉 open kla 入口文件在哪,最关键的字段是 open kla 下面的 extensions, 它告诉 open kla 去加载哪个文件作为入口。命令设为猫九,因为 open kla 用 esm 格式 pure dependencies 声明依赖宿主环境的 openclouds, dependencies 是 你实际用到的第三方库。第三个 index n t s, 这是插件的入口文件,告诉 openclaw 这个插件能做什么,怎么做?第一, 导入 s r c 下面的各个模块。第二,定义插件对象,这是核心插件对象,包含身份字段和一个 register 函数。 opencap 加载插件时会调用这个函数把 api 对 象传进来,你在这个函数里完成所有注册工作。第三,导出插件对象 t 三 f 点 jason 是 给开发者和编辑器用的,发布前可以检查类型有没有写错,直接复制这个文件可用 s r c 目录就是你的业务代码被 index n t s 里的 register 函数导入和调用,所有实际功能都写在这里面。整个框架就是一条链,清单包描述入口,注册业务代码 open cool。 加载插件时,先读 open cool, 点 plug in 点 jason 知道你是谁,配置长什么样。再读 package 点 jason, 知道入口在哪,依赖什么,然后执行 index 点 t s 里的 register 函数,你在这个函数里注册你的能力,实际的业务逻辑放在 s r c 里。 写插件的思路,写插件之前,核心就一句话,你想让 open core 在 哪个环节做什么事,就在那个环节注册你的逻辑。具体来说,先回答三个问题,第一,你要解决什么问题?是上下文太长,要压缩,跨绘画要记忆,就决定了你的插件类型。 第二,你要接管哪些环节? open 跨的对话流程是一条链,消息进来组装,上下文发给模型,模型回复轮次结束,每个环节都有钩子可以挂, 你不需要接管所有环节,只挂你需要的。第三,你需要持久化什么数据?如果需要跨轮次或跨绘画保存数据,就自己建数据库,如果只是在单次对话内做处理内存变量就够了。最后,我们用 graph memory 插件把前面的思路串一遍, 他的核心思想是不关心对话文本本身,而是这段对话里产生了什么知识,把知识结构化地存下来,下次直接用 回答第一个问题,解决什么问题?欧本库拉对话太强,会截断旧消息, a 振腾忘记之前做过什么,新开绘画经验全部丢失。我们要让 a 振腾能从对话中学习知识,跨绘画自动记住。第二个问题,接管哪些环节? 它一共接管了七个生命周期, s i c 里面就是每个钩子背后的具体实现,包括数据库操作、 l l m 调用、嵌入模型调用、三元组提取、跨绘画召回逻辑、上下文组装等。第三个问题,持久化什么数据?因为要跨绘画记忆, 数据必须持久化到内存,不能只放内存里,需要一个 sq lite 数据库。这就是开发一个 opencll 插件的完整思路。结构很简单,框架很清晰,就是一条链。写法的核心就是想清楚三个问题,然后在对应的环节注册你的逻辑。 我们的 graph memory 插件开源,大家可以点个 star 下载源码学习。希望本期视频对您有所帮助,我们下期视频再见!

我看完今天热点池里的三个项目后,确认 ai 编程下一步不是继续写代码,而是开始自己执行网页。第一个,阿里的 page agent, 把控制网页这件事直接搬进页面里。第二个, like panda, 专门给 ai 和自动化做的无头浏览器。 第三个, versio 的 agent browser, 给 ai agent 用的浏览器自动化命令行,把这三个放一起看,信号很清楚, ai 工作留证再补最后一段,看页面点按钮填表跑流程。 而且我前几天发 page agent 那 条评论区已经有人说了,配合自己写的 skill 会更猛。所以下一波比的不只是模型强不强,而是谁先把网页执行链接近工作流。你最想先让 ai 接管哪个网页动作?评论区聊聊。

阿里做的这个开源项目真香,用 a 诊的去操作,任何外部网页都可以用这个来解决了。让你的网页自己 长出一个 ai 小 助手,用户只要用大白话、中文英文说一句,他就直接在页面上帮你点按钮,填表,找东西,导出数据, 全程像真人操作一样。它最核心的卖点,用最接地气的话,纯前端超清量,你网站加几行 js 代码,甚至一行引入,不需要搭后端,不需要 python, 不 需要无头浏览器,不需要给它截屏权限。 用户说人话, ai 干鼠标活。比如帮我把这个表单的公司名改成阿里找最近七天订单,然后导出点右上角登录 ai, 就 真的去点去填,去翻页。 你自己的大模型随便接接。 open ai, 阿里同意 cloud 本地模型都行,数据不经过第三方,隐私友好。 还有 chrome 扩展版,可以跨页面跨标签页干活。比如从 a 页面复制数据,去 b 页面填界面还挺好看,有对话框,步骤预览,可以随时打断纠正。像跟真人助手聊天,最大价值在哪? cs 工具类产品,快速加 ai co, pilot 几行代码搞定产品瞬间高端了。企业内部系统, e r p c r m o a, 各种管理后台救星,老系统不用大改就能支持一句话操作,普通人残障,用户友好,可以用语音自然语言控制复杂网页,降低操作门槛, 自动化测试数据,采集重复性操作场景,也能省很多脚本维护成本。一句话总结它的定位,让网页自己会听人话干活的开源方案,门槛极低,效果很惊艳,隐私可控。目前社区反馈很热, 开源没多久, star 已经上千甚至接近超过万,对前端开发者、企业数字化团队、想让网页变聪明的产品经理来说,是二零二五到二零二六年非常值得关注的一个实用 ai 落地工具。