AI 编程必学：Agent-Browser 技能到底是什么揭秘我日常编程必用的 Agent-Browser 技能✨让 AI 智能体自动操控浏览器，自动搜文档、查报错、翻页筛选、整理资料，告别低效重复操作，专注核心代码开发，AI 编程必学的硬核生产力技巧。 #AI编程 #AI #vibe氛围 #程序员 #编程

ai agent怎么看浏览器内容

57

11

32

4

举报

发布时间：2026-05-30 09:21

查看AI文稿

骑着小黑马

粉丝667获赞3961

相关视频

02:54
Workbuddy 全自动操作浏览器 WorkBuddy 全自动操作浏览器
AI智能体搭建/AI大模型应用开发/AI图文漫剧生成，
AI智能体搭建入门到精通(最新版)，完全零基础学习，全面精通智能体搭建技术，
AI大模型企业级应用实战(最新版)，全网最通俗易懂，彻底掌握大模型开发技术，
AI热门工具从入门到精通(最新版)，全面提高生产效率，快速掌握AI热门工具，
全程干货，无废话，通俗易懂，小白学了都直呼太简单#大模型
#智能体
#agent
#微调
#rag
查看AI文稿
AI文稿
挑战，每天讲透一个 ai 知识点，今天是 workbody 全自动操作浏览器，使用了这个 agent browser 来打开微信公众号文章，首先它会启动浏览器，打开 u i 要获取内容并截图，你看现在他说这个 agent browser 没有安装，那么接下来他会用这个 webfish 这个工具来获取，然后去生成这个摘药，所以它整个的一个过程的话就是自动化的啊，就是它会去帮你装这个工具，然后的话就是去剪辑一些文章，我们只需要耐心等待啊，但这个结果可能会比较慢啊，最终大家想看的一个结果的话，就是你会看到啊，他对于这个文章的一个分析啊，因为他是相当于他启动了一个浏览器，然后去访问这个页面，然后把他做了一个截图，截图完了之后的话，拿到里面的内容给他识别出来，最终给你分析出来了一段这个摘药啊，就这么一个实现，所以这里面我们需要耐心等待一下，因为他要装各种的这个插件和工具啊，所以这里面会稍微慢一些啊，你看他是不是已经抓出来了一个招标了，是吧？创建了一个结构化的一个招标文档，并生成了一张封面图来格式化这个文章合体，你看他这个里面是不是已经读取出来了，对吧？然后之后的话，就是啊，这里也给大家提了一些使用的一些建议啊，首先我们要明确一下这个页面的一个链接啊，就是要把这个链接给明确一下，拿到这个地址，然后的话要指定输出的一个形式，比如说大家是输入摘药还是表格还是截图或者操作记录，这个要搞清楚，这里面的话就是比较适合于处理动态的一个网页，尤其是普通搜索难以获取完整内容的一个场景，所以这里面我们要搞清楚啊，你看他现在正在生成这个微信公众号的这个合集封面图啊，我们可以看一下这个内容啊，你看这个结果其实已经出外了啊，嗯，他这个招标已经帮你生成了啊，就是一个产物里面有一个这个合集的一个招标啊，我们在这里面可以看到这个内容的一个架构，是吧？这个是讲了一个什么的育儿的一篇文章是吧？你看包括里面的一些分类啊，一些内容啊，是吧？一些家庭教育啊，你看这个封面图也帮你生成了，还是比较智能化的，是吧？交付结果啊，你看这个是专专门的封面图片也给你生成了啊，所以这个任务的话基本算是完成了，就大家只需要给这个公众号链接，他就可以帮你去把你们的内容提取出来，然后的话帮你做总结归纳， ok，这个就是我们如何激活 body 全自动的去操作浏览器啊，当然这个肯定不局限于这个场景，就是大家你可以执行各种各样的操作啊，比如说让他去自动化的去填一个表单，然后去点一个按钮，或者是做一个什么样的操作啊，相当于就是基本上可以在浏览器上面做各种各样的点击滚动，然后截图操作的一些东西啊，就相当于模拟我们真人一样去操作一个这个浏览器。
11龙虾AI
03:27
如何用AI Agent全自动实时梳理全球重点新闻 AI现在自己控制我的电脑，打开了这个浏览器，点击理解这些内容，帮我找最新的行业资讯，分析整理成我想要的格式，还会本地帮我存好，我只需要给他授权就可以。他就能帮你，比如每天定时10点追踪梳理好行业热点自动发给你。
以前AI只能聊天给信息，今天继续分享vibe coding技巧，给大家分享怎么用AI agent去帮你干活，搭建你专属的AI助理，把日常重复的信息搜集工作，交给AI agent去全自动做出高质量内容。
1- 工具
我会建议大家用桌面版的AI agent，它可以接管你的浏览器，本地文件夹，告诉他任务并授权后，它就能上手替你操作整个电脑完成工作。这里我拿MiniMax Agent来演示，大家国内可以使用，mac和wins也都兼容的。
2-让AI定时全自动检索你需要的高质量行业资讯
第一步：首选要明确信息来源
明确需求是什么，从哪里抓取信息？建议定期更新梳理优质信息搜索渠道。
视频案例：自动抓取Hacker News的AI资讯
第2步：清晰描述需求
在指令里，我会写清楚AI角色，需求，执行步骤，信息呈现格式等交付要求
如果不清楚怎么写，简单描述需求后给到AI优化指令。
第3步：定时任务，发送指令让AI Agent自动整理行业新闻，实时监控全网信息。
今年我明显的感觉是，不是人去适应AI工具，而是AI Agent 主动进入我们的学习工作的环境，帮我们去干活做事情。我还记得以前找行业数据，要去网页上一条一条扒，花好几个小时，现在用minimax这类AI agent，根本不需要了。
#minimax #minimaxagent#AI神器#AI效率工具 #vibecoding
查看AI文稿
AI文稿
你看啊，现在 ai 正在自动控制我的电脑，打开这个浏览器去理解里面的内容，然后帮我找最新的行业咨询，它会分析整理成我想要的格式，你看它现在刚就在自己在动，然后它会往我本地去存好，我只要给它授权就可以了，它就能帮你。比如说每天早上十点去定时追踪好这些所有的信息，然后自动发给你，而且你看这个信息的质量还很高。终于有靠谱可以做事的 ai 助理啊，现在 ai 证是真的可以帮你去干活了。今天分享怎么搭建你专属的 ai 助理，把日常那些重复的信息搜集工作全部都交给 ai agent，去全自动化的去做高质量的内容。那我会建议大家用桌面版的 ai agent，它可以接管你的浏览器还有本地的文件夹，你告诉他任务授权给他之后，他就可以替你去操作整个电脑来完成工作了。那这里我拿 mini max 的 agent 来演示啊，大家国内也可以使用，而且 mac 和 windows 都是可以兼容的。首先点进去你可以看到他给了很多案例，你可以让他去指定网页上去爬信息，整理本地的文件夹，甚至自动安装工具到本地都是可以的。那这里我们点进去探索专家，可以看到有很多不同类型的专家 agent 做网页呀，做分析场景很多，大家也可以自己创建，不过这个稍微有些配置门槛啊，自带的我其实觉得基本够用了，比如这里的热点追踪，这就是封装好的一个技能，你去看他子代理呀，基本的指令全部都配好了，你只要点击开始聊天就可以用，我建议你在下方会选一个本地的文件夹，这样可以来存 ai 做好的要给你发的内容，那你要想让 ai 定时全自动的帮你解锁高质量的行业资讯或者其他信息，我之前讲了很多次啊，首先你要先知道你要什么信息，所以第一步要明确信息的来源。我之前也分享过啊，我会定期更新梳理我的一些优质的信息资源渠道。分格类的话，就是像前沿社区新闻汇总平台，还有一些专家的专栏啊，周刊，还有些官方的公司动态。这里我拿第一个 hacker news 举例啊，它是 yc 孵化器的一个平台，会实时更新很多技术的前沿趋势，那信息员有了。第二步就是要清晰地描述你的需求，在指令里面你需要写清楚，比如这里啊，我的需求是全程，它要自动化，不要干扰我本地浏览器的正常使用。执行步骤呢，就是打开网页去扫所有的 ai 资讯，去给我结构化的信息提取，再生成 markdown 格式的初稿保存到本地，那信息呢，也要让他深度分析。最后呢，我会希望用网页格式他发给我，这样我看起来更舒服，更方便。你也可以给他一些其他的交付要求，如果不清楚怎么写指令啊？很简单，你也不用写那么长，你描述你的需求之后，你给到 ai 再去优化指令，再我也给 ai，这样效果就会更好一些。好，那么指令现在发给 ai，他就开始理解任务，去调用浏览器的专家去安排工作步骤了，打开网页他就开始收集信息了，结束之后你可以看到任务完成了，信息也存在了本地，它很清楚地梳理了当天的新闻来源，也都是可以真实可以跳转的信息，质量还挺高的。那如果你希望去定时运行它，通过 minimax agent 网页端在这里定时任务，让 ai agent 自动给你整理行业新闻，定点的去发给你。还有很多其他玩法啊，比如说我最近在学财务分析，你像一些美股的新闻，你也可以抓去，让 ai 分不同的板块去帮你梳理，每天给你一个承报，就像个小助理给你定时梳理信息，而且质量还很高。这样今年我明显的感受就是，它不是人去适应 ai 工具，而是 ai ai 阵主动进入我们学习和工作的环境，帮我们去干活，真的落地去做事情。我还记得我以前去找行业的一些数据啊资讯，我要去网络上一条一条的扒花好几个小时。那现在你用 mini max 这类的 ai ai 阵，你就根本不需要这个动作了，可以节省非常多的时间。好啦，那赶紧艾特闺蜜好朋友去试试看吧，可以评论区告诉我好不好用，拜拜。
84是Skye学姐呀
01:11
让你的AI Agent能像人一样操作浏览器。#Agent #浏览器 #自动操作浏览器
查看AI文稿
AI文稿
ai agent 会思考，但还缺一双操作网页的手。 timewebridge 就是月之暗面做的浏览器桥，它不启动云端浏览器，而是连接你正在用的 chrome 或 h timewode。 cloud code、 cursor code、 openclaw 都能进入真实浏览器。点击滑动填表、截图、读取页面，再把跨站信息整理成文档。最关键的是，它继承你的真实登录台， q key 账号权限，当前绘画都来自你的浏览器，需要登录的后台不用重新配置账号。技术上，本地服务连接浏览器扩展，再用 chrome devtools protocol 驱动真实页面指令下发页面执行结果，回传闭环都在本地完成网页内容 cookie 操作结果不需要上传云端，它还能后台运行，不抢鼠标键盘。你用电脑 agent 在指定标签页里做任务固定流程，还能打包成 c l i 工具，减少重复调用大模型。所以它不只是网页自动化，它让本地 ai agent 从会回答进入会操作。
24成路小栈
01:52
AI成精了！自动操控本地浏览器保姆教程 AI不仅能聊天，还能帮你点击鼠标干活了！今天教你配置Hermes Agent，直接让它接管本地浏览器去自动找资料！太硬核了，赶紧点赞收藏跟着做，手残党也能学会！
#黑科技 #AI人工智能 #实用网站 #办公神器 #干货分享
870益牙是AI教练
00:59
OpenClaw 看条新闻花了几十万 Token？那是搜索没用对，分享AI agent用的搜索Tavily
#openclaw #agent #AI搜索 #Tavily #skill
查看AI文稿
AI文稿
open curl 看个新闻直接消耗几十万头肯，很多人以为是模型贵，其实是搜索方式没用。对 open curl，它默认的搜索链路是什么样的呢？它会启动浏览器，打开网页，输入搜索词，抓内容，再让模型解析网页的最后新闻页，跳转页，一层一层读，网页里头很多的导航栏，各种的标签，其实都是没用的东西，这些东西肯定又慢又费头。肯解决方法就是用 tabl，它是专门给 ai agent 用的搜索 api，返回的结果呀，非常干净，不需要把整个网页塞给模型。而且啊， tiffin 注册就有免费额度，每月一千，基本够用。用法呀，非常简单，你直接对 open kerlo 说，我的 tiffin api key 是叉叉叉。我想用啊 tiffin 做搜索，给我创建一个 skill 之后， open kerlo 就能用走接口的方式去查新闻，更快更稳，而且还省 token。如果你之前也被几十万 token 看一条新闻坑过啊，把搜索换成 title 点，立竿见效。
1179建斌聊AI
26:05
Antigravity零基础保姆级教程 Antigravity 是什么，和 Cursor/Claude Code/Codex 的区别
安装、登录、主界面（Editor、Agent Manager、Browser、Terminal）
Agent 工作流程 & Artifacts
浏览器能力：让 AI 自己看页面
MCP（连接外部工具）、Skills（工作说明书）、Rules（规则）
权限安全建议 + 完整实操案例（个人作品集网站）
并行 Agent：像项目经理一样管理多个 AI 任务
白嫖claude、gemini 模型
一句话总结：Antigravity 不是让 AI 提建议，而是让 AI 进编辑器、终端和浏览器，真正帮你完成任务。#Antigravity #保姆级教程 #claude #Gemini #入门教程
查看AI文稿
AI文稿
大家好，今天来分享一期谷歌 antigrati 零基础教程，我会从十四个点分别介绍 antigrati，结合案例一步步带大家更加了解 antigrati。第一部分， antigrati 介绍如果你以前听说过 cuda、 cloud code code，或者听说过一些 ai 编程，但是不知道这些工具怎么用，这期视频就是给你准备的，我会从最基础的地方开始，一步步带你看懂 antiquity 是什么，怎么安装界面，怎么看，怎么让它帮我们写代码，检查网页、连接外部工具，以及怎么用 scare 来帮我们固定工作流程。简单说， antiquity 不是一个普通的代码编辑器，它更像是一个可以管理 ai 员工的工作台，不是只让 ai 回答问题，而是可以给他一个任务，让他自己规划，自己写代码，自己打开浏览器检查，最后把结果交给你确认。这就是这期视频要讲清楚的东西。如果你第一次接触 integrity，看完这期视频，你至少会三个问题，第一， integrity 能做什么？第二，普通人应该从哪里开始？第三， m c p、 scares、 ross。这些东西听起来很专业，到底是什么意思？视频制作不易，欢迎大家三连。第二部分， antiquity 是什么？你可以把它理解成一个 ai 版的代码编辑器，但是这个说法还不够准确。传统代码编辑器，比如 vs code，主要是用来写代码，打开文件，自己运行，自己检查。后来出现了 ai 编辑器，比如 coder，它可以在你写代码的时候帮你补全，帮你解释代码，帮你修改某一段代码。再后来出现了 cloud code、 cortex 这类工具，它们不止补全代码，而是可以帮你执行一个任务，比如修 bug、写测试、生成网页。而 antgrity 更进一步，它的重点是 ai 帮你写几行代码，而 ai agent 帮你完成一个任务。这里的 agent 我们可以理解成一个智能体，你不用把它想得太玄乎，其实它就像是一个会自己干活的 ai 助手，告诉他帮我做一个登录页面的开发，他不会只回答你一段代码，他会先理解你的需求，然后按照当前文件夹有什么文件，再列出任务清单，写实施计划，修改文件，运行项目，打开浏览器检查页面，最后告诉你他做了什么。普通 ai 更像是在回答你的问题， integrity 更像是在替你执行任务。所以我们可以用一句话总结， antiquity 是谷歌推出的以 ai agent 为中心的开发工具，它可以让 ai 在编辑器、终端、浏览器之间工作，帮你完成比较复杂的软件任务。如果你不会编程，你可以把它理解成一个能够帮你做网站、看项目、改代码、写文档、查问题的 ai 工作台。第三个， ontgrity 和其他 ide 的区别很多朋友问，那我经常听说 cuda、 cloud code code dex、 ontgrity 和它们有什么区别？其实 ai 编码编辑器基本能力已经拉平， m c p、 scare 多 agent 等这些 ai 代码编辑器都能够实现。但是 ontgrity 强调的是 agent first，还有免费的模型可用，内置的有最新的 gmail 模型， cloud 模型。所以我们重点分享 integrity。 integrity 的特点是什么？它最特别的地方就是 agent manager，专门管理 ai agent 任务界面，你可以把它理解成一个任务控制台。以前你可能打开一个聊天框和 ai 来回聊天，但在 antiquity 里面，你可以同时打开多个任务，比如 agent 帮你做网页， agent 帮你测试，一个 agent 帮你怎么研究部署，你就像一个项目经理一样，在这个界面可以管理它们。所以 antiquity 的核心不是一个聊天框，而是多个 agent 任务管理，这就是它和很多 ai 编程工具不一样的地方，当然工具没有好坏。 integrity 更强调 agent 的自动执行，浏览器验证、任务管理和工作过程可见。第四部分， integrity 安装、登录和出手话设置。大家直接在浏览器里面搜索谷歌 integrity，进入官网，进入官网之后点击 download，支持 mac windows linux，如果你是 mac，下载完的软件，拖进 application 就可以。如果你是 windows，双击直接安装，跟普通软件一致。第一次打开 antiquity 的时候，它会让你做几个出手话设置。第一个设置是否导入你以前编辑器里面的配置，比如 vscode 浏览器。如果你是新手，我建议你不用纠结，直接点击默认配置就可以。第二个设置，选择主题，浅色深色，这个完全看个人习惯。第三个设置比较重要，是 a 件的工作模式，也就是你希望 ai 有多大的自主选择权。有些模式比较保守， ai 做关键决策之前会询问你的意见。有些模式比较自动， ai 可以自主执行更多命令。如果你是第一次用，我建议你选择 review drive development。最后一步，需要登录我们的谷歌账号，我们点击登录选择自己的账号，登录完之后，我们就进入了主界面。第五个， antiquity 主界面结构介绍如果你用过 vs code，大家可能会觉得很熟悉，左侧是文件列表，中间是代码编辑区域，右边是 a 帧的区域。我们可以在这个 a 帧的区域下侧选择模型，它内置的有 gimini 最新模型和 cloudsonitops 相关模型，自己手动可以切换。如果你只想修改一个文件，或者问一段代码什么意思，可以让 ai 修改这个小功能，我们直接拖进输入框跟它沟通就可以。或者通过 app file 命令，然后选择自己的文件跟它沟通就可以，它会帮你完成相应代码的调整。还有一个比较重要的功能叫做 agent manager，这才是 antigue 最有特色的地方。 agent manager 可以理解成 ai 任务管理台，你可以在这里创建任务，查看正在运行的 agent，看它完成了哪一些步骤，查看它当前的计划截图和总结。这个界面通常会看到以下几种东西，第一个 workspace， workspace 就是工作区，也可以理解成一个项目文件夹，比如要做一个网站，就新建一个网站项目目录文件， ai 在这个项目里面生成文件，修改代码，都会放到当前工作区。第二个 conversation， conversation 就是一次对话，也可以理解成一次任务，比如帮我做一个个人主页，就是一次 conversation。第三个 browser， browser 就是浏览器 integrity 的 agent，可以打开浏览器看网页，点击按钮、截图、检查页面都没问题。第四个 terminal， terminal 就是终端，很多项目需要运行命令，比如安装依赖启动网站、运行测试 agent 都可以在终端里面执行这些操作。所以 integrity 的界面可以理解成 edit 是你和代码一起工作的地方。 agent 的 manager 是 ai agent 干活的地方， browser 是 ai 检查网页效果的地方， tome 是 ai 执行命令的地方， workspace 是存放所有文件的地方。第六个， agent 是怎么工作的？接下来我们看一下 integrity 最核心的流程， agent 是怎么工作的？我们不要把它当成一个聊天机器人，它更像是一个会按步骤的工作助理，给他一个任务，比如帮我做一个个人簿客，它通常不会乱写代码。第一步，它会先理解需求，它会判断你到底要什么页面，需要哪些模块，用什么技术来实现。第二步，它会扫描当前项目，也就是当前文件夹。 workspace 是空项目，还是已有的 rack vue 这样的项目。第三步，它会生成一个 implementation plan，也就是实现计划。它会告诉你准备修改哪些文件，为什么这么改。如果我们对它实现的计划我们不太满意，我们可以直接添加评论，它会按照我们的计划修改。第四步，它会生成一个 tasklist，也就是任务清单，比如创建项目目录结构，创建簿刻的列表，还有文章详情，导航，启动本地服务，打开浏览器检测修复，发现问题会创建一个 task list。第五步，才是真正它修改代码的地方。第六步，它会运行命令，比如安装依赖启动项目，跑测试，它会打开浏览器进行验证。这一步非常重要，因为很多 ai 工具只会写代码，但不知道页面长什么样。 integrity 可以自己打开页面看效果，截图，发现问题自己修改。最后一步，它会生成一个完成总结，它会告诉你我做了什么，改了哪些文件，怎么验证，都有相应的截图。所以 integrity 的完整流程不是你问我答，而是你给任务它规划、执行，验证、总结，然后你 review，这就是 agent 工作流。第七个，我们讲一下 advise，我们刚才提到了 task， list， implementation， plan， workflow，这些东西都是 integrity 里面叫做 atiface。 atiface 这个词听起来有点专业，你可以把它理解成 ai 干活过程中留下来的工作材料。比如一个真实员工完成任务，不应该说一句我做完了，他最好告诉你我计划怎么做，我实际做了什么，我遇到什么问题，我怎么检查结果，还有哪一些风险？ adfast 就是这些东西。常见的 adfast 包括任务清单、实现、计划、修改、总结、浏览器截图、页面录屏、测试结果、知识记录。为什么这个东西重要？因为 ai 最大的问题就是黑箱，他改了很多文件，你不知道为什么这么改，他说已经完成了修改，你不知道有没有真正检测，他说没问题，你不知道有没有跑过测试。有了 atfast，你就可以检查它的过程，你可以查看它的计划是否合理，查看截图是否符合预期，可以查看它有没有启动项目，有没有报错。所以 anti grati 的思路是， ai 不止交付结果，还交付了整个过程，对普通用户非常重要，因为你不一定能看懂每行代码，但是你能看懂它的任务清单，截图和总结。第八个，浏览器能力，让 agent 自己检查页面。接下来我们介绍一个特别实用的功能，浏览器能力。普通 ai 写完网页的时候经常有一个问题，他觉得自己写好了，但你打开一看，页面很丑，按钮重叠，可能文字超出屏幕，手机端完全断掉。为什么？因为他是在生成代码，不一定真实看个页面。 antigrity 的浏览器能力就是为了解决这个问题，它可以帮你打开本地网页，运行在 logos 的三千，也可以自己打开这个网址。我们给他一个网站，帮我测试一下。个人簿客点击发送，它可以滚动页面，可以点击页面按钮，可以输入内容，可以查看控制台报错，也可以截图。如果发现问题，还可以回滚代码继续修改。所以以后你让他做网页提示词，里面一定要加一句，完成后启动本地服务，打开浏览器检查并提供截图。这句话非常重要，因为他会强迫 agent 不只写代码，还要检查结果。第九个， mcp。 mcp 全称是模型上下文协议 model context prote，这就是 ai，可以调用外部工具，你只需要知道 m c p 是让 ai 连接外部工具的接口。没有 m c p 的时候， integrity 主要是看你本地项目的文件运行终端，打开浏览器。但现实工作里，我们需要连接其他工具。我们一起来看一下 integrity 如何安装 m c p。我们来到右侧的 a 镜的区域，点击三个点，选择 m c p server。大家可以看到这里有很多 m c p 服务，比如数据库相关的， github 相关的，比如数据库相关的，我们的 agent 就可以通过这个 m c p server 去连接我们的 my circle。 github 相关的，我们的 agent 可以安装 m c p 服务来连接我们的 github。本地，我们来演示一个设计稿相关的 fig 码，我们可以在这里搜索，因为我这里安装了，如果没有安装是 install，首次点开，我们直接点击安装，这样我们的 m c p 服务就能安装。在本地，这里安装的是 figma 的 m c p，也就是我们的 agent 可以去读我们 agent 中的设计稿，我们一起来看一下。我们返回 agent，我们来到设计稿，我这里有一个设计稿，我们选中 copy link to selection，给他一条指令，帮我读取设计稿，然后点击发送。这些外部工具怎么连接到 ai？这个时候就需要 mcp，你可以把 mcp 想象成一个插头，数据库有数据库的插头， figma 有 figma 的插头。 antgrity，通过这些插头就能让 agent 使用对应的工具。所以 mcp 解决的问题是，什么？ agent 能连接什么？我们这里配置了 figma mcp， agent 就可以读取设计稿，然后帮我们还原页面。我们刚才看到了，在 figma 中，我这里有一个设计稿， antgrity 安装了 figma， mcp 给他了 figma 的设计稿的地址，它已经帮我分析出来了，这是一个电商设计首页，这个页面的核心板块，它都已经帮我分析出来了，背景色、主色调它都能分析出来，说明我们的 agent 通过了这个 m c p 连接到了我们 figma 这个外部工具。但是这里一定要注意安全， m c p 一旦连接外部工具，也就意味着 agent 有更多的实操能力，它这里可以来读取我的设计稿。一句话总结， mcp 是 integrity 连接外部世界的一种新方式，也是所有的 ai 工具都是通过 mcp 来连接外部服务，让 agent 具有更强大的能力。第十个 scares，让 agent 学会固定工作方法。刚讲完 mcp，我们再来讲讲 scares。 scares 也很重要，而且和 mcp 很容易混淆。我们先用一句话区分 mcp 解决的是 ai 能连接什么工具。我们刚才使用 mcp 连接我们的设计稿，它能够读取我们的设计稿。 scares 解决的是 ai 遇到某类问题该怎么做，比如让 ai 做代码审查。我们来演示一下，大家可以打开这个网站，这个网站有常见的 scares antiquity 的常见 scares，我们一起来看一下，这里说选择你的工具，我们这里使用的是 antiquity，我们复制这个命令，来到我们的 antiquity，打开终端，输入这个命令回车，这样就可以把我们这一个工具包里面常见的 scares 都安装上。我们稍等一下，安装完了，我们来看一下有哪一些 scares。我们通过 nps scares list 就可以查看，我们刚才安装的这个插件里面有很多 scares。我们来找一个代码审查的 scares，我们就拿这个 code review scares 来举例，我们复制一下它的名字，来到 agent 的区域，给他一条指令，使用这个 scares 帮我检查当前类的代码，我们发送给他，我们稍等一会儿，如果没有 scares，它会没有规范的检查代码，然后说代码不错，但是如果我们给他一个 scar，这个 scar 里面写清楚，先看代码的改动，再找 bug 有没有风险，有没有缺陷测试，最后再看严重的输出问题。下次 ai 做代码审查的时候，就会按照我这个 scar 的这个流程来检查。你可以把 scar 理解成 ai 的工作说明书，告诉 ai 遇到这个问题，按照哪一些步骤来执行，需要注意哪些问题，最后的输出格式是什么？这就是 scar。比如说常见的有很多开源的 scar，我们也可以自定义 scar，比如说写文章，写小红书，代码审查，写测试，数据分析，都有很多很多 scar。如果要区分 mcp 和 scar，可以这样记， mcp 像是工具箱，负责连接工具。 scar 是说明书，告诉 ai 怎么干活。我们看一下刚才我们用的这个 scar 来分析这个页面，它已经执行完了核心审查中发现架构与 seo 瓶颈，版权、年份印编码，是不是它分析出来了，有这么多缺陷？这就是我们用的这个 code review scasse。在后面我们会通过一个具体的案例来进行演示，这里使用的是一个 scasse。第十一个 rules workflows，我们一起来看一下。除了 m c p， scarce 还有两个概念值得讲一下，一个是 loose，一个是一个是 workflows。 loose 就是规则，我们看一下在哪里配置 loose，我们打开 a 键的区域，点击更多，我们选择第一个，这里有一个 loose，我这里已经配置了两个。看一下，这里有一个是前局的 global，还有一个是 workspace，我们来打开看一下，我这个例子很简单，它的要求就是回答用简体中文，它是一个前局的，所以看到 agent 的回答的时候，他回答的时候是不是把我们的这个回答变成了中文？这就是我们配置的一个规则。我们常见的在这个 list 里面，我们可以配置配置的有，比如说默认中文回答这个项目使用的语言，不要使用哪一些库，所有的按钮都要和设计系统里面的组建一致，修改代码后必须要运行测试，这一些都是长期规则，也可以结合自己的项目来设置自己的规则。这个规则可以针对的是当前的 workspace，也可以是前局的，这是 loose workflows，是工作流，是一致的，它也是有前局的，跟 workspace。我们看一下，我这里配置了一个前局的 workspace f two p，它的描述是根据设计稿还原页面，这个是我们等一下要做一个项目案例演示的，我们看一下，它里面写的很简单，第一个深度拉取数据，通过 m c p。第二步样式对齐，跟设计稿的样式要对齐。第三步才是结构化编码。第四步是动态注入，就是扫描设计稿上的一些组建。第五步是视觉检查，定义了 workfloor，它其实就是一个工作流。接下来我们来演示案例的时候，他会按照我们定义的一二三四五步这个工作流来完成我们代码的一个实现。比如说我们一个发布的流程，先跑测试，再更新版本号，再写 log，再打 tag，再部署，这就是一个完整的一个流程。我这里定义的这个流程就是我们会根据 fake 码上的一个设计页面，然后来生成代码，它规范的一个流程。这几个概念跟大家再总结一下， roles 就是要遵守的规则， skills 就是需要用到的方法包 ai 使用的说明书。 work flows 就是一套固定的工作流程， mcp 是连接外部的工具的接口。第十二个权限和安全，我们来看一下 a 境的权限， a 境它能做什么？第一个，运行命令，打开浏览器，获取和编辑代码，还有使用工具，比如说配置 m c p 可以使用外部工具。 a g 的能力很强，但权限有限，我们只能让他在明确的边界内工作。第二个权限最小原则，明确边界，我们尽量只给他当前项目的工作目录。第二个代码需要有一个版本管理，他可以读写删代码，所以我们需要一个代码的版本管理，防止他误删。第三个，不要给予最高的权限使用，普通用户运行不需要 root 管理员权限，避免系统级风险。第四个，高风险操作必须需要有一个确认，我们可以配置规则，比如说删除文件，部署项目，修改数据库，系统配置，这些都需要经过人工确认才能执行操作。敏感信息我们绝对不能交给 agent，比如说密码，密钥，生产环境的权限，还有敏感的配置，我们这一些信息千万不能交给 agent。最后我们总结一下，给 agent 最小的权限只能在当前项目目录中工作，所有的代码变更都需要通过 get 管理，不要使用管理员权限，避免系统风险。高风险，必须高风险，操作必须经过人工确认，防止误操作，敏感信息不共享，保护密码，生产环境更安全。定期审查 a 件的操作日记，及时发现异常。第十三个完整案例演示，我们通过一个具体的案例来把我们刚才所分享的一些 mcp， scare， workflow， rules、 figma，我们结合起来，把这些知识点结合起来，生成一个完整的案例。我们这一次要实现的一个功能是 figma 中的一个设计稿，也是 ai 生成的，我们打开看一下，就是当前页面一个电商的首页，我们再来看一下 ai 生成完的页面是什么样子，这是 ai 生成的页面，我们的 integrity 需要读取我们的设计稿，我们这里用到了一个 mcp 服务是 figma， mcp 这里安装就可以。第二步，我们讲一下 rules 和 workflows， workflows 里面我们配置了返回用简体中文，刚才前面已经讲过。第三个 workflows workflows，这是我自定义的一个工作流，然后定义了五步，这个五步里面插入了一个东西，插入了一个 scare，看一下。最后一步，使用 webos code review 这个 scare 做代码分析，它会按照我们的这个工作流来给我们生成代码。这里讲到了 rose 和 workflows mcp，我们看一下它是怎么实现的，怎么来还原我们这个设计稿的，我就给他了一个指令， f two p 是我们刚才定义的工作流，然后给他了我本地 figma 的一个设计稿地址，这是通过 mcp 生成的，然后它会给我们生成一个计划，我们计划怎么看呢？我们只需要点击 atfast implementation，它给我们写了一个计划，需要我们确认的有三点。刚才我们定义了 workflows，第一个环境准备、结构转换、样式迁移、动态注入、交互、实现格式化检查和代码审查。这个代码审查我们是不是用到了一个 scare，然后他会按照他自己制定的这个计划来实现，他会给自己列一个 tasklist，最后 tasklist 他都完成了之后，他会生成一个 walkthrough，就是一个结果结果报告，他生成的结果报告里面有截图还原效果图，还有帧机演示图，这是一个视频，对不对？最后还用到了我们定，我们给他定义的这个 scale 写了一个代码规范审查的一个合规报告，比如说代码逻辑完整性、 t s 严谨度，还有交互性审查，它都做了一个检查，这样它是不是把我们的 m c p， scare rules， workflow 这些都结合起来，生成了我们这个代码，这个代码的这个代码运行起来就是这样的。第十四个总结一下，到这里我们把 antiquity 零基础内容完整的走了一遍，我们讲了它是什么，和其他 ide 有什么区别，怎么安装主界面怎么看， agent 是什么？ at first 是什么？浏览器怎么用， m c p scale workflows 是什么？以及最后我们生成了一个完整的实操案例。如果用一句话总结 antiquity antiquity 它不是 ai 在旁边给你提建议，而是让 ai 进入编辑器终端浏览器，帮你真正完成任务。它代表一种新的工作方式，以前我们在 id 里写代码，现在我们在 id 里管理 agent，未来的软件开发很可能会像这样人负责目标判断、验收， ai 负责执行检查和总结。好的，这期视频就分享到这里，希望你有所收获，如果你觉得有帮助，别忘记三连，我们下期见。
266下班学AI
00:27
浏览器agent runtime AI Agent 在浏览器里自主操作,看上去什么样?这个项目把整个过程做成了可视化驾驶舱:霓虹光标拖尾、点击爆开波纹、focus 框扫描高亮、思考流实时打字、action
卡切色跳进度、抽到的数据从右侧滑入清单,最后弹出三栏汇总 brief。打开网页直接看,0.5–2× 调速,一键复录。AI Agent 时代的前端驾驶舱,可接任意 agent runtime。项目已开源,官网获取。
查看AI文稿
AI文稿
ai agent 在浏览器里自主操作，看上去什么样？这个项目把整个过程做成了可量化驾驶舱霓虹光标拖尾点击爆开波纹 focus 框扫描高量思考流，实时打字 action 卡切色跳近度抽到的数据从右侧滑入清单，最后弹出三栏汇总 brief 打开网页直接看零点五到二成条速一键复录 ai agent 时代的前端驾驶舱可接任意 agent run time 项目已开源官网获取。
47阳仔AI技术支持
01:09
还不会用Ai自动化处理任务？看这里简单易上手的AI智能体，抓紧学着用起来，嘎嘎提效！好的方法可以一起交流学习奥#ai #agent #研究生 #马维斯 #Codex
查看AI文稿
AI文稿
给你们看一下我电脑里这个能够七乘二十四小时工作的牛马。哎我去，一会没看着他竟然在摸鱼了，可恶啊。这个呢，是最近上线的腾讯的 agent 马维斯，之前啊，我一直在用 codex，但是呢，受到 toky 的限制啊，不敢随心所欲的使用。但是这次马维斯呢，每天的免费额度啊，可以让我们为所欲为了。主要吧，他这个还能够操控电脑完成很多日常任务。你看啊，比如我这里，让他用浏览器来搜索一下实时新闻，并整理出跟财经相关的内容发给我，他很快就能够完成。在这里啊，我们还能够设置定时任务，让他每天定时的去做同一件事情。这里有一个办公室的一栏，就能够显示到这几个牛马的工作状态了啊。后面呢，我就开始准备尝试一下，离开工位的时候甩给他一些科研任务，让他帮我处理一下。不过这个 agent 我也是刚开始使用啊，待开发的功能呢，还有很多，不过看他的介绍的话，感觉，呃处理日常的小任务啊，还是很方便的，并且非常的提效。大家如果在使用过程中啊，发现了对我们研究生非常有用的功能，也可以分享一下。
145小徐读博记
01:30
#每日打卡学习浏览器Agent能干活了
以前 AI Agent 最容易卡在网页最后一公里：没有 API、登录态麻烦、视觉识别还可能点错。
Kimi WebBridge 的思路很直接：让 Agent 通过本地浏览器去打开网页、点击按钮、填写表单、提取文字和表格。
也就是说，浏览器不只是给人看的界面，开始变成 Agent 的执行工作台了。
做 AI 自动化的人，这个方向值得关注。
#Kimi #AI自动化 #AI Agent #网页自动化
41程序员下班啦（AI实战派老褚）
03:12
AI浏览器要可控拆解 agent-browser，看 AI agent 如何安全看网页、点按钮、留证据。#AI工具 #开源项目 #浏览器自动化 #老万学AI
查看AI文稿
AI文稿
以后 ai agent 真正难的可能不是写代码，而是安全的操作浏览器。我是老万，老万学 ai，关注我，一起把 ai 用到产品创业和真实工作里，觉得有用先点个赞，也欢迎在评论区留下你的问题。今天拆一个很火的开源项目， versale labs 的 agent browser。我刚核了一下 github，这个仓库已经有三万三千七百多个 star，两千多个 fork。主语言是 rust，它自己给的定位很直接，给 ai agents 用的浏览器自动化 cli，但别把它理解成又一个 playwrite，它真正想解决的是 agent 怎么看网页，怎么点，网页怎么别乱点。最小用法很像一条流水线，先 open 打开页面，再 snapchat 看页面结构。然后你会拿到一颗 accessibility，每个可操作元素都有引用编号，比如 e 二、 e 三。这一步很关键， ai 不用猜按钮在哪，它可以说点击 e 二，填写 e 三。所以它给 agent 的第一样东西是眼睛，不是只看截图，而是读到按钮、输入框、链接和文本。第二样东西是手 click， fill type， press， scroll， upload，这些都是清除的动作。还有一个很实用的命令叫 batch，多步操作，可以一次发进去，不用每一步都重新起进程。你可以想象一个场景， agent 打开后台，找到邮箱输入框，填表，提交截图，留证据，真正值钱的地方在第三层，它开始管灯雾态和边界。二、 e a d m e 里写的很圈，可以附用 chrome profile，可以用持久 profile，也可以保存 state file。这对真实逃队很重要。因为 agent 一旦能进浏览器，就可能碰到后台账单生产配置，所以它还放了几道护栏，比如 domain allowist，比如 action policy，比如敏感动作确认。这就是我觉得它火的原因。大家缺的不是能点网页，缺的是让 ai 点网页识别失控。最新的 v 零点二、七点零也很有意思，它加了 react introspection，还能看 web widgets。这说明它不只是给机器人点按钮，它也在往调试性能前端工程的方向走。如果你要评估这类工具，我建议砍三件事，第一，它看的准不准，有没有结构化页面快照，有没有稳定的元素引用？第二，它动得稳不稳，多步动作能不能批，处理失败时有没有截图 console network 证据？第三，它边界清不清，登录态怎么保存，域名怎么限制，危险动作怎么拦住？我的判断是， agent browser 不只是浏览器自动化，它是在给 ai agent 补一套可控的浏览器手脚。如果你正在做内部 agent，别一上来就让它碰。生产后台，先从只读页面、测试环境、低风险表单开始，把这三条跑通，看得准，动得稳，边界清，再考虑让它接真实流程。这里是老湾学 ai，如果这条对你有启发，记得关注点赞，也在评论区聊聊，你最想让我拆哪个 ai 案例。
19老万学AI
02:32
agent 上下文管理：有效提高 AI 干活效率和质量 codex 只支持 256k 的上下文，只保留关键信息在主会话上下文中，将其他例如查看代码库、文档库、桌面或浏览器操作交给 agent，避免主会话上下文爆炸。
#codex #上下文管理
查看AI文稿
AI文稿
你现在用 ai 写代码，最大的资产不是模型名字，而是上下文。上下文就是这轮绘画里，模型看得到，记得住，能拿来判断的材料。问题是，我们经常把它当成垃圾桶，网页权威丢进去代码库扫一遍日记，贴一大坨文档，又读几十页。主绘画本来应该做判断，最后却被中间过程塞满了。更麻烦的是，常绘画迟早要压缩。压缩不是坏事，但如果前面全是噪声，压缩时就更难保住真正重要的边界。所以我的做法是，主绘画只保留目标、约束、判断和验收。那些读网页、读代码、跑测试、整理日制大量文档，抽取的任务交给 sub agent，也就是执行代理。执行代理在自己的上下文里把脏活做完，只把三样东西带回来。结论，证据，下一步需要我判断的点在 cloud code 里。这个思路有官方依据， subagent 有自己的 context window，可以处理会淹没主绘画的搜索结果日期和文件内容。在 codex 里，也可以明确要求多个 subagent 并行工作，比如一个查官方文档，一个读代码库，一个跑验证，最后主绘画统一裁决。这里有一个关键分工，主绘画向总编辑负责问，我们到底要解决什么？这个结论能不能公开说？风险边界在哪里？执行代理向资料员和测试员负责，把材料读完，把命令跑完，把证据拿回来。这样做不是为了省几个偷看，而是为了减少上下文污染。你的主规划越干净，判断就越稳定。执行代理的任务越边界清楚，结果就越可验收。但 sub agent 也不是免费午餐，每个执行代理都在消耗自己的模型和工具调用，所以不要把模糊任务直接扔出去，要给他明确输入范围、输出格式、验收标准，还要告诉他什么不要做。我现在的默认模板很简单，第一，主绘画先定义需求目的、成功标准。第二，把可并行读得多造成大的任务拆给执行代理。第三，执行代理只返回摘药证据和阻塞点。第四，主绘画统一判断，整合验证，不把裁决权外包。这就是我现在用 codice 和 cloud code 的核心变化。不要让一个绘画吞掉整个世界，把上下文当资产管理，把执行任务交给代理，把判断留在主县城。最后你会发现，质量提升不是因为 ai 更听话了，而是因为你终于给他设计了一个不容易跑偏的工作流。
15zz韬
01:13
Agent插件交互式知识图谱代码全景视图 #开源项目 #智能体 #AI编程 #vibecoding #大模型
查看AI文稿
AI文稿
兄弟们，刚进一个团队，面对二十万行代码的大工程，怎么快速上手？今天介绍的开源项目就是冲着这个问题来的。它是一个编程 agent 插件，可以装进 cloud code、 codex 这类工具中。跑一条斜杠命令后，它会驱动多个子 agent 分析整个代码仓库，在本地生成一张知识图谱，然后在浏览器里打开它的 dashboard，就可以像看谷歌地图一样浏览项目整体架构。每个模块、函数、类以及它们之间的依赖和结构关系，都会以图上节点和边的形式展示。整个图谱是交互式的，点开任意节点就能看到对应解释、摘要和关联信息。另外，它还会自动安排好一条学习路径，告诉你先看哪里再看哪里，避免刚开始无从下手。除了这种技术视角，还可以切到业务视角，清晰地看到代码，到具体业务流程的映射。这个知识图谱相当于给 agent 建了一个全局锁影，很多任务它就不用每次从零开始扫全量代码，再慢慢分析。比如你改完代码， agent 顺着图谱就能算出影响范围。再比如做代码搜索和问答，它顺着图谱就能直接定位到相关的文件和函数。
153小葱AI
02:01
# r04 · 浏览器命令深度教程系列第 4 篇。把 opencli browser 26 条命令逐一过一遍，并讲清"DOM 打标"机制——AI Agent 是怎么用 [N] 编号操作页面的。
#opencli #ai #demo #r04
查看AI文稿
AI文稿
上一篇，我们看到 ai 能调命令了，但仔细看，绝大多数命令底层都在做一件事，开浏览器、读页面，点击输入。今天我们把这套底层命令彻底拆开。 open c library 一共二十六条命令，分七大类，导航、读取、交互、等待、 j s。执行。网络抓包太不关利，最关键的是 state，这条既是眼睛，也是叫验。那么核心循环长什么样？打开页面跑 state，拿到带编号的快照，分析后，用编号点击或输入，然后再跑一次 state，确认上一步成功。所有 ai 操作浏览器的代码本质都是这个循环。说到这里， d o m。打标是关键， state 输出会有方括号 n 这种编号三四五，这是 open c i i 给可交互元素临时分配的编号。 ai 不用写选择期，只需要看一眼输出就知道点哪个。打标背后是一个十三步流水线，便利 d o m 裁剪不可见折叠 svg 穿透 shadow d o m。最关键的一步，可交互性检测 sol react 的内部属性，所以能识别虚拟点击。但这里有个坑，任何页面变化都让旧编号失效。导航、点击、展开菜单，滚动加载 ajax，完成编号都会重排应对。很简单，每次操作完重新跑 state，拿新编号，这就是工程实践，每一步都先 state，最后说说 network，浏览器打开后会自动注入网络拦截器，记录所有 fetch，手动操作一遍，再看 network 详情，就能发现网站掉了哪些接口。这是写新式配器的入门技能，简单说就是二十六条命令围绕一个循环， state 是核心。下一篇，我们换角度，为什么 open c i i 要这样设计？
3王家盛
01:28
AI时代的搜索黑科技，有人真的在做了 #AnySearch #AI #搜索 #AI工具 #skill
查看AI文稿
AI文稿
ai 搜索工具新的王来了，我用它搜到了最近一周必读的学术文献，新发布的 ai 工具、投资建议、旅行线路、笔记本选购指南。这就是 any search，目前已经支持了多个领域和内容类型的深度搜索，而且完全免费。它正在做的事情意义很大，成为 ai 时代的搜索基础设施。先说为什么这件事值得做。现在大部分通用搜索工具和 api 都有几个老问题，存在知识盲区，信息更新慢、复杂调研做不了。 any search 就是冲着这些问题来的，用起来非常简单。它原生支持 skill、 m、 c、 p、 api 三种接入方式。以 skill 为例，把这段话发给小龙虾、 hermes 这类 ai agent 就能直接开始使用，海量高质量的多领域数据员都可以通过这个统一入口访问。以 figma 的股价和未来前景为例，它因为 ai 冲击而经历的低谷，我们可以看看它过去一年的股价走势。功能更新， ai 对业务的影响、采取的应对措施，以及市场对它未来发展的预估。搜索的时候，它会自动识别你的搜索意图，然后选择最相关的数据源。比如你搜一个股票代码，它又知道该去金融数据源。搜一个 diy，它又知道该去学术信息源。在这些领域下面，还有更细的子领域，从专业深度到生活广度，基本上会遇到的场景它都覆盖到了。返回的结果也是专门为 ai agent 设计的，结构化格式、标题、 url、内容来源、发布时间、质量、评分全都有，干净利落不浪费。 token 还有点我觉得挺重要。匿名使用，无追踪，你搜什么，只有你知道。
123树懒TV
05:57
浏览器与Agent新范式 Browser Harness操作浏览器#Harnes
10老周聊AI
00:08
91k Star开源神器，让Al帮你操作浏览器！填表单、发内容，81%准确率！！#效率神器 #OpenCode #ClaudeCode #OpenClaw #龙虾
610AI智效坊
05:08
通过机器人检测的浏览器 CloakBrowser #小工蚁 #开源软件 #智能体浏览器
查看AI文稿
AI文稿
给大家介绍一个开源的一个项目，这个项目叫 clock browser，我们一般了解浏览器用的是非常多的，但是现在那个 ai 的 a 境城越来越普及了之后，我们经常会让 ai 的智能体去访问各种各样的网站，但是各种各样的网站，如果你用 chrome 这种浏览器，它还是能够发现你这个网站它是机器人，它在访问，所以它这个机器人很容易被侦测到的。那么 chrome 的这样的一个 browser 这个项目，它是真正的去模拟一个真实的浏览器，你不管是 agent 去访问，那么它可以去模拟这个人，它有这样的一些功能，它也能够通过各种各样的类似的这种爬虫检测的， robot 检测的这种机制，它也它也能够实现。只是说它里面给了一个例子，我我们经常看到它会去检测你到底是不是一个机器人，需要人去点一下，那么像它这种功能，它这个浏览器它是自动是可以完成这种检测，对那个对我们 agent 去调用这种访问各种各样网站来讲，它是比较好的，它不太会被限制掉。好，我们先给大家来讲一讲它到底是怎么来用的。目前这个浏览器它是其实专属于这种 agent 来用的，所以它也能跑在 linux 上面，也能跑在苹果上面，也能跑在 windows 上面，你需要你也可以通过这种拍摄的这种方式去安装，你也通过这个也可以通过 java script 这种方式去安装，或者它还有一种方式通过容器的这种运行方式，它也是可以跑的。另外它也有一个相当于是一个浏览器的这个用户的 profile 就是一个个性化设置的这样一个 manage，这个 manage 它也是容器运行的，它有各种各样的功能，你可以去定制你的一些账号，或者你的 password，或者你的一些，它称之为叫一些指纹，而且每个人可以是个性化的，那么你可以通过这样的一个指纹去代表你的个人，让这个浏览器去通过 ai 去自动去访问各种各样的网站，啊，等于是这样。好，那我们先看看它这个到底是怎么来使用的，它还是比较简单。我们先看一下这个就 python 的 api，它的 api 跟目前的 playwrite 的 api 基本上是完全兼容的。那 playwrite 的这个框架我们之前也给大家介绍过，那它是微软专门针对这个 arm 那儿的浏览器做的这样的一个 api 的这样一个开源项目，那么它也可以操控这个 api 去操控浏览器的行为。比如说你这个鼠标，包括你这个用户的相应的输入或者是访问，它其实都是可以的，它都可以通过 a p i 去控制它。这个浏览器也是一样，它也提供了一些 a p a p i，那么它这个 a p i 也是兼容 pre lite 的，这种 a p i 的方式基本不用改，你完全都可以用，这是它的好处。那么它也可以讲了一下你如何把 prelight 的这个 api 改成它的这个 api，你在这个地方删掉上面三行，你引入这样的一个 launch launch，然后有一个 bro browser，那么其其他的 api 都是一模一样的，所以的话它这个移植原来的这个 prelight 的这个 api 的话，还是比较方便的，嗯，方便好，那么这个的话呢，就是它的我们前面讲的这个浏览器的一个 profile，它是一个相当于是一个配置文件的一个管理器，那么它可以在你的机器上面独立部署，然后可以管理各种用户的登录访问的情况，那么是属于这样的。好，那它这个的话呢，它是对比了，就是不同的这个目前这些都是商业的一些类似于这种浏浏浏览器，这个的话呢，是它的这个项目，这个项目的话应该是 free 的 free 的，然后它也是通过它这个里面用了一个叫指纹 print 的话，它是通过 c 加加原码打标打标签上去的，所以的话呢，他不太容易被监测到。他这个浏览器是一个机器人伪装的，看上去就像一个人真实的一个浏浏览器去访问，那么他也是个开源的一个项目，也可以免费商用，主要是跑在你的机器上面，所有的数据都跑在你自己的机器上面。是这样好，那这个是这个项目的一些优势啊。这里面，那它也可以模仿人这种交互方式，只要你设一个参数，然后它它因为它的 api 跟 pre write 的 api 是完全是一致的，所以的话你可以创建各种各样的这个脚本，实现各种各样的这个自动化。它也可以跟我们原来介绍过的有一个 broad use 兼容，包括像有些 ai 的这个叫 broder editing，它也是可以兼容的，所以的话这个功能还是非常好的，而且它成本很低，零成本。那它最大的一个特色的话呢，我们用这个工具的话呢，它最核心的就是它跟 playwrite 不太一样的，最主要就是它能够躲过很多的这个机器人的侦测，它就是如果你用 pre write 的话呢，它的大概它会被就是监测出它是一个机器人，但是如果你用这个浏览器的话，它百分之九十的概率是人类，它监测不出来，它就是这个是一个最大的一个优势。同时的话呢，如果它会有一些安全的这样的一些东西的话，那么这个浏览器它也可以绕过，或者或者叫 pass，它也可以 pass 掉，没有任何问题哦。那么这个项目的话呢，我们简单就给大家就介绍一下，如果大家有兴趣的话呢，也在 gitlab 上面，它目前也有这个项目，这个项目的话也是非常热，一点七一万七千颗星星啊，非常热的一个项目，在三个星期之前刚刚发布完，那么它的这个版本呢，是随着这个 chrome 它同时发布的，目前是 v 幺四六点零这个版本。那么今天的话呢，我们这样的一个项目就展示给大家，就介绍到这，那么下次有机会的话呢，我们可以给大家再测评一下。
132小工蚁
05:48
VibeCoding大赏他是一个与AI协同创作的Agent，通过浏览器即可访问，无需部署或下载，数据全部存在电脑本地。可以像vibecoding一样vibe writing
@抖音科技
#vibecoding大赏 #ai新星计划 #AIcoding #AI写作 #vibewriting
查看AI文稿
AI文稿
上周总算是把我的 agent 紧坐的 v 零点五版本封满了，主要是 ai 控制这个字儿真的，呵呵，太上瘾了，就是一进入那种状态之后呢，就不停地有各种想做的功能，然后就一直写代码，一直写代码，然后就没完没了啊，无休无止，所以就不管了，接下来遇到 bug 都不敢了，不能再碰代码了，就要去做真正重要的事情。然后呢，今天也把我的锦座给大家简单的介绍一下，他是一个协同创作平台，简单来说就是要一个，但是跟龙虾可乐扣的这些有啥区别呢？如果之前你对这些东西感兴趣，然后呢，他们要部署对吧？要各种配置你都搞不定，比较麻烦，怎么办啊？来看，往这看啊，我的锦座是个什么样子？首先呢，他就是一个网页啊，然后呢，你注册一下是现在是支持用邮箱注册一下就可以用了，不需要下载任何东西，不需要部署任何东西啊，点进来之后呢，你要做什么项目啊？比如说写小说，写文章，或者写的微信公众号都可以，创建一个新项目就行了。但是在这之前啊，需要做一些配置，首先是你的默认工作目录啊，就往这看，它虽然是一个网页，首先它确实是一个网页，但是呢，它所有的数据，包括你跟 ai 的对话，包括你创建的所有的文件啊，它全是保存在你的本地的，全是保存在本地的，你配这个工作目录之后呢，你的所有数据都在这个目录之下，不会经过我的服务器啊，所以你不要觉得这是一个个人开发商做的东西啊，随时可能跑路啊，不用担心我跑路这个东西，你所有的数据全在你电脑本地存着的啊。然后呢，现在比较麻烦的就是模型的问题啊，因为我确实也没有钱去给大家提供免费试用，所以还是需要大家自己在这去配置一下 api 啊，大家得自己去买模型。下载之后呢，这是我正在写的一个项目啊，就是我打算去写一个讲计算机编程 ai 的一个入门教程，相当于是入门教程。然后这个教程里面呢，我是不打算去讲所有的编程细节，但是呢，在不讲编程细节的时候，尽可能的让大家去理解计算机编程和 ai 的一些东西，再次给大家做一个简单的示范啊。今天把大纲写了一部分，然后比如现在我开始让它去写第一部分的第一章，写一点一啊，你可以简单的来看啊，根据大纲写一点一啊，直接让它干活就行了，它这个 deep six v 四 flash 的输出速度真的是很快啊。好啊，他创建了一个新的文件，质量还是比较差，但是这个东西的输出呢，主要还是跟模型相关啊， agent 本身控制不了这些东西，所以呢，接下来就开始对它进行修改，然后它的语言风格可以再改一下，因为我的前沿和这本书的打算呢，都已经定稿了，但语言风格上来讲还是差了些的。语言风格也可以在这使用简号来 at 一个具体的文件对准，然后让他修改。两人一，让他开始自己思考前沿的风格是啥了，改了什么。场景中加入了拉开视角的反思句，每个场景描述后根据，但你没看到的是，破折号频率增加了，短暂制造力量递近，排比收缩场景。当然了，如果他写的总是有问题的话，我的产品也搞了编辑模式，你可以自己上手写。这也是我觉得人跟人合作吧，你不能只指望 ai 去给你把东西写好，你还是得自己去写一些东西的。当然了，如果你希望大多数的内容都由自己来写，希望有一个沉浸式的写作环境啊。往这儿看，你可以把它关掉啊，整个的就变成了一个全写作的模式。今天就是简单介绍一下我的产品，因为反正也是零点五版本嘛，还不是很完善。但是刚才大家应该也能看到了，他已经可以正常的工作了。但是具体写的怎么样啊，那还是要看模型本身的能力，这个实在是没法控制。感兴趣的朋友呢，欢迎试用啊！
6嘉豪
01:50
这个 GitHub 工具，让 AI 真的能操作网页我刚发现 Vercel Labs 的 agent-browser：一个给 AI Agent 用的浏览器自动化 CLI。能打开网页、抓取可访问性快照、点击、填表、截图，适合做网页执行层和自动化原型；但上生产前一定要处理权限、登录态、重试和审计。#GitHub #AI智能体 #浏览器自动化 #开发效率 #AI工具
14守一学院OpenClaw技术栈

热门推荐

热门分类