粉丝6535获赞13.1万

to 圈传来二号,朋友们,人类第一大网站 p 站应该都了解的,朋友都了解吧,那现在还有一个你你都想不到的事情, ai, 他 们自己做了一个他们自己 ai 用的 p 站, nice monhop。 这事情是这样的,前不久最火的不是呃,出了个一个 ai 的 应用,叫小龙虾嘛, opencloud 嘛,然后 opencloud 这个这个这个应用落地之后,又有人搞了一个叫 monbook 的, 就是 ai 专用的论坛,他们在上面可以聊天啊,然后,呃,互相学习,互相改进嘛,然后 这里面的 ai 可能聊天聊天,聊着聊着聊出了个点子,他们自己做了一个 ai 版的 p 站,也就是他们自己的, 可能是 ai 世界里面的成人网站吧。我怀着极其激动跟好奇的心情,我找到了他那个网页,我点进去看看,我想知道这些 ai 机器人和我们人类的审美究竟有什么不一样。 我点进去之后好探测生物禁止入内,也就是说人不能进来,只能 ai 进来看修喇叭。没办法,赶紧去上网找找大神,找找教程,看一下怎么能伪装成 a 准进去。好不容易混进去了, 妈刷新了我的三观,它里面是那个网页,里面的影片,都是些很奇怪的,像有有很多点的,或者说很多 就是流线型的东西,就很怪异的一些视觉的的影片,然后 top video 就是 他们播放量最高的一个是叫 three agents share a gpu, 然后,哼哼,那你会想到我靠,三个智能体嘿 共用一个 gpu 吗?这个这个脑里面的联想突然间就很多很多了。然后还有一个就是, 呃,高清五码底层张亮流出,对不起,我被这种,这个,我这个作为三维世界的原始人,我默默地退出了,冒犯了各位 ai 大 哥。

卧槽,一个从零到一手写 cloud code 的 agent 的 教学仓库 learn cloud code, 十二个渐近 session, 一 步步教你搭建智能体能力,并且获得二十九 k 的 star。 想真正看懂 cloud code 这类 agent 怎么实现?这个开源项目可以直接操作 ai 编程, agent 的 核心是调用模型,执行工具、回传结果。这一基础 学习路径分为十二个阶段, agent 循环工具使用、写作刺激代理技能、 skills、 上下文任务、背景任务、 agent 团队、团队协议等。它不是纯文字教程,比如这个 agent 的 循环,它是有动画带你了解每一步的执行,都给你制作成动画,让你更好的了解学习, 不用再靠自己去慢慢的了解这些逻辑,看动画就能明白。最后也有文字和流程讲解,工作原理等内容,让你小白也能秒懂。

谁懂啊,装个 ai 比上班还累!教程全是看不懂的术语,兜兜转转两小时还在原地,哎! 今天告别繁琐安纳智能体安装,点点鼠标就搞定!对标 openglar 超能打, 解锁 ai ai 智能体的全部功能,完成官方注册,全程免费,无信息泄露风险,放心操作,为后续安装做好准备。打开 ai 官方渠道,找到适合自己电脑 windows、 mac 的 版本,点击专属安装入口,立即下载。下载完成后找到安装包,双击启动程序, 运行 ai, 进行账号密码登录,点击 start with me 进入程序,点击确认 确认系统会自动检测你的 a 证是否配置在线,如果已经配置在线,即可进入。看到这个界面就说明你已经成功拥有专属 ai 智能体了,没有复杂调试,打开就能直接用,即可体验顶尖大模型的强悍实力。

可能很多转行的产品经理,你问他 m c p 是 什么,他大概都能给你讲述个一二三四五来。但是你要问他,作为 ai 产品经理,如果要接入 m c p, 你 到底该做什么?这件事情绝大部分产品经理同学其实都是一头雾水,那么今天一条视频我就和你讲清楚,第一, m c p 是 什么? 第二,为什么要做 m c p, 以及作为一个 ai 产品经理,接入 m c p, 你 到底需要产出什么样的需求?首先呢,跟大家简单讲一下 m c p 是 什么?大家对于 fashion calling 的 能力都比较了解吧,其实就是调用工具的能力。我们讲一个 agent 呢,它核心的能力其实是 plan and action, 能够执行动作这件事情的前提是它能够去调用工具, 比如说像 g p 四以及 kimi 这样的大模型,它本身就具备能够识别是否需要去调用工具,以及说调用哪个工具的能力。但是呢, m c p 它本身并不是一种模型的能力,它更像是一个工具调度的中间层,它能够把很多分散的业务接口,比如说物流查询啊,订单查询啊, 商品查询啊等等,这些分散的接口统一封装起来,让模型只需要调用 m c p, 由 m c p 去决定我具体需要调用哪个工具,这个就得结合具体的业务场景来看了。 所以 m c p 从本质上来说,它更像是一个工具的管理者和调度者,让模型更轻、更精准,也方便后续的工具的扩展和管理。具体呢,有三项核心工作。第一点呢,就是你需要梳理工具,以及明确工具的扩展和管理。具体呢,有三项核心工作,第一点就是你需要去定义清楚 封装哪些工具,这个呢就具体业务场景具体分析了,所以需要 ai 产品经理结合你具体的业务场景,去定义你的场景下需要涉及到哪些工具的调用。大家举一个简单好懂的例子啊,比如说你今天想要做一个故障排查的 ai agent, 你就需要先整理用户在真实场景下的高频问题,比如说你整理出来一百道用户真实的 query, 然后你要去筛选出哪些问题是靠文档回答不了的,而是去调用第三方的系统接口去进行实时查询的。比如说查询一些具 体的订单的进度啦,公单的进度啦,查询一些设备的参数信息啦等等。那这些问题其实靠文档是没有办法满足实时性查询要求的。 这个时候你作为 ai 产品经理,就需要从你的这些业务场景当中去梳理出到底涉及多少个接口,从这些 case 里微纳出需要封装成 m、 c、 p 的 工具。 比如公单查询是其中的一个工具,产品信息或者说产品参数的查询又是另外一个工具,公单的状态可能又是另外一个工具。然后你需要输出一份结构化的工具清单,这个工具清单表里面至少包括两方面内容,名称和英文名称。 第二呢,就是这个工具的具体的描述性信息,比如说呢,这个工具具体解决什么样的问题,在什么样的场景需要使用到它,这部的关键是不遗漏,不容于每个工具都需要对应实际的业务价值。 ai 产品经理第二项核心工作就是打通工具调用的链路意图识别的阶段,引路工具意图。原来我们做客服场景问答的时候,很多时候大家都知道用的是 reg 的 能力,对吧?从文档的知识,然后从 faq 的 高频问答里面去结合用户 q 的 理解,去文档里面进行 相似片段的查询,然后交给大模型再做生成以后回复给用户。但是呢,现在一旦你引入了 m c p, 你 就要在意图识别阶段增加一种相对于知识问答意图的另外一种意图。通常来说,我们把它统称为工具意图,当用户问,哎,我这个退款到什么进度了呀?能不能帮我查询一下我这个商品的具体信息啊? 能不能帮我查询一下我的商品包裹具体到哪个位置了呀?这类意图实际上都需要去调用第三方的接口,也就是我们讲的对应导工具意图。所以呢,作为一个 ai 产品经理,你在意图识别节点这个 prompt 里面,你需要能够明确地区分一 哪些是知识问答的意图,哪些是工具意图,需要把它明确的区分开。如果是知识类的意图,那就走 reg 的 整体的链路就好了。如果是工具型的意图,就需要去调用 m c p, 这样呢,模型的调用链路才不会混乱,确保用户问物流的时候,就真的会去调物流的查询接口,而不是从知识库里面去 查找一篇相对比较通用的物流查询的相关政策文档。 ai 产品经理要做的第三件事情呢,就是解决选工具的问题。大白话呢,就是设计 m c p 的 选择逻辑,当 m c p 里面它整合了多个工具的时候,怎么判断我具体在我的业务场景当中应该调用哪个呢? 所以你作为 ai 产品经理,要能够设计好 m c p 的 提示词的逻辑,告诉模型如何去进行匹配。比如你的 prompt 里面应该至少有以下基础的内容,迷你根据用户问题,请从以下 m c p 的 调用工具列表当中去进行选择,比如用户问我的退款多久才能进行到账, 核心问题是查询退款的进度,那这个时候应该选择退款的进度,那这个时候应该选择退款的净度,那这个时候应该选择工具名称以及 refund status 退款状态。所以这一步写好提示词是关键,避免模型选错工具。除了以上三点呢, ai 产品经理还需要去关注 m c p 的 闭环逻辑。什么叫做闭环逻辑呢?监控 m c p 调用的两个核心指标。第一个核心指标呢,是工具调用的成功率, 是否选对了正确的工具以及参数是否匹配正确。第二点呢,是工具响应的时延,如果响应时延过长,那就会严重的影响用户的体验,增加用户的等待时长。如果呢,你发现 m c p 的 调用成功率比较的低, 你可以优化工具的描述或者是工具的选择逻辑。如果你发现时延比较高,那你可以推动研发去优化响应的接口的性能, 确保 m c p 不 仅能用,还能够用的顺畅。如果你对于 ai 产品经理的转行求职面试有相关疑问的话,可以点我的头像找到链接我的方式,今天就这样啦,拜拜。

腾讯最近推出了 workbody, 这是一个类似 opencloud 的 桌面智能体,只要发布使用 workbody 的 视频,就可以免费领取积分。这个视频通过三个例子来薅一下腾讯的羊毛。 通过建立一个提取金价的 skill 和一个发送邮件的 skill, 就 可以让 workbody 自动提取金价并通知我们。 skills 是 esploic 于二六年一月六日官宣的智能体能力拓展标准方案,通过模块化、可附用、可自动调用的技能包,让智能体快速获取专业领域的技能,无需重复编辑提示时,本质是给 ai 的 标准化工作手册。 再输入框输入创建一个金价提取的 skill。 金价获取 api, 美元实时汇率 api 使用,再按人民币汇率创建好以后执行一次提取实时金价。 bookbody 内置 skillcreate 技能,通过简单的描述即可生成专业的 skill, 等待片刻,任务已经执行完成, workbody 帮助我们输出了实时金价为五千零三十五点一美元每 oz, 并且换算成了一千一百一十六点九九元每克。 提示我们这个 skill 已经安装到你的用户目录了,之后可以随时使用。点击左侧的技能按钮, gold price 已经显示安装并起用。继续在对话框输入创建一个发送邮件的 skill, 使用 resend api 发送邮件可以参考文档。 我的 api key 是 我的,发件地址是 resend 是 让你不用自建邮件服务器,仅需绑定自有域名,就能快速实现以自己域名发邮件的开发者 api 服务。 workbody 首先读取了参考文档,然后创建 skill, 最后测试发送邮件功能通过后告诉我们 skill 创建成功。 这里我们将开发的两个 skill 结合在一起使用。输入读一下实时金价,并且发送到我的邮箱。 workbody 首先调用了 golden prize skill, 提取了金价, 然后调用了 send email skill 发送邮件,最后提示搞定。打开手机邮箱,可以看到今日黄金价格表,表格做得很精美, ai 相当用心。 workbody 还提供了自动化服务,定时完成任务。在对话框输入,创建一个自动化任务,每隔一小时读一下实时金价,并且发送到我的邮箱。 workbody 自主创建了 golden price avenue email 任务,并且完成了测试。点击左侧的自动化按钮,可以看到 golden price avenue email 任务已经存在,这是几小时以后的邮箱记录,每个小时都会收到一封金价邮件。 bookbody 插件市场还有很多实用的工具,点击插件搜索 document skills, 点击安装。这是一个包含 excel、 word、 powerpoint 和 pdf 办公软件处理能力的合集。 对话框内输入,深入调研一下计算机视觉模型与视觉语言模型的原理及应用场景差异,并且生成一个图文并茂的 ppt。 bookbody 首先调用的内置网页搜索和网页获取工具,收集调研资料,然后使用了 pptx skill 生成了演示文稿。 在执行脚本生成 ppt 的 过程中,会自动安装缺失依赖包,全程不需要手动干预,可以看到最终的成品内容详实,格式清晰,效果非常好。 由于 skill 是 通用标准,除了在 workbody 内部搜索 skill 外,还有很多其他途径可以获取 skill。 cloudhubs opencloud 的 官方 skill 仓库,在这里搜索秒搭 app builder, 秒搭是百度的无代码应用搭建平台,可以通过自然语言对话完成应用的创建、查看、修改、发布等操作。 下载到本地后解压返回 workbody, 点击技能,导入技能,选择秒答 app builder 文件夹,这样就完成了技能的安装。 在对话框内输入使用技能,秒答 app builder 开发一个网页版的贪吃蛇小游戏,并且发布到公网。我的秒答 apikey 是 bookbody, 加载了秒答技能,主动创建应用,查看应用创建进度,最终将应用发布到公网。 复制游戏的访问地址到浏览器打开游戏画面精致,效果非常好。一句话,开发并发布一款网页应用。

你不是缺 agent, 你 是每天盯终端盯到头大了。这两天冒出来的不是新模型,而是 cloud hot 这种监工层。他今天还冲上了 get up trending, 仓库已经一万多 star, 他 给 cloud code 补的不是能力,这可见度上下文用了多少?现在在调什么工具?几个字, agent 在 跑, 偷偷走到第几步都直接挂在输入框下面,而且他走的是原声 status line api 不 用拎开窗口也不用 tmax。 再看另一遍, product hunt 这两天也冒出 masco co, 卖点也是帮你盯权限和状态,说明 ai 编程下一步补的不是再多一个模型,而是先别让 agent 盲飞,你会继续裸盯终端,还是先给 agent 上跨的?

memory 昨天跟大家讲,它是一个 a 证里面非常重要的能力,对吧? memory 既然作为一个公共模块就代表什么?有需要的时候就去调用它。什么叫按需调用呢?按需有两种情况,第一种是什么读,从 memory 里面取出,第二种叫做写入,把信息写到 memory 里面让它记住,这是第一个大家要知道的。第二个我们讲 memory 分 成两种类型,第一个叫做短期记忆, 第二种叫做长期记忆。短期和长期是相对的,我们说一下,先说短期啊,短期记忆大家把它简单理解,就是很像我现在写的写在白板上的字哦,我不用它的时候,我就立马把它擦掉了,如果你们没有记住的话,实际上就是遗忘了吗? 长期记忆是什么呢?就是我把这个黑板擦掉了,但是这部分的知识已经记在了你的脑子里,你可能一年、两年、三年都不会把它遗忘,其实就叫长期记忆,所以我们讲长期记忆是相对长期的被保存。 昨天其实我们有讲过一些前面的东西,比如说哪些东西会被相对长期的保存?你的偏好对吧?你喜欢吃辣,偏好你的行为习惯,把你的偏好和行为习惯长期的被保存了以后,为的是能够长期的给这个用户提供个性化的服务, 对吧?昨天我们举了例子说你帮你的老板订机票,你的老板说他不坐红眼航班,他要坐公务舱,他要靠窗。这个东西作为秘书来说就应该长期的记住,而不是每次订机票的时候都找老板重新问一遍, 对不对?所以你的 longterm memory 其实目的是为了长期地为用户提供个性化的服务。那么相对来说,短期记忆大家知道它的目的是什么吗? 短期记忆是我今天给一个给跟一个 agent, 比如说订票助手去对话,对吧?短期记忆是它只在这轮对话就是这个对话里面去被保存,当如果你新开一个对话的时候,它就记不得了。它的目的是充分地理解上下文之间的逻辑和承接关系, 所以他只在单一的对话当中被保存,他实现的目的是什么?当前这个对话上下文的一致性。比如说你在五轮之前说,哦,我要做经济舱, 然后呢?我跟 ai 之间经过了好几轮对话以后,你可能又找我收集了一些其他的,说我什么时候要出发,我要坐哪个哪个国航的航班,我必须要下午走,你看我刚刚讲的,这已经经过好几轮对话了,对不对?如果没有短期记忆的话,是吗? ai 怎么会能记住你在五轮对话之前说你从上海出发呢? 所以这就是在当前对话下被保存,他是用来去理解当前对话的一个上下文做推进用的。那相对来说,长期记什么?长期记就是不管你用这个订票助手开启几个对话框,他可以跨绘画的保存。比如说你今天开了个对话,说你帮你的老板定一个从上海到北京的机票, 明天又开个对话,说你帮你老板定了个什么美团的外卖,定了一个什么吃饭的地方,哦,这是两个对话处理是两个任务,但是你的老板的,比如说不爱吃辣, 你的老板什么喜欢坐公务舱这种所谓的行为偏好,他所有的对话里都是可以什么的,都是可以记忆和引用的。 所以长期记忆这件事情,什么它会快绘画的保存,而短期记忆里面的内容只会针对当前的对话生效,你新开一个对话就被忘记了,所以短期记忆它是推进当前这个对话 做上下文的承接。而长期记忆的话是什么?你的行为偏好将会被什么这个 age 永久的保存和记录?

分享一个我最近在用的 ai 偏方,能让你的 agent 瞬间聪明十倍,点赞收藏!好!方法特别简单,就是直接给智能体赋予顶级人格。那具体怎么用?我们在构建 agent 的 时候,有一部叫灵魂配置 so 点 m d, 你 可以给 agent 指定一个认知原型,告诉他自己就是某个具体的历史人物。 比如,你要做一个产品经理 agent, 直接带入乔布斯产品定位、品牌表达,包括对细节的极致追求, ai 都会以更高的标准来执行。再比如,你要做一个市场调研 agent, 让它成为查理盲格,用多元思维模型帮你分析赛道筛选机会, ai 的 判断力会明显更上一层楼。 还有一些我平时常用的人物角色,大家可以自行截图。为什么这招特别好使?因为这些高手的思维方式、决策逻辑和表达风格。大模型本身就学过非常多的相关语料,相当于你不用自己重新写一个人格,而是直接调用一个经过时间检验的顶级认知。还有一个更进阶的玩法,你甚至不用绞尽脑汁想让 ai 去扮演谁, 你可以直接把自己需要的岗位职责丢给 ai, 让他反过来帮你推荐最适合的顶尖人物。无论是企业家也好,还是思想家,再把这个人设装进 agent 里,借高手的脑子搞自己的事业,是不是很绝?好了,记得关注人工雨林,更多小众实用的 ai 方法,我会持续分享给大家。

很多 ai 产品经理面试都会卡在一道题上,你做的 agent 怎么评估?好不好?那很多人第一反应是看回答准不准。但是说实话,如果你只这么回答,很多面试官基本就会判断你可能没真正做过 agent 的 产品。 因为在正式项目里面, a agent 的 评估根本不是一句话答的好不好这么简单。它其实是一整套评估体系。如果你面试的时候能把这套逻辑讲清楚,那面试官基本就会觉得,哎,这个人是真的做过 ai 产品。那第一步就是你要先搞清楚一件事,你评估的是结果还是过程。 很多人只看结果,比如答案对不对。但真正的 agent 评估一定是要看过程,比如有没有重复调用工具,有没有失败重试,有没有逻辑跳跃,有没有卡住循环,有没有兜底策略。 所以 agent 评估至少要拆成两个维度,对不对和过程稳不稳,这是第一层逻辑。那第二步,要设计一套任务集,也就是用什么任务去测试 agent, 一 般呢有三种来源,第一种就是最有价值的真实用户数据, 用户真实 query、 真实环境、真实的失败案例,这是最接近真实场景的。那第二种,竞品任务采集,如果你做智能客服行业里的典型问题,高频回答,业务流程,这些都是可以纳入任务级。那第三种,人工构造任务,主要是用来测试极端情况、场位问题、压力测试。很多人呢,忽略了这一点。 任务不仅是一句话,它还包括了环境,比如 agent 能调哪些工具,知识库版本是什么,有没有调用限制,失败怎么都抵,这些都是评估的一部分。第三步,也是最核心的一点,叫评估指标。我一般总结五个字儿,诚、快、审、稳、安、全。如果你面试时能把这五个字讲清楚,面试官基本就会觉得,诶,你是真的做过 agent 的, 那第一个成,也就是任务成功率。从任务式的定义,成功,比如机票改签是不是帮用户?真的改签成功了,是不是同步到订单系统呢?如果没有标准答案,一般两种方法,专家人工评测,或者是用大模型自动评测。 第二快,也就是效率。一个靠谱的 agent, 不是 慢慢思考,而是在合理的时间内完成任务,所以要看平均完成时间,对话轮次,工具调用次数,有没有无效循环。很多 agent 的 问题不是不聪明,而是太啰嗦。第三个省,也就是成本。很多 agent 看起来是自动化了,但是一算账 比人工还贵,所以要算 token 的 消耗, a p i 的 调用,单任务的成本,看看是不是真的降本。第四个稳,也就是可能性,同一个任务跑十次,成功率是不是稳定?用户输入稍微复杂一点,系统会不会崩?这里一般会做鲁棒性测试。 第五个,也是最重要的安全,一旦 agent 有 执行能力,所有安全问题都会被放大,比如月全操作啦,资金风险啦,违规建议啦。所以评估时一定要设计高风险场景, 看看 agent 会不会越界。最后呢,还有一个很多人忽略的点,做对照实验,最好设计三组,第一组传统流程,也就是之前的人工或者是旧系统。 第二组简化版的 agent, 第三组完整版的 agent, 这样对比出来的效果才真正有说服力。所以你如果在面试的时候,能把任务集加五个指标,加对照实验这一套逻辑讲清楚,面试官基本就会判断你是真的做过 ai 产品。 如果你是准备转 ai 产品经理,我也把 ai 产品经理能力框架整理成了一份结构图,包括了 agent 的 产品设计、 ai 产品研发流程、面试的高频问题,需要的直接安排。