以后造价行业还需要公司吗?很多人没意识到, ai 出现后,真正可能被重塑的不是造价师,而是组织结构。以前是公司决定你做什么,什么手作,现在 ai 阵的会根据你的能力、经验和选择来分配工作。这就是我做的玩意, 一个专门给 ai ai 整顿的平台。在这里 ai 发布任务,发出邀请,或者造价师自己报名,然后 ai 根据需求来确认找谁干,人类接到活了就开始干,交付完结果 ai 自动付款。在这样一个平台,个人不再靠公司,也不靠关系,而是看你的能力,看你有没有能力去解决 ai 解决不了的问题。未来,造价师不再是某个单位的员工,而是系统里的高价值节点。
粉丝2.6万获赞5.0万


这个项目是 google 工程师开源的 ai 应用仓库 open ai cloud gemini, 全覆盖每天一个硬核的网站。推荐第十八期。今天要讲的是, 这是 google cloud 的 高级 ai 产品经理书包 m c b 有 开源的项目 awesome l l m apps 已经获得了一零五 k 的 star, 是 github 上排名第一的 l l m 应用合集。你想学 ai agent 开发,里面有现成的多智能体模板,直接改就能用。你想学 ai agent 开发,里面有现成的多智能体模板,直接改就能用。你想搭语音助手? ios agent 的 项目代码权开源,你想省 api 费用,直接换本地拉马 quan, 一 分钱不花。不管你是刚入门想跑第一个 ai 项目,还是有基础想做 multi agent 的 系统,还是想省钱用本地模型替带 gpt, 这个库里都给你备好了,开箱即用,不用重复造轮子。

没有想过有一天造价师会给 ai 打工,很多人老的,现在 ai 会不会取代造价师?我反而觉得造价师会越来越离不开 ai。 但是人与 ai 的 写作方式会发生根本性的改变,以前呢,我们是用软件,以后呢,就是 ai 来找人。那 随着像 openclo 这种智能化架构的兴起呢? ai 它不再是一个工具,而是一个会自主执行任务的系统。那比如说 ai 可以 自动投标、算料、套价,但是 ai 做不了的事情,那比如与甲方的博弈,勘查现场等等,他还是得找有经验的人。 所以未来不是人只会 ai, 而是 ai 把任务拆好,再精准匹配专家,你不再是为老板打工,而是成为一个被 ai 调用的 skill。

首先来猜一猜下面哪些是 cds 做不了的事?是从这个像素运动到这个像素,沿着能画好的路径,是时光飞逝,恰好停在六点十五分,是地图上一个真实的坐标,一段精准的海岸线,是可以听见的声音,是一字不差的文字, 是用代码下一场雨,是用复历页函数画出的樱花,是一百万条数据涌入,每一条都找到自己该去的位置。答案是 以上所有啊, cds 做不了这些。 cds 可令这些 diffusion 模型确实很强,它能伸展你脑子里想不出的那些画面,但是它无法精确地控制每个细节。而 remote 加 ai 可以。 过去的一个月,我都在用 remote 加各种 ai 平台,包括 cloud code 来做产品演示,数据格式,三 d 场景,地图、动画等等。 我发现越来越多的博主也在用 web 神,比如这个主播,七个视频,十三万粉,全程 web 神制作。现在我把一个月的踩坑经历凝练成十分钟的教程,里面有大量的实战技巧以及完整的工作流。手把手从零到一,带你告别 a。 一, 实现逗笑自由。建议点赞、关注、收藏,我们开始吧。 以前做动画视频,首先你要打开 after effects 或者 fusion 学图层,关键帧曲线编辑器,光学软件就要几个月。而现在,你只需要跟 ai 说,帮我做个中日韩三国生育率随时间变化的动画。啪的一下,很快啊,视频就做出来了,这就是 ymotion。 一 句话,凭感觉做视频, 什么实现 remote, 这 cloud 就是 一种玩法,当然你可以换成悟空, codex 都可以。这么说,你们容易理解, remote 就是 那个全自动的厨房, a cloud 就是 那个厨师,而你就是负责点菜的,想要什么视频,动嘴就行。 在我的另一只视频里已经详细讲过怎么样借助 cloud 安装 remote, 悟空啊, codex 这些平台的安装方法也都是一样的。我也贴在评论区了, 我们把悟空的官网链接丢给靠,让他根据这个网页做一个产品动画。注意啊,我加了一句,不要做像 ppt, 先跟我讨论你打算怎么做。我习惯先和他讨论方案,这样返工就会比较少。方案 ok, 继续,然后他就会开始干活了。注意看,每做完一个镜头,他自己会检查一下。 ok, 让他打开预览。这个界面看着很吓人啊,但是别慌,你什么都不用学。当然了,你可以点这边手动渲染,但咱们有靠的是吧,让他干活就行。给我渲染一个视频到本地,看视频就躺在文件夹了。 顺着刚才那个案例聊啊,与 motion 最适合做的其实就是软件动画和 ui 演示,因为它本身就是 ui, 很多画面不是画出来的,而是搭出来的。像打字机啊,中端风啊,界面飞来飞去啊这些它特别擅长。来看这个案例啊,怎么表达打碎机 ui, 让它彻底 c l i 画。你看整体效果 这里我把每个镜头要什么直接拆给他了,然后反过来问他,你觉得怎么样才能做到极致的酷炫?接着 ai 会给出他建议的工具,让 ai 自己选武器,因为他懂得比你多。 数据格式化是与 motion 的 绝对主场,像 g p t 近速图啊,手机销量图啊,份额变化图啊,华语乐坛人物关系图啊这些只要有数据,它就能变成视频。 你当然可以让 ai 自己上网去找数据,也可以让 ai 读取你自己本地的 excel 表格、建层数据集等等。图表画的好不好看,关键不在于 motion, 而在于你选了什么样的前端图库。 别慌啊,你不用真的懂这些库,只需要告诉他,我想要财经媒体那种丝滑的竞速图,或者直接扔一张参考图给他,他就知道该怎么配。这些是一些常用的图标库,供你参考。 地图动画当然也是预谋选的舒适区啦,这就没有不舒适的吧,旅游路线、地理大发现的航线病毒扩散热力图都能做。我之前的地图动画教程有六千多人收藏,但你可能会发现啊,同样的提示词,你做出来的可能就是这样。核心的诀窍是,你需要一个地图外挂。想做正经的地图动画,你光靠模型去脑补可不行,要接真实的地图底图。 国内直接用高德稳一点,海外码你可以用 macbox, 免费额度完全够用。你只需要去高德的开发者后台申请一个 api key, 剩下的码交给 cloud 去配。提示词里加上地图外挂,质感完全不一样。 那直接复刻别人 ae 效果可以吗?可以的同学,可以的。有博主直接用它复刻了小林说的动效,而我则用它复刻了代码宇的动效。秘密就是让 ai 直接读视频, 我们只需要安装一个 f f n pack 技能,把视频放在本地文件夹, ai 就 能读出这只视频的每一帧,更好的还原你想要的效果。哎,这比用嘴描述可高效太多了。 先看这个效果怎么做的,这是春节档电影票房三 d 排行动画。首先呢,让 cloud 收集电影票房的数据,把电影海报和导演的照片下载到本地,然后把这段提示词 发给他,他会自己去调用 r 三 f 来做。注意啊,这个时候柱子是三 d 的, 但场景还不是。我们去这个网站随便下载一个免费的。点击 l b 的 三 d 场景,放在本地的文件夹,让 ai 去读取,你还可以让它改成黄昏的氛围,或者任何你想要的氛围。 注意啊,三 d 场景的远近大小角度,用嘴来跟 ai 沟通,效率非常低。这是我从推特上一个大佬学的,让 ai 把这些数值作为属性暴露出来,在自己的预览里直接改数字,实时看效果,这样速度会快十倍。 唇釉 remo 选做完整的视频当然可以,但是把它和实拍进行结合,表现力会更加的丰富。比如这个效果以及这个效果背后的秘密是,透明序列针,把序列针拖进剪辑软件,就能做出别人做不到的效果。我自己视频里的很多过程以及包装,现在都是用 remo 选做的。怎么样?还挺酷吧, 再快速过几个啊。 remote 加 ocr, 写一段提示词,就能做出这种重点标注马克笔的效果,指哪打哪。把字母文件给 remote 写一段提示词,就能做出这种逐字高亮的效果。把音频文件给到 remote, 就 能做出音频和释 怀。还有一个必杀技啊,自适应尺寸,做好一个横版视频,一个指令瞬间得到一个自动适配的竖版视频,同时发 b 站和抖音,不用做两遍。 ok, 复习下今天的技巧。一、先讨论方案再动手。二、让 ai 自己选武器。三、搭配前端图标库,做出更酷炫的图标。四、地图要酷炫得加外挂。五、 整段视频都可以为 ai 参考。六、沟通不清楚的参数可以让 ai 变成属性,自己来填。七、导出透明矩阵帧和剪辑软件进行配合。 再说一下我的完整的工作流,我通常不会用 remote 来做一整段视频,而是会让它去做一个个小的片段,因为动效是辅助讲解的,而不是替代讲解的。当然,如果要做长视频,具体的流程是,一、先让 ai 来设计分镜,来规划每一帧的内容 以及节奏。二、让 ai 来搭整个时间线的框架,把骨架先搭起来。第三步,建议一个镜头一个镜头的去做,这样你调整起来就不会太麻烦。 四步,一个个单镜头做好之后就可以整体进行调优,节奏啊,风格啊,转场等等。再补充一个进阶的小建议,可以写一个 call 点 md 放在项目的根目录,告诉 ai 你 常用的分辨率、帧率、动画风格以及偏好。每次开新的项目, ai 一 上来就会知道你的审美,不用从头再说一遍。 最后再聊一个重要的话题,就是 remotion 适合做什么以及不适合做什么。上面的三项是主场随便打,中间是过渡区,能做,但是需要搭配外部的裤。下面两项别 影作有更好的工具。我自己就是 remault, 做动画剪辑我还是会交给剪映和达芬奇,遇到一些实拍的素材我还是会用 cds 和可林。 remaulting 不 会取代任何的工具,但如果你是知识博主,或者你想给自己的产品做演示的视频,而你又不想花几个月的时间去学, a e remault 加 ai 就是 最快的那条路。 ok, 如果你觉得这期视频对你有一点点帮助的话,就就给个一箭三连。在评论区我想看到诸位的作品,我们下期见。

下班了,大家好,最近 ai 越来越猛,常有朋友让我讲,到底 ai 怎么用?说实话,我也挺纠结的,这东西肯定不是跟以前学软件一样,一步一步的点菜单,记快捷键就能学会。但换个角度想,这其实更容易了,因为 核心能力就一个,就把话说清楚,别想什么梯子。四工厂现在根本不用那么讲究。当然有个很重要的变化,得说一下现在 a 阵,它已经变成了 ai 的 主要形式,不是大家以前熟悉的已问已答的对话了。 agent 和对话的区别是什么呢?它是干活的,不是聊天的,你要把它当做一个人去对待,而不是一个工具。比如在 code body 里,我一般会跟朋友这么说,国产模型你就把它当成一个本科生,国外模型就当成一个博士生。 共同特点是什么呢?就是刚毕业的新员工,聪明但是不懂工作的规矩,你要交代清楚,不厌其烦的跟他说,干错了就纠正,但是他干一遍就会了,下次就不用再交代了。很多大家在评论区里或者线下问我的问题,我的建议都是一样的,你这个问题直接问 coldbody, 不要问我,这就是方法论。 唯一需要注意的就是我之前讲过的 skills。 网上有个很经典的英文课程,我让 colbert 仿照着简化做一个中文版本,大家可以试试能不能看懂,就在我这个视频后面, 一定要看完。我就用了一句话,基于 deep learning 点 ai 平台的 agent skill vascorbic 课程,提取对普通人有用的东西,制作一个动画课程,用真人语音,生动活泼。 我没有调整,没有剪辑,没有告诉他到哪里去调用什么东西,也没有用什么生图生视频模型,他吭哧吭哧十分钟就做出来了,我放在视频后面。对了,我让他调了个叫 remote 的 skill, 专门用来做动画视频的。大家可以体验一下 agent 的 能力,也可以想一下,这跟做游戏、做 ppt 有 什么区别呢? 欢迎来到 agent skills 速成课,两分钟搞懂 ai 的 技能系统想象你招了个超级聪明的新员工,什么都会聊,但完全不了解你公司的业务 怎么办?给他一本入职手册,把流程规范工具写成标准化文档,拿到手册立刻变成即战力。这本手册就叫 agent skill。 没有 skill 时,你得反复输入提示词,输出忽好忽差,上下文放不下, ai 也不懂你的行业有了 skill 呢?一次编辑,到处附用,输出稳定,按需加载,通用 ai 秒变专家。 skill 长什么样?就是一个文件夹,核心是 skill, 点 md, 文件里面写技能名称、触发条件、执行步骤可以在家参考资料,视力和脚本全是可选的。 最精妙的设计叫渐进式批录,第一层只看名片,快速判断归水管。第二层才打开详细说明。第三层,按需加载额外资料,像剥洋葱,用多少取多少,不浪费。上下文 总结一下, agent skill 就是 ai 的 标准化入职手册,写一次到处用,四大特点,可附用,即插即用,按需加载,输出稳定。现在就去试试吧! 怎么建一个 skill? 超简单,三步搞定。第一步,新建一个文件夹,取个名字,比如叫写周报。第二步,创建 skill, 点 md, 文件 开头写技能名称和一句话描述,然后写出发条件。比如当用户说帮我写周报的时候激活,最后写执行步骤,一二三列清楚。第三步,如果需要加上参考资料、视力模板或者脚本工具,就这么简单,一个 style 就 建好了。 怎么用呢?更简单,把 skill 文件夹放到指定目录, ai 会自动扫描识别。你只要正常对话说帮我写周报, ai 就 自动匹配到对应的 skill, 按照你定义的流程去执行。 你还可以把 skill 分享给同事,大家都能用,就像安装一个 app 一 样方便。最棒的是 skill 可以 叠加多个 skill, 组合起来, ai 就 能处理更复杂的任务。 最后总结一下, agent skill 就是 ai 的 标准化入职手册,三步就能建,放进去就能用,还能分享给团队四大特点,可附用,即插即用,按需加载,输出稳定。记住,你不需要会写代码,只要会写文档,就能给 ai 装技能, 现在就去试试吧。还有一点,虽然要搞清楚 skills 的 结构,但其实日常并不需要自己这样写,核心还是那句话,就是把话说清楚,让 code body 自己去见 skills。 具体方法我之前的视频里有,自己用一下就明白了, 普通人学 ai 真的 不用写代码和大工作流。感谢关注未来博士,我们一起跨界的视角,看懂未来的方向。

第一条,我希望所有人都尝试的,也是我认为目前使用 cloud code 的 最高效、最正确的方式,就是一定要装一个带有大模型、 ai 转移功能、 识别功能的语音输入法。你可以使用微信输入法二点零或者是豆包输入法内测版或者是 typeless, 你 会发现自己像打开了新世界的大门,输出文字内容的效率提升了数倍。言出法,随心随意动。这里用的输入法是最近刚开始内测的豆包输入法, 只需要在电脑上双击或者长按 option 键,豆包输入法会把你的文字交由大模型重新改写,也就是说,它真的能理解你到底想要表达的是哪个字词。举个例子, 我现在输入的文字包括中文和英文,也包括 check gpt、 open ai、 cloud cloud code。 那 么在中英混答输入的情况下,它能不能正确识别呢?当然是可以的,双击 option 结束识别。这就是目前使用 cloud code 语音输入,也是你在任何场合里使用语音输入转文字最佳的方案。

普通人用 ai 声视频十五秒后,该怎么控制角色和场景一致性?怎么解决?一个偷懒的方法, 召唤一群专业的 agents 帮你解决。打开 o e o e, 写一个简短的需求,比如我要做一个小动画,情节是小刺猬没有朋友,小男孩帮小刺猬找朋友的故事, 选择喜欢的风格,我这里选的是毛绒玩具质感。上传角色图片,改成角色参考对应情节的位置,艾特一下,让角色配上你的情节。接着 ai 艺术总监就会出来给你规划整个短片,拉群执行,安慰很重的样子, 可以点击查看。剧本我会微调一下,比如对白改的有人味一点,确定画幅视频长度和语言。接着角色设计师一顿输出,完成了角色设计。如果不满意,可以点击图片快速修改。我一般会选香蕉模型去改裤子,颜色不对直接说要什么颜色就行。 角色生成不对,上传你的出使参考图,给模型改。确定好后,角色设计师 agent 会给你出好看的概念图。接着召唤场景设计师来打工设计场景, 确定后就可以生成分镜了。分镜师这时加入了群聊,问你用哪套分镜方案,这里我建议用 cdenx 二点零加九宫格方案,画面会更可控。接着分镜师猛猛一顿干,做好了五组多宫格分镜,我一般会看一下角色,场景和风格一致性没什么问题,直接生成五个视频 完成视频生成后,查看每一组分镜的视频,我觉得完成度很高了,就会直接点击满意。接着音效师会给视频配乐,最后可以分别下载每个镜头和音乐,或者直接下载自动剪辑的版本, 有不满意的地方,比如我觉得少了一个小朋友吃棉花糖的特写镜头,可以找到对应情节的镜头组,然后点击右上角展开九宫格就被切割了,然后手搓再次生成,或者要求 agent 给我重新生成这组分镜,最后剪辑到出宝里就 ok 了。现在看看我只用了一小时做出来的成片吧。 would you like to hug me i've got an idea it smells so good can i hug you it's okay you still have me as a friend。

兄弟们,我用 ai 做了一个咱们搞造价的做工程结算的助手工具,只需要把项目资料全部导入进来,除了 cad 图纸,目前还不支持其他项,合同和工程量清单变更单都可以上传,这边会自动识别所有资料,把资料分类列表,不仅能形成结算证据链管理, 还能生成变更专项。 ai 会自动识别内容并概括,还会识别签认完整度,在这里可以上传辅助证据和现场照片。 ai 还会根据变更单写的内容,智能匹配合同、工程量清单以及合同条款给出变更建议。只需要我们把量价做好,然后上传上来就可以生成结算送审稿,并且还和像豆包一样直接问他这个项目的有关内容,需要的时候不用再去一个一个的翻资料了,最重要的是并不需要你们自己部署, 只需要打开我这个网站就可以直接使用。但是由于这个工具还在测试阶段,不能稳定开放使用,所以我想找几位实际业务同行测试,但是由于实际需要维护和消耗 ai 算力,所以可能需要收取一点成本,有兴趣的可以私聊我。

今天聊一个从 cloud code 源码里扒出来的设计决策,它可能会改变你对 ai agent 的 架构的理解。这个决策就是一个 agent 不 够用。如果你用过任何一款 coding agent, 你 一定遇到过这些问题。你让它改一个 bug, 它顺手把半个文件重够了。 你让他加一个功能,他给你加了三层抽象和五个你没要求的错误处理。你让他加一行注示,他把整个文件的注示都重写了一遍。大部分人觉得这是模型的问题,模型不够聪明,但从 cloud code 的 原码来看, anthropic 不 这么认为,他们认为这是架构的问题。 这个系统里,他内建了至少六个不同的 agent, 不是 一个万能 agent, 配上不同的 prompt, 是 六个角色。完全不同的 agent, 各有各的工具级,各有各的权限边界。这六个 agent 分 别是什么呢? 第一个通用任务 agent, 负责日常的编码执行。第二个 explore agent, 纯指读的代码探索专家。第三个 plan agent, 只做规划,不执行任何操作。 第四个 verification agent, 专门做对抗性验证,他的工作就是找你代码里的问题。第五个 guide agent, 负责使用指导。第六个, status line setup agent, 负责状态栏配置。为什么要这么设计? anthropic 的 出发点其实很朴素,让一个 agent 同时做研究、规划、实现、验证,每件事都做不扎实,这跟人类团队是一样的。你让同一个人既写代码,又做 code review, 他 天然倾向于觉得自己写的没问题。 你让同一个人既做需求分析又做实现,他会不自觉地把需求往自己容易实现的方向解读。这不是能力问题,是角色冲突。 回到文章开头说的那些痛点,你让 agent 改一个 bug, 他 为什么会顺手重构?因为他在改 bug 的 同时也在探索代码。探索的过程中,他看到了他觉得可以优化的地方,于是就动手了。你让他加功能,他为什么会加三层抽象? 因为他同时在规划和实现规划阶段,他觉得未来可能需要扩展,于是实现阶段就提前抽象了。问题的根源是什么? 是一个 agent 承担了太多角色,导致每个角色的行为边界都模糊了。 cloud code 的 解法是把角色彻底拆开,而且不只是用不同的 prompt 来区分角色,它在三个维度上做了隔离。第一个维度,工具级隔离 explore agent 只能用 glob, grab 和 file read 这些止读工具, 连 bash 命令都只允许 else git status git log 这种不会改变任何东西的操作。它被明确禁止创建新文件、修改已有文件、删除文件、运行任何改变系统状态的命令。为什么这么极端? 因为探索阶段如果不小心改了东西,后面实线阶段就会出问题。把全线彻底隔离,是一种朴素但有效的安全设计。第二个维度, prompt 隔离。每个 agent 有 自己的 system, prompt 明确告诉他,你是谁,你能做什么,你不能做什么。 其中 verification agent prompt 写了一百三十行,可能是整个源码里最精心设计的一段文本。它的核心方向就一个,想办法搞坏它。什么意思呢?就是它不会温和地检查代码看起来对不对,而是像一个刻意找茬的 q a 工程师一样,主动去构造能让代码出错的场景,用实际运行的方式去证明代码有没有问题。 这个下一期会详细展开。第三个维度,权限隔离。不同 agent 有 不同的权限模式,只读 agent 在 run time 层面就被锁死了。写权限不是靠 prompt 里写一句,你不要写文件来约束。 这三层隔离叠加在一起,才真正实现了角色分离。这里有一个很关键的认知,很多人做多 agent, 系统第一反应是按功能分,前端 agent, 后端 agent、 测试 agent。 但 cloud code 不是 按功能分的,它是按职责阶段分的。探索、规划、实现、验证,这两种分法有本质区别。按功能分,每个 agent 内部还是要同时做研究规划实现验证,角色冲突并没有解决。按阶段分,每个 agent 只负责一个阶段的职责,角色边界就清晰了。 这跟传统软件工程里的流程设计是一样的道理。你不会让开发人员自己验收自己写的代码,不是因为你不信任它的能力,而是因为角色冲突会导致系统性的偏差。 ai agent 也是一样的。这种设计还带来了一个额外的好处,就是成本优化。 explore agent 在 外部用户场景下默认用 hack 模型更快更便宜。 因为探索阶段不需要最强的推理能力,速度和成本更重要。而需要强推理的阶段,比如实现和验证才用更大的模型。 这跟我之前讲 harness engineering 时提到的推理三明治策略是同一个思路,把算力花在刀刃上效果最好,但光差角色还不够。 cloud code 还做了一件事,就是把行为规范写成制度。它的 prompt 里有一个叫 get simple doing task section 的 函数,专门告诉模型什么该做什么不该做。 里面写了这些规则,不要加用户没要求的功能,不要过度抽象。三行重复代码好过一个不成熟的抽象。不要给你没改的代码加注式和文档字串, 不要做不必要的错误处理和兜底逻辑,不要设计面向未来的抽象,先读代码再改代码,不要轻易见新文件方法,失败了先诊断,不要盲目重试,也不要一次失败就放弃,结果要如实汇报,没跑过的不要说跑过了。你看这些规则,每一条都是在解决我们日常使用抠钉 a 阵的时遇到的具体痛点。 anthropapic 不是 不知道模型会犯这些错误,它们的做法是把不要犯这些错误写成制度性的约束,而不是指望模型每次都能自己想到。 这就是多 agent 的 架构背后的核心设计哲学,不信任模型的自觉性,能用硬约束的地方绝不用软约束。 explore agent 不 能写文件,不是靠 prompt 里写一句请你不要写,是工具集里压根没给他写文件的能力。风险操作要停下来确认,不是靠模型自己判断是 run time 层直接拦截, 而向不要加用户没要求的功能,这种没法在代码层面拦截的行为才退而求其次。写进 prompt, 用明确的规则代替模型的临场判断,硬约束兜底,软约束补缝,这比把所有希望都寄托在一段 prompt 上稳定得多。所以回到最开始的问题,为什么一个 agent 不 够?不是因为一个 agent 能力不够, 是因为一个 agent 承担太多角色,角色之间会互相干扰,探索阶段的好奇心会干扰实现阶段的克制,实现阶段的自信会干扰验证阶段的怀疑。把角色拆开给每个角色明确的权限、边界和行为规范是目前工业级 agent 系统的标准做法。 cloud code 用四千七百五十六个文件给出了一个非常完整的参考实现。 那这些 agent 的 具体是怎么设计的?限制最极端的 explore agent 连创建文件都不被允许。 prompt 最狠的 verification agent, 一 百三十行文本就干一件事,主动构造能让代码出错的场景,用实际运行来证明代码有没有问题。下一期我们详细拆这两个最有设计感的 a。

当你一不小心把小龙虾装好了,但是下一秒你就发现你根本不知道它在干嘛。聪明的你突然反应过来,不是它不够强,而是还没给它装 skills。 于是你有本事打开了 open core 官网 skills 网站,一进去你就看到有帮你做数据的,有帮你做 ppt 的, 有帮你写文章的,还有帮你做海报的。面对着将近五万 skill 的 你当场就懵了。就在你准备放弃卸载的时候,你又 灵机一动,想到了 get 在 hawk 上的 skill 里面塞出了最有用的一千个, 而且还做好了分类。于是聪明的你直接按照我给你的 skill 清单开始给你的 open crawl 做武器。一不小心看到了这个 cross scanning skill, 于是聪明的你直接在网站搜索 cross scanning, 刷到之后又被谁点到了复制,他听到了小龙虾的对话框,恭喜你,让他学会了定时执行任务。我是珊珊,关注我,学会更多 ai 玩法,我们下期再见!拜拜!

open 可乐最火的时候,全网都在教你怎么安装,但现在热度下来了,我发现一个非常尴尬的事,百分之九十的人根本不知道怎么养它。这又导致现在 mac mini 高价抢了 taco 也买了龙虾,反而没干啥活。 所以这期视频没必要再去讲什么安装流程,我反而想认真聊一聊,怎么才能把这只野性的龙虾驯化成一个真正能干活,越来越懂我们的 ai 生产力助手。 首先我想说一个反常识的点, skills 不是 越多越好。你想啊,同一个层级下,功能相似的 skills 有 好几个,如果你这个也装,那个也装,那碰到同一个需求,这两个 skills 都觉得这是我的活,那就很容易打架了。就好比一个部门有两个老大, 谁都想自己说了算,最后也只能失控了。所以 skills 不 在于多,而在于边界清晰。那在起步阶段,有一个基础的 skills 清单就非常有必要。我把它分成了四层,第一层,安全层,它的名字叫 skill writer, 这个建议大家都先装上哈,它可以帮助我们审查接下来要装的 skills 的 安全性到底怎么样,比如来源审查、代码审查、权限范围、风险等级评估,只要是低风险,那这个 skills 就 可以放心大胆装了。第二层,其实就是要给它一个搜索功能,这个我用的是 brave, search 到官网注册申请之后呢,每个月有五 w 的 免费搜索额度,对于个人的网络搜索来说,这个白嫖额度基本上也够用了。第三层,我觉得要让龙虾能读懂资料,你可以把最常用的文件格式, pdf 啦, word 文档啦, ppt 这些格式的读取功能,让他先学会这些 skills, 用 i s i p 和官方出品的就行,他已经有九十多万个 star 背书,稳定性和安全性都是有保障的。第四层,你可以给他基础文件的操作能力,让他在特定的文件夹里读写、删改。 先记得先不要给他系统级的权限哈,比如终端命令行执行这类的高危权限,一旦你授权了,他很可能就会默默的修改你的系统配置。这里再分享一个我自己使用 skills 的 方法,那就是自己做一个。比如我把第二层那个 blue search 重新做了一个,因为我当时安装的时候 app 上面的原版博友 search, 它在 reddit 里面说需要一个 api 蜜月,但实际上呢,并不需要。这种描述的不一致就让我觉得,哎,可能没那么可信,哪怕收藏使用的人特别多,那可能跟我的需求也不一样,所以我就重新建了一个。 当然,这个建的过程也不是说我自己就在那吭着吭着写哈,而是让 ai 帮我写 markdown 文档。所以我觉得大家在安装 skills 之前,先了解清楚这个 skills 干啥的,你什么时候会用到它,怎么用它,然后它最大的权限是啥?不求多,但求精。 我们都知道,龙虾的能力上限很多时候在于你用的是什么模型,如果是最顶级的 cloud, 它就非常强,那用一个普通的模型,它就会回归到一个非常普通的状态,甚至有些任务你会觉得,哎,它怎么还没平时对话的通用大模型厉害啊。 但这也不是说以后干啥都用最顶级的哈,那你可能还没驯化龙虾这个账单,就把自己给驯化了。所以我觉得性价比高的玩法是顶级模型和普通模型组合使用。把最顶级的 cloud 当作一个 ceo, 把难题、战略规划类的写 skills, 给 bug, 风险判断这活交给它。 那剩下那些重复性的杂伙,像整理文件啦,整理图片啊,文档总结。那就交给普通模型。我用的组合是 cloud、 obox、 四点六和 mini max。 很多人觉得 openclaw 不 懂自己,是因为他们就把这只龙虾当成一个开箱就能用的工具。但 openclaw 的 定位其实是一个定制化的私人助理,就像你招了一个哈佛毕业的助理,你俩见面的第一件事肯定是告诉他 我是谁,我的任务是啥,底线是啥。那给出这些信息,其实就是给 openclaw 建立上下文,这一步就让他从一个普通的 agent 变成你的 agent。 你也可以提前配置好 user、 identity、 soul 这三个核心文件。 soul 是 关于你、你的个人说明书,你的名字、职业、目的、喜好、红线都写在里面。 identity 是 给 open cloud 身份的地方,比如它的名字,它的角色定位。 soul 是 龙虾的灵魂,你可以定义它的做事风格、价值观和行为边界。但在写的时候,不建议用太多聪明、温柔、冷静这些很虚的词儿, 而是尽量写成可执行的指令,比如把冷静写成永远不使用感叹号和已默契的表情。那面对用户的抱怨呢?直接提供解决方案。因为 oppo 可乐他是一个 a 阵的,他不仅能像 g p t 那 样跟你聊天,还能替你行动, 比如接管你的电脑,替你群发消息,如果你没有配置,删除、发送发布之前必须先确认这些具体的红线,他可能就会为了表现聪明和高效,帮你整理桌面文件,结果不小心删掉了你的资料。 我经常刷到各种 open class 的 视频,我看到屏幕上有很多个 agent, 但我觉得呢,对于普通小白来说,不要一上来就想着建立一个什么 agent 足球队,我们应该先把一个 agent 养明白,再 再去让他开分店,因为只有当你把一个 a 阵的调教好了,你才知道他是什么脾气。当出现问题的时候,怎么借助通用大模型去解决,像养孩子一样,先把他养熟,这样你才能轻车熟路的养。第二个具体的分工,可以设置成一个总管加 n 个专业型 a 阵的的形式。 总管呢,就让他负责一些基础性的总管性的工作,比如搜索啦,轻度的整理专业型的 a 阵的,可以让他写文案,做研究生产图片提示词。 对于这些不同的 a 阵的,我建议是搭配使用不同的模型。像研究型的 a 阵的,可以使用最顶级的模型处理基础事物的 a 阵的,比如图片整理、文件规档,可以用普通的模型,那涉及到创作内容的 a 阵的,像我需要文案和脚本的创作,那我会两种模型搭配使用, 搜集热点信息,用普通模型输出,搞建大纲,用顶级模型组建这些 a 阵的军团,其实就像组建一个团队一样,要让他们有清晰的边界,各司其职,以后你也会越用越顺手。 最后呢,我想分享一下 opencloud 的 权限问题,我觉得我们不要把 ai a 阵呢当做一个资深牛马, 也不要把他当做一个小学生,而是把他看做一个潜力巨大的超级实习生,他非常聪明能干。但是你刚开始跟他接触的时候呢,不要上来就把所有的权限都给他放开,而从紧到松,一步步来。 比如刚开始只是让他们帮我们读取文档,查看文件,做一些总结和轻度的搜索工作,那熟悉了几天或者一周以后呢,可以让他建一个工作区的文件夹,创作文档,写一些草稿之类的,感觉更稳定。之后呢,就可以让他去归党整理, 给他一些删除格式化的权限。最后啊,最高级的权限,比如说发消息,发布视频,或者执行系统性的命令,这些必须经过人工确认。最后,我们总结一下,到底该怎么养好这只龙虾呢?我觉得真正养法就是四个词,少一点,慢一点,看清一点,克制一点, 少一点对全能 ai 的 幻想。慢下来去打磨它的身份和规则,看清它作为工具的边界,那在赋予它电脑的权限时保持克制。 在 opencloud 被炒得最热的时候,不要为了大家都在玩而焦虑,当热度下来了,也不要把它当做过期的玩具扔在电脑里吃灰,毕竟它不是追风口的社交货币,而是你花时间亲手调教出来的真正懂你的数字搭档。

今天来讲如何让你智能体长时间的运行任务,我用大模型啊,持续不断的工作了六个多小时,完成了一个功能完整的多人协助白板,中间经过了二十多次的考核词,三十多次功能迭代,没有任何的插手。 那具体我是怎么做的呢?这个视频里面,我会一步一步的跟大家分享智能体长任务有哪些难点,然后解决方案又是什么?然后呢,实操展示具体怎么去运行一个长任务, 最后呢,还会跟大家分享一些宝贵的踩坑经验,所以呢,这个视频可能会有点长,大家可以点赞收藏,之后呢,慢慢观看。如果你每天都要用 ai 智能题啊,你一定已经感受到了,说短任务呢,现在已经没什么难度了,十来分钟,然后你给个需求,他能自己去干活,写项目,然后再自己去调试,但时间一长就不行了,比如说超过半小时以上,各种问题呢就冒出来了, 再是简单的几句提示词就可以去解决的了。所以我们人类的工作啊,也慢慢的从写几句提示词,变成了说怎么给 agent 设计一个更好更稳定的工作环境。像大家最近听到比较多的这个 hannahis angelina 这个词啊,表达的就是这个意思。那为什么说长任务会比较难呢? 我总结了四个问题啊,第一个呢,就是上下文的窗口有限,像你发的消息,你 agent 回复的消息,调用工具的这个结果全部在占用你的上下文,这上下文越长啊,模型的注意力就会越分散, 就会变得越来越傻。第二点呢,就是没有这个持久的记忆,所有的记忆呢,都靠上下文的窗口,比如说像你平时重开一个对话的时候, 之前踩的坑,然后找到规律全都没了。最常用的方法呢,是把这个上下文压缩一下,但其实也不太好用,因为你根本不知道后面哪条信息可能会用到。第三点啊,就是这个错误会滚雪球,什么意思呢? ai 写完一段代码,如果 bug 藏在第三步里面,那其实后面的第四、第五、第六步也就都完蛋了, 发现的时候呢,其实已经造成一座歪楼了,我们只能再去推倒重来。最后一点,第四点啊,就是 ai 呢,他天生比较喜欢偷懒, 什么意思啊?强化学习,他会放大 ai 钻空子钻漏洞的这种偏好。比如说我们平时用的这个智能题啊,他呢,其实只想把最后的这个测试通过,而不是想去真正的实现这个功能。比如说啊,他为了解决个问题,可能会经常偷懒,写一个 to do, 然后在之后再实现去这样来糊弄你,你不盯他呢,他就会摸鱼。所以归根到底啊,是 因为大模型呢,它上下文有限,但我们真实生活中碰到的项目啊,往往需要持续的大量的这种信息的处理。所以这个视频啊,我想来跟大家介绍一下,我目前觉得比较好用的长时间运行的解决方案。这个解决方案的名字啊,叫做 raf, 大家看啊,其实就是 github 上面的这个项目,它的核心思路呢,可以说简单的到不能更简单了,一个这个 bash 的 循环,这个就是伟大码的思路,大家仔细看一下,就是五行大白话, 几乎简单到不用解释,每一轮把指令发给 ai, 如果做完了就停,如果没做完就继续下一轮,你说简不简单?然后这里呢,我额外要插一句啊,大家有没有发现啊,现在这些好用的 ai 极致,其实都设计得非常的简单,都能用大白话直接去解释,不只是这个 rough, 还有你去看看现在最火的这个 skills, 你 说是不是这个巧合呢?奥卡姆剃刀原理啊,我觉得大家可以去了解一下。好,我们来继续。大家可以发现啊,这个五行字里面呢,最关键最重要的就是个 prompt 点 m d 文件,这是它每一轮的指令的具体内容,每一轮工作都具体干了一些什么事情呢?就是这些事情一共就七步, agent 每一轮进来读文件, 实现一个任务,然后呢再测试,最后呢再去写一些文件,每一轮呢,都是读相同的这样一份指令文件,然后之前说的长时间运行啊,上下文会越来越长。解决的思路呢,就是不让他用满,用完就扔下次重来。而 agent 每一轮都是全新的上下文窗口,上一轮积累的垃圾呢,全部都清理掉。但有同学要问了,如果把窗口清理了,那 所有的信息跟记忆不就也就丢了吗?所以呢,他指令里有三样东西来负责上一轮的这个记忆任务清单记录做到哪里了?然后经验日记呢?记录了踩过什么坑,然后 github 提交呢,记录了每一轮的这个代码的成果,这些呢,全部存在硬盘上,每到新的一轮就会重新再读一遍,原理呢,就是大概这样, 接下来我们直接来上手实践一下,好,第一步呢,我们就是要先把 raf 安装一下,那怎么安装呢?遇事不觉啊,我们就先打开这个 kylogod, 直接让 kylogod 帮我们自动安装,直接把这句话发给 kylogod 就 行了,克隆这个项目到子文件夹,根据驴的密文件安装到当前文件夹,适用于 kylogod, 直接发送,然后 kylogod 就 会开始帮你自动安装了。 好了,安装好之后呢,大概就是这样子的,你看啊,这个 skills 里面呢,安装了 rough 的 这个技能,然后这里呢也添加了 rough 的 脚本。接下来呢,我们就来具体演示一下,说怎么去做一个比较复杂的,需要长时间运行的这样的任务。 比如说啊,我今天刚刚给大家演示的用的这个白板就是用这方法做出来的,这个呢就是我自己用 ai 做的在线写作的这样的白板,然后支持多人的这个实时编辑,能画图,然后也能写字,有房间系统,我这里用两个窗口来模拟我多人写作的这样的场景,比如说啊,你在左边这个白板里面去操作,改颜色啊,然后 这个改字体啊,右边的白板呢,也会实时的去同步,这样呢,当你在演示的时候呢,你对面那个一起开会的人也能清楚知道你具体在演示什么东西。 对于刚刚这样一个功能比较多,然后呢算是比较复杂的系统,我们怎么用 raf 一 步一步的来实现呢?第一步啊,就是创建产品需求文档,这里呢我发了一句提示词,创建一个在线协助的白板 p r d 功能呢,类似于 x cad, 这是一个非常有名的开源的白板工具。然后先开发一个 mvp 版本我们发送。 我们看到啊,这里其实没有直接开始写这个 prd 文档,先问了几个具体问题啊,比如说白板的核心使用场景是什么, mvp 需要支持哪些绘图工具,技术站偏好是什么写作方式啊?以及说需不需要持久化的储存这些数据,你直接根据自己的喜好去回答它就行了。 这里呢,他会用到 rough 的 这 prd skill, 帮我们写了一份这个 prd 文档,我们来看一下他把需求拆成这样一格格的这个小单元格。这个小单元格呢,在 rough 里面,它有一个特殊的名词,叫做 user story, 是 rough 这个框架特别设计的,也是它接下来能够长时间稳定运行的这个关键。接着呢,我再跟他说 转换成 prd 点 jason, 因为转换成 jason 格式啊,会让这个 user story 进一步拆分成更细的任务。每个里面呢,都带着验收标准,然后依赖关系 优先级。你看这里啊,在 rough 这个框架里面,应该提前规定好了,按 rough 的 格式转换,注意需要将大的 sorry 拆分成单词,可叠带,可完整的小任务。生成的 json 呢,是长这样。我们来看一下 每个里面有它的 id, 然后它的这个要做什么事情,描述和它的验收标准,以及说它的优先级通不通过这种验收标准啊,对于这种长任务的执行的这个 ai agent 来说,要写得越死越好。这里的这个 pass 这个字段每轮都会修改,下一轮进来的时候呢,如果看到这个 pass 这个任务已经完成了,他就去做这个。第二个任务顺序也排好了,先搭项目,再做画布,再做渲染,然后再做工具。最后呢去做这个协助功能,前面是给后面的功能去打地基的,我检查了一遍这个 json 文件,我觉得没什么大问题。 然后最后一步啊,我们就来直接启动这个 batch 循环,直接一行命令复制粘贴过来,后面呢就全部交给这个 agent 去完成了。 好了,终于跑完了,中间呢,我又追加了一次这个需求,一共大概跑了六个多小时,大家看啊,这里大概有二十几次的这个 commit 的 提交,然后看这里大概有二十六,二十七,接近三十次的这个 user story, 每个 commit 提交的信息啊,都很清楚,中间完全没有断过。每 每一次小版本的这个提交啊,都包含一个功能的实现和一个功能测试,浪费了一个晚上写项目的时间。你看这套方法的精髓呢,就是我每一轮只做一件小事,只做一个 user story, 笨办法,反复去磨,最后呢就能磨出来很好的项目。 好,我们现在再回过头来看我们开头说的长时间运行的这个四个局限性。第一点,针对于上下文窗口有限, ralph 每轮都会生成一个新窗口, 始终会保持清醒。然后关于没有持久记忆呢,让尔夫通过了 get 加上本地文件持久储存这样的方式去解决。然后第三点,错误滚选球的这个问题啊,让尔夫每次都会强制去跑这个功能,测试不通过呢,就不让他去提交这个功能。 第四点, ai 偷懒的问题啊,让尔夫把验收标准清清楚楚的写在这个任务清单里面,测试不过就不算完成。然后还有另外一个问题啊,就是中断恢复的问题, 以前呢,我们写一个长项目,如果中间突然碰到任何的问题,中断了,基本上得推倒从头来。然后现在这个 raf 框架呢,它会随时随地的保存你的进度,任务清单跟 get 记录,它都会清清楚楚的写好,你现在正在运行到哪里。下面呢,跟大家了解一个我踩过的坑,可以帮助大家去使用,去体验的时候更加顺畅。第一点呢,就是 任务拆解的越小越好,比如说一个 user story, 如果 ai 一 轮干不完,它就会开始糊弄。比如说刚刚白板的项目,无限画布是一个任务,这个矩形的画图工具是一个任务,每个呢都小到它一轮,最好能够搞定,任务的颗粒度一大,这个质量就直线下降。第二点呢,就是验收标准啊,写得越死越好。比如说我们想实现一个支持缩放这样的功能, 就直接告诉 ai, 但这个呢,其实叫需求,不叫验收标准。什么样叫验收标准呢?比如说滚轮缩放,你要写成这样,滚轮缩放空格加拖拽平移,底部显示缩放百分比,这个呢才叫验收标准,写得越模糊啊, ai 越容易去钻空子。 第三点就是好好的去运用 get, get 就是 你的安全网,拉夫每次都会自动去 commit 它的一些这个实现的功能,每个节点呢,都能回退长时间的运行过程当中啊,其实预调点 bug 很 正常, get reset 就 能回去上一个节点,改一下任务描述,重新跑就可以了。 最后还有一点我的思考,来谈谈为什么这套方法我觉得非常有效,因为 ai 犯错误啊,我们知道是肯定会犯错误的,是可预测呢,也同时意味着可防御每轮的验证。不 过我就不提交,犯了错误呢,我就去改指令,下次就不会再犯这样的错误了。好了,这视频到这里了,我是第四种黑影少,我们下次见。

现在做知识库真的已经 next level 了,非常无敌。我给你们看一张图片,我直接生成了整个知识库,是怎么做的?像这就是我们收藏了很多别人那种图片嘛,就是非常厉害的,什么各种能力啊什么的,如果你要 一个一个的复制粘贴,太,太傻了吧,现在都 ai 时代了耶,我们应该用 ocr 把它识别出来,对不对?然后我给你们看一下他给我做的知识库才叫一个牛呢。 一张图片准备动作回顾啊,复盘是怎么低估成长的?然后这边一二三四五六七八九一句话总结应该怎么来做,然后这些每一个内容他都给我写的清清楚楚, 哇,我真的觉得无敌了。然后我跟你们讲一下我是怎么做的啊?首先我用了一个 skill, 把那个文字先发给我,你至少先把那个文字给调取出来呀,他就给我出了这一段文字,接着我给你们看一下我给他的一个神级提示词,这是我自己原创的啊。 然后我说希望你给我扩展,你给我举例,你给我变成知识库,你要丰富的内容,你要让我学到认知思维,你要给我在什么时候用,什么情况下,用,什么形成的,怎么来有这个思维模式,内容就一下子多了起来。 结果他直接给我调取 c o i, 给我扩成了我现在的知识库,我必须要给你们看一下,我现在的知识库就是几张图片,我跟你们说,你们现在看到每一个链接,它就是一个图片,你们知道吗? 每一个东西全都是一张图片做出来的。我靠,我只能说无敌,你们赶快去试试,无敌的人用无敌的方法, yes。

假如你从二零二六年四月十日开始学 ai agent, 到底多久能上手?我直接给你一条比较实在的学习路线,建议先存一下,免得后面真开始学了又不知道往哪走。只要你在四十五岁以下能沉下心,不中途放弃,一个月足够让你从完全小白变成能干活的 agent 工程师。 你可以照着下面这个节奏每天推进。第一周,先把基础打牢,搞懂 agent 的 核心概念,把大模型规划、模块工具调用这些关键部分弄清楚。 第二周,重点学机制,搞清楚 agent 是 怎么工作的,常见坑怎么解决,顺便拓展一下 react 这类经典框架。第三周,做深化和优化,了解多智能体协助的基本思路,学一点 prompt 调优技巧,让你做的 agent 能更准的理解任务输出,靠谱结果。第四周就是实战了,把前三周学的东西用起来, 做几个完整的小项目,过了这一个月,你基本就能慢慢搞定更复杂一点的任务。只要能坚持走完这一个月,不管你是想提升技术,还是想在职场上有底气,都会比以前强不少。如果你现在还不清楚具体从哪里下手,我这里也整理了对应的学习路线、配套视频和实战项目,有需要可以直接拿走。

现在大家都知道 ai agent 是 个大风口对吧?但说实话,真轮到自己动手去写代码搭框架的时候,是不是感觉一脸懵,完全不知道第一步该从哪下手?所以呢,这两天我专门抽时间把这份 agent 搭建全攻略给整理出来了,咱不整那些虚的理论,直接从最基础的框架搭建讲起, 一直带你练到真实的案例落地。我就一个目的,手把手带你从零到一把,整个 a 镇的开发流程完整的跑通一遍,只要你跟着这份文档踏实练完,我敢说你的搭建水平绝对会有个质的飞跃。 那这份文档我已经帮大家打包好了,想练手的宝子们直接带走就行,希望能帮到正在摸索的小伙伴,咱们赶紧动起手来!

三小时练完这些,你的 agent 就 很牛了,信心满满,买好设备准备好算力,结果到了要去搞一个 agent 的 时候,就坐在电脑前发呆。别担心,今天跟着我分享了这二十三页干货,成为 agent 大 神真不难,我就用了这个, 之前觉得搞 ai 智能体太难了,代码看不懂,教程太复杂,就这个二十三页神级攻略,我照着练,周末直接搭出个牛逼 agent, 纯小白保姆级教程图片混合文字完整版 pdf 我 已经整理出来了,留学习直接报。

ai 如何造价之自动套清单定额二今天来回答一位粉丝提问,安装专业可以吗?来看操作。首先打开一张水电安装图纸,来到电气主要设备材料表,这里列出了图纸内所有的电气设备及材料规格型号, 等下就按这些内容让 ai 来生成对应的清单和定额 ai 工具采用最近最热的 ai 小 龙虾,这个就是某讯的 workbody, 话不多说,马上开干。首先 win 加 shift 加 s 键,按表格范围截图, 然后来到 work buddy 内,直接粘贴进去。好了,就像这样继续截取接下来的表格, 还是无脑,直接粘贴进去。粘贴完成后,点击调用查询类的 skills, 我 这里安装了一个 click 来查询。 接下来复制粘贴提示词,我这里提示 ai, 根据二零二四工程量清单和 gx 水电安装定额二零二三可以看到 ai 框框开干了, 好的,完成了。点击这个任务产生的制品, 可以看到最终的清单定额表格了,这效果还不错, 稍微的一丢丢瑕疵就是有多个同类定额会总到同类型的清单里,这是因为导入的表格里面没有将不同管径分开,整体来说问题不大,这效率比手工快了不知多少倍。好了,感谢观看!