你们现在做大模型应用的时候,是不是还在疯狂造 agent? 如财务 agent、 法务 agent、 客服 agent, 造了一堆结果呢?是不是发现维护成本高到离谱,头都大了?每一个 agent 都像个不听话的员工,还动不动就胡说八道,出各种问题。今天咱们就来聊个颠覆认知的话题,别再找 agent 了,咱们跟着 anserpik 的 思路,看看 anserpik 的 cloud skills 是 怎么用工程化思维 把咱们从智能体动物园的坑里拉出来的,看看问题到底出在哪。 现在大家看到的就是咱们很多团队的真实写造智能体动物园。我再问大家,我们团队的 agent 是 不是越造越多,反而效率越来越低?为啥会这样?咱们先看第一个问题,规模化叫福难。很多同学觉得 agent 越像真人越好,但你想啊,每个 agent 都有自己的 prompt, 自己的工具,自己的权限,就像一群没规矩的员工,各干各的,你让他们协同工作,难,最后反而变成反工。自动化越用越累,有没有这种感觉?第二个更坑的,专业性缺失。通用大模型确实聪明, 但他不懂你们公司的业务流程啊。你让他一个做财务报表,他可能把小数点都搞错,你让他写法务合同,他可能漏了关键条款。最气人的是啥?他还特别自信,胡说八道都不带心虚的,咱们企业要的是稳定输出,不是他的灵感迸发,对不对?第三个痛点 也是最要命的,维护成本爆炸。每个 agent 一 套逻辑,改一个需求,你得改十个 agent, prompt 加一个新功能,所有 agent 都得重新调试,到最后 维护 agent 的 人比用 agent 的 人还多,这是不是你们的真实情况?所以你看,单纯堆 agent 的 数量就是条词,根本解决不了问题。那咋破局?咱们看看 astropok 给我们大木星工程师指了条什么明路,大家看这页,左边是咱们的老路,右边是 kloos 的 新路。我先问大家, 如果你的团队需要一个新能力,你第一反应是什么?是不是赶紧造个新 agent? 大家看左边的旧模式,缺财务能力,造财务 agent 缺乏悟能力, 造法务 agent 就 跟搭积木似的,堆得越高越容易塌,维护成本蹭蹭往上涨,早晚得崩。那新模式牛在哪?哎,重点来了,保留通用 agent 内核,把财务、法务、运营这些专业经验做成可附用的 skills。 啥意思呢?我给大家举个例子,通用 agent 就 像一个智能手机,本身啥功能都有,但手机上要办公,手机上得装 wps 软件,要聊天,手机得装微信软件,这些 app 就是 需要啥功能就装啥插件,是不是特别灵活? 我再举个例子,你有一个通用的企业助手, agent, 要做财务报表,就加载财务报表生成 skill, 要审核合同,就加载合同合规检查 skill。 不 用再造新 agent, 不 用重构底层逻辑,直接插拔使用。这就是最关键的范式转变,从造人到做技能, agent 是 壳, skills 才是核心资产。这一步想通了,后面的工程架构就好理解了。接下来我们来看看 cloud skills 的 核心架构到底咋设计的。现在大家看到的就是 cloud skills 最牛的工程创新。上下文渐进式加载。我先问大家,咱们用大模型最头疼的是不是上下文窗口不够用? 你想啊,如果把所有技能的所有细节都塞进 prompt 里,别说几千几万头肯了,就是几十万头肯也不够用啊。 那 sql 是 咋解决的?分三层加载,咱们一层一层扒开看。第一层,原数据加载,指加载技能的名字描述这些最基础的信息,比如财务报表生成 skill、 合同审核 skill, agent 只需要知道我有这些技能就行,不用知道具体咋做,这一步占用的 token 极少。第二层,触发式加载, 只有当用户的需求匹配到某个 skill 的 时候,才去读取这个 skill 的 详细流程和指令。比如用户说帮我生成一份阅读财务报表,系统才会把财务报表生成 skill 的 具体步骤加载进来,这叫按需加载,不浪费一点上下文空间。 第三层,按需深度加载。如果这个 skill 还需要参考资料模板文件,比如财务报表的模板、往期数据,那就在需要的时候再加载这些细节材料,用的时候再拿,不用的时候就放在外面,是不是特别高效?大家想想,这三层策略下来,是不是完美解决了上下文不够用的问题?上下文不是容量问题, 而是加载策略问题啊。这就是工程化思维的魅力,不是靠堆硬件,而是靠巧设计。知道了加载策略,咱们再看它的动态调度逻辑。 这个流程其实很简单,系统提示,加上技能源数据,先让 agent 知道自己有啥本事,然后匹配用户需求,找到对应的 skill, 再加载 skill 的 详细文件,最后按需加载附属材料,整个过程是不是一目了然,可观测、可调参、可评测?哪一步出问题了,直接定位, 不用大海捞针,这对企业级应用来说太重要了。再看一个核心优势, skills 里的代码执行能力。这里又要问大家了,你们用大模型生成代码,是不是经常遇到看起来完美,跑起来就会报错的情况? class skills 就 解决了这个问题,它的分工特别清晰,模型负责思考,代码负责执行,模型的任务是理解需求,做决策、编排流程。而计算数据、排序表格、格式化文档这些确定性的活儿,全交给代码脚本干,又快又准,还能大幅降低 token 消耗。这里面有个核心分工原则,大家一定要记下来。 模型负责思考, runtime 负责执行,各司其职,效率最高。透坑消耗少了一大半,成本直接降下来了,这才是企业想要的解决方案。聊完技术,咱们再看 mcp 和 skills 的 关系, 很多同学可能会问, mcp 是 啥?简单说, mcp 是 连接层, skills 是 业务层, mcp 解决的是能连什么的问题,它帮你连接 crm、 网盘、数据库、内部系统这些数据源。 而 skills 解决的是怎么把事儿做对的问题,它定义了业务流程、操作规范、执行脚本。我举个例子,生成客户流失报告,就是 mcp 从 crm 里拉取客户数据,分析 skill 做流失原因,建模报 表, skill 输出标准化格式。最后 mcp 再把报告写回公司知识库。两层架构是不是特别清晰?最后,技术变了,组织分工肯定要变。 以前咱们可能是模型工程师、 prompt 工程师单打独斗,现在呢? pm 要规划技能资产组合架构师要做企业级治理,开发者要写可执行的 sop 和脚本业务专家要沉淀领域知识,人人都能参与,这才是可持续的大模型应用之路。当然啦, 任何新技术都有风险, cloud skills 也不例外。比如标准化缺失可能导致平台锁定,脚本执行有安全风险,技能选错了可能执行出错。但未来的方向很明确,行业会逐渐标准化,技能会像 app 一 样形成市场,通用 skill 和私有 skill 会分化,技能包会成为企业的核心竞争力。 时间差不多了,咱们来总结一下今天的核心内容。今天咱们聊的核心就是从造 agent 到做 skills 的 范式革命。最后我想再问大家一句,未来大模型应用的互层合是什么?是模型参数吗?是算力吗?都不是。 未来真正拉开差距的不是你有多少 agent, 而是你把多少组织经验沉淀成了可附用、可治理、可分发的 skills。 记住这几点,第一,模型通用化后,组织方式是核心竞争力。第二, 从造系统到做插件生态是降维打击。第三,上下文问题的本质是加载策略问题。第四,技能资产密度决定了你的护城河有多深。希望今天的内容能给大家带来一些启发,希望大家回去之后别再盲目造 agent 了,试试用 skills 的 思维重构你的大模型应用。
粉丝6317获赞2.8万

hello, 大家好,我是 d p。 在 一天前,也就是三月十八日, openair 发布了 gpt 五点四 mini 和 nano 两款小模型。伴随着这次发布, codex 的 免费账号恢复了对高级模型 gpt 五点四和五点三 codex 的 使用权限。这也是时隔八天, openair 再次恢复了免费账号对高级模型的使用权限。录一个视频跟大家分享一下相关情况。 首先我进行了一些本地测试,以下的测试结果仅限我本地测试呃,给大家做一个简单的分享。 首先我进行了第一组测试,是在 vs code 的 插件里使用的是,呃,大家可以看一下这张图,上面分别标出了一二三,一号位代表我用的是五点四模型, 思考强度是中等。二号位,我问他的问题是非常简单的一个问题, which model are you? 你 是什么模型?三号位,他给出了一个中规中矩简单的回答。然后我 提供了一下这次请求的数据情况,分别访问了两个模型, gpt 五点四和 gpt 五点一 codex mini。 然后一号位是模型,二号位是输入 talk, 三号位是输出 talk, 四号位是总 talk。 所以 我们进行了一个简单的统计, 模型是 gpt 五点四中等思考强度十五点二 k 的 总 top 用量,然后占了免费账号的周额度的百分之四。 好的,紧接着我又做了第二组测试,因为我的机器上还有那个 codex app, 然后分别是一二三四五,我都在图上标出来了一号位代表我用的是五点三 codex, 呃,高,高级思考。 然后二号位我问的问题是一样的,然后三号位是回答,呃,四号位是上下文的一个长度,然后五号位是我当时使用的 codex 的 版本,也就是当时的最新版, 然后同样的这边也提供呃,这次请求的一个详情情况,分别是一二三四,一号位输入。啊,说错了,二号位输入,三号位输出,然后四号位总 top 数, 然后进了,进行了一个简单的总结,分别是模型 gpd, 五点三 codex 思考强度是高等,就是 high, 然后总套根数是二十一 k, 然后它用的周额度比例是百分之六。 好的,这就是我的测试的详细情况,下面我们来做一个额度的计算。首先第一点需要确认的是,免费账号在 codex 里只有周额度, 然后本次测试我们用了十五点二 k 和二十一 k, 总总的 talk 是 三十六点二 k, 然后占周额度的百分之十,那么可以推算出周额度在零点三六 m, 然后同时我们拉入 tim 账号来做对比, tim 账号分别有五小时额度和周额度。 在我之前的测试中, team 账号的五小时额度大概是这么一个关系,六点八 m 的 talk 对 应百分之二十七的五小时额度,那么 可以测算出五小时的额度大概是二十五到三十 m。 这里有一个范围是因为我发现后面它的那个 talk 是 浮动的, 因为它的额度比较大,所以我们这次测试中取呃,三十 m, 然后五小时额度大概是周额度的三分之一,也就是一周可以用三次五小时, 那么经过简短的换算,九十个免费账号才能等于 一周的一次的五小时额度,因为免费账号只有周额度,对吧?然后再计算,如果想要和 team 账号的周额度打平,需要两百七十个免费账号。好,这就是我计算的一个结果,下面我们来做一些思考和总结。 首先,无论如何,这是一个好消息,因为它是免费的,并且这对初次接触 codex 想要尝试的用户来说是非常友好的一件事情。 但正是因为如此,我想说它也只能做测试用途,因为一周零点三 m 的 额度其实干不了什么事。大家回想一下我刚刚的两个问题,两次问了简单的问题,它就用了百分之十,也就是相同的问题,我可以用问 二十次,然后这个额度就结束了,所以它只能做非常少的事情。然后这边我还想提醒大家的是,当前是在两倍额度的优惠期间,我不确定这个免费账号这次恢复的额度是否能吃到两倍额度的这个红利。 不确定,但是有可能它没有,没有两倍额度的一个福利在里面。然后下面是我的一些思考。首先对于这种逆节奏周期的这种开放,我不太能理解,为什么说呢?因为,呃,像 google, 呃,吉米纳、 c l i 和 antigravity 都进行了额度的收紧,包括 co pilot。 我 们之前也报道过,对学生订阅的额度也进行了收紧,所以整个趋势来看,额度是收紧的。但是 open a r 居然反节奏而行,我没太看得懂。然后紧接着我在思考一个问题,这种 高级权限对免费账号的违规是临时的还是持久的?然后在网上有一种呃说法,就大家的讨论说,因为发布了五点四, mini 和 nano, 由于这次 bug 导致了这个高级模型的临时回归,但我觉得好像也不太像,为什么呢?因为它的模,它的模型的额度少的可怜,所以我觉得不太像是一个 bug 性的回归,反而像是一种象征性的回归。 然后还有一种说法说会把五点四呃路由到五点四 mini 上进行一些降置的操作,我觉得也不太可能。为什么呢?因为他给的额度真的太少了,这么点额度再转到小模型上去有点没意义。 好的,以上只是我的一些思考,欢迎大家留言参与讨论。另外在最后也推荐大家 尝试测试 codex, 首选的模型是 gpt 五点四,如果觉得额度不太够用,可以考虑用五点三 codex 这个模型。 另外,关于呃发布的小模型五点四 mini, 在 小模型领域它是值得一试的一个模型。好的,这就是这一期 openai 恢复 codex 免费账号使用高级的 gpt 五点三 codex 模型视频的全部内容。 如果这期视频对你有帮助,请帮忙点赞和转发。如果你有相同的经验,想要分享或者遇到相关问题,欢迎留言。我们最近开放了呃 ar 相关的讨论组,如果有兴趣欢迎私信我。好,就这样,我是 d p, 谢谢!

第一个 ai 顶流大模型已经开始死了,不是什么野鸡小模型,而是全球第一的顶流大模型。 sora 今天正式官宣停止业务,为什么说它是全球第一呢? chat gpt 大家都知道吧,全球第一个爆款的通用大模型,而这个 sora 呢,和 chat gpt 来自于同一家公司 open ai, 是 全球第一个爆款的视频生成类大模型, 曾经还放出豪言要让好莱坞关门,但如今呢,自己先关门了,享年两岁。根据报道呢,骚扰目前啊,它不仅停止了所有新用户的注册,现有用户也无法再使用它来生成视频了,甚至连之前生成的部分内容都已经无法访问了。 但就在几个月之前,它还是全网最风光的 ai 明星,这也挺让人唏嘘的。可能有些人现在已经忘记了骚扰,当时刚上线的时候,也就几个月前的时候,推出了基于社交的二点零版, 当时哪怕他全程采用邀请制啊,第一周下载量依然冲到了六十二点七万,短短三天就登顶了美国 app 总榜第一。 不知道大家还记不记得,当时有很多人啊,拿欧本 ai 的 创始人上奥特曼和自己的形象呢,来合成视频,搞得一时间奥特曼都被玩坏了。我当时也赶了个时髦,做了一些视频给大家看看。 用这个 sorrow 呢,你随便输入一句提示词,它就能生成超高清超逼真的短视频,不管是电影级别的场景,细腻的人物动作,还是逼真的自然景观,它都能轻松拿捏。也正因为如此, sorrow 当时啊,放出豪言壮语,说要让好莱坞关门,扬言要彻底颠覆传统电影的制作,让普通人也能轻松拍出电影级的作品。 更重磅的是,去年十二月的时候,迪士尼还真的宣布要向欧本 ai 投资十亿美元,来达成三年的战略合作,把迪士尼啊,漫威啊、皮克斯啊旗下的两百多个角色全部授权给他,包括大家熟悉的冰雪奇缘、玩具总动员等等经典 ip 计划呢,让用户能和动画角色进行互动,生成专属的短视频。 但是如今呢,这比十亿的美元合作啊,还没完成交割, soara 自己就已经先凉了呢。核心原因啊,我认为有三个。第一个,也是最致命的,就是成本高到离谱, 视频生成它就是一个算力的黑洞,要耗费巨量的显卡,但是盈利又非常的困难,公司根本烧不起。根据估算算,他每天的运营开销高达一千五百万美元。年化成本呢,达到五十五亿美元。单条十秒的普通视频,他的生成成本就要起步一点,三美元相当于十块人民币。 如果是复杂场景呢,一次生成成本能充到三十三美元,就是两百多块人民币。算算负责人他自己都承认这种运营模式完全不可持续, 团队的 gpu 资源早就已经不堪重负了。后来呢,这个 openai 被迫把免费用户每日生成的额度啊,从三十条砍到了六条,但这个呢,反而加速了用户的流失,又陷入了恶性循环。 我们可能不知道啊,视频生成的这个算力消耗是普通文本模型的一百到五百倍,哪怕是 openai 这样的顶流的巨头,它也扛不住这种烧钱的速度。 那么第二个原因呢,就是用户新鲜劲一过呢,他的下载量就彻底卸载了。刚刚上线的时候,大家都争相去体验生成视频的乐趣,但是用多了之后呢,我们就发现也不过就如此嘛。这里我给大家看一个实测数据啊, sorry, 生成视频当中呢,真正能够达到可发布水准的只占百分之五到百分之十, 用户平均要生成十到二十条,才能得到一条满意的结果。而且单次渲染花的时间动不动就要十几分钟,不付费的用户排队时间更加长。以小时来记, 那么一个能用的陈皮啊,往往需要生成很多次,耗费大半天的时间,更关键的是,它的使用场景还特别的少,不是我们生活当中的必需品啊,普通人谁动不动天天去生成一个电影机的视频,但是专业从业者呢,哎,又觉得它不够精准,新鲜劲过了之后就没人再用了。 那么第三个原因也是 open ai 官厅 soar 的 核心考量,那就是竞争对手步步紧逼,他必须啊,要断壁求生。当 年从欧盟 ai 单飞出去的高管,去创办了一家 entropic 公司,推出了强有力的竞争对手 cloud。 大家可能用过这个 app 啊,推出不久之后,就登顶了美国 app 下载榜首,在企业级的市场份额呢,还超过了 ten、 gpt, 甚至在编程领域啊, cloud code 这个模型,它的年化收入是欧盟 ai 的 两点五倍了。 面对昔日的手下,如今的强势赶超 openai 的 ceo 奥特曼,他彻底做不出了,只能做出取舍,舍弃 sora 这个烧钱的无底洞,把所有的资源都集中到 cheap gpt 上面来全力应对竞争。 毕竟对 openai 来说, cheap gpt 才是它的核心基本盘,是能够带来稳定营收的主力。在竞争白热化的当下呢,官庭 sora 其实是 openai 的 无奈之举。 其实 sora 的 引流啊,它从来不是什么偶然,它更像是 ai 行业的一个缩影。再酷炫的技术,再响亮的口号,终究它必须回归现实,没有可持续的商业模式,没有真正的用户需求,那么再强大的 ai 也逃不过被淘汰的命运。当年有一个专家老哥跟我说过这么一句话,我印象犹深啊, open ai, 它是第一个顶流大冒险公司,但活到最后的大概率不是它。我最后想问问大家,你当年有没有玩过 sora 呢?在评论区里边举一个手。

今天给大家推荐一下字节的 t r a e r。 因为确实有点被小镇喊到了,我之前写了一个 agent 啊,我是借助于浏览器作为媒体啊,是一个网页,但是呢,浏览器它会提供一个接口,是可以用来直呼直接访问用户本地文件的, 所以呢,我觉得用这个接口然后再做一个网页啊,那用户可以操作文件的同时,然后还不用下载安装,不输任何东西, 那就很方便了,对吧?但是我自己那个 agent 的 相对来说比较简单啊,然后是能力上差一些,所以龙虾开园之后呢,我是希望能把龙虾的能力接进来, 但是龙虾的代码呢,它是针对后端环境来写的,我这个东西如果是按我这个 agent 的 模式呢,它就必须运行在浏览器里面,它是有存前段的环境,所以相当于我必须要在一个存前端的环境下,把整个龙虾很多的一些 啊,特性啊特性全部重写啊,相当于重写了,挺复杂的一个项目,我觉得,然后今天啊,一天搞完了,就一天,就一天, 所以我觉得两个感受吧,第一就是工具与这个东西呢,它可能没有大家想象的差距那么大了,之前我看我说我看考拉的科德莱马还被喷了,对吧?呃,就是它那个核心循环能看到啊,核心循环是在一个 gs 文件里面,它那是能看到的, 然后呢,他那个循环很明显也很简单,然后提示词呢,他可能看的不是很全啊,能看到东西不全,但是相对来说也是比较通用的,所以核心的区别可能还是在记忆系统啊,还有一些提示词上面那各个厂家的工具可能差距没有大家想象那么大 啊,我在网上还经常看到说呀,这个东西不行,对吧?很纯,但实际上呢,可能是什么?就是说方法, 就是 ai 口令或者是 web 口令啊,方法上面能够起到的作用还是挺大的,所以接下来简单分享一下我的整个过程吧。啊,仅供参考啊。首先第一步呢,我就是直接把龙虾的代码考到 项目文件夹里面了,直接考过来,然后让 t r a e。 我 说你去给我读代码啊,读完了之后呢,你把龙虾的所有特性列出来,我这个当前 a e 认可的所有特性,你给我列出来做一个对比, 对比完了之后呢,我再去一条一条的看啊,这个接下来一个最关键的特点就是你自己还是得一条一条的去看,你必须得能看得懂那些特性到底是啥,你得能看得懂才行。 不是说现在你搞 ai 拷钉,你自己啥都不管了,然后也自己去搞啊,这个不可能的。然后呢,有一些特性啊,是我需要的,有一些特性呢,它压根就不现实啊,你说我把它拿拿过来用,不可能啊,有一些特性压根就实现不了的, 所以你自己还是得有一些判断在里面。然后完了之后呢,我把那些我要的特性列出来,我说你去给我设计方案,然后 t r v 开始设计一套方案,然后第三步, 在方案的基础上啊,这还没完,我会让他去做一个拆分啊,就是你给我拆分出来一个实现方案,就是第一步做什么?第二步做什么?第三步做什么?把这个东西拆分出来, 当然每一步之间啊,最好是不干,能互相之间不干涉的,对吧?拆分完了之后呢?第四步啊,直接去执行嘛,就是一步一步的啊,直接去写代码执行嘛,整个过程中我没有做任何的干涉,然后没有做任何的测试啊,整个过程中一气呵成,写全部写完, 完成之后的最终效果是这样子的,它写出来了一个超级大 bug, 然后改这个 bug 用了大概一可能有一个小时的时间,然后但是这个 bug 改完了之后呢,剩下的就是一些边边角角的小毛病了,然后整个的 a r e 就 到了一个可用的状态, 所以今天还是比较兴奋的一天,然后又把 t r e 这东西推荐给大家试用一下吧, 同时它还有个最大的好处在哪? g r e 最大的好处在哪啊?便宜就是便宜啊,我买的年费会员六百二十多块钱,九十美元啊,六百到二十多块钱, 然后如果你是用科斯这种啊,科斯一个月二十美元吧,应该是很贵了,然后如果你是用克拉克的这种你,那你得自己去买头肯,你自己买头肯的话呢?目前最便宜的是 g l m, 它是一个季度四百多 啊,所以总共算下来,大家可以算出来,对吧?六百二十块钱一年啊,还是非常便宜的一个价格,这讲给大家。

刚刚知道从大家每天用的 windows 系统里面就可以直接访问 chat gpt 最新的五点零大模型,大家跟我一起来操作。先打开 windows 电脑的浏览器,然后这个右上角有三个点,我们装安装一下这个 扩展的插件,一一 p s i d e r 我这里显示的是已经安装过了啊,如果没安装过的可以把它点击安装上,安装上了之后怎么运用这个呢?我们可以从这个浏览器的这个地方看到它的我们刚才安装的扩展, 看,这是我们刚才装的有各种大模型,我们把它双击点出来,哎,这里是不是有个很小小一点点的, 我们从这里把它打,把这个拉开,看到没有,这个微软自带的这个 ai 就 可以用了。我们从这里可以选择各种大模型,从 gpt 五点零 到各种,你看有对话的呀,图片的呀,其他的 gpt 四点零啊,五点零、五点二都可以用,是不是很香?只要用心观察,总能发现很多有趣的东西,那我们用起来吧。

