三点五小时练完这五十二页,你也能搭建专属智能体!今年 agen 可谓是火爆全网,本着学习的目的,动手做了个实践,主要是想体验如何搭建属于自己的智能体, 还整理出了一份搭建智能体的保姆级教程,包含了 agent 协议开发框架自定义组建以及多 agent 协调系统。跟着教程走,哪怕是新手小白也能搭出智能体,对 agent 感兴趣的同学赶紧带走,上手学习。
粉丝35获赞198

免费了,不要三四九九,也不要九块九,不包手机的平替智普的开源项目 open auto gm, 配合它的开源模型 auto g o m 九 d, 咱们也能实现手机 agent 的 自由。我用手上这台安卓手机和 mac 电脑搭好的环境,让他来帮我购物, 这是执行效果,提示词是在淘宝上找到帮宝适黑金刚 l 码最低价的商品,加入购物车,然后发微信告诉我商品选好了。我来看看。这套开源方案和豆包手机最大的区别有三点,第一, 一,运行级别不同。开源方案只能在前台运行,豆包手机可以在后台自己默默的运行。第二,手机的便携性不同。开源方案手机和电脑必须用数据线连接,或者是在同一个 wifi 下,豆包手机可以只拿着手机到处走。三、智能程度不同。 开源方案接的是九 b 参数的小模型,能完成大部分的基础场景,但是极限智能比不上豆包手机。推荐两种适合的使用场景。 场景一,操作电脑忙不开的时候,比如快下班时提前叫车,当同事还在等车的时候,你已经上车回家了。场景二,需要在手机上多个 app 之间切换,收集数据,分析并且最终操作手机的场景。比如说在双十二购物选择最低价格商品时,我的微信收到消息了,任务完成。 牛逼!那么这么牛逼的手机, a 镜的方案会不会很难配置呢?完全没问题,我摸索了一套极简方案,只需要一行命令和一句话就能配置好。 首先看我这期视频,一行命令把 cloud code 安装好,然后打开 cloud code, 告诉他这句话,一路点同意就能安装完成整个配置过程,需要用数据线把安卓手机 在电脑上这么简单都能就能搞定,快去配置一套试试吧!你还有什么场景想用手机 app 来解决的?详细的安装过程和常见问题我会总结成文档,方便大家查看。关注我,玩转 ai 编程。

就在昨天,全世界所有的安卓手机都可以用上真 ai 了,中国的智谱正式宣布啊,他们把全世界第一个为手机而生的通用 agent auto gm 给开源了,是的,完全免费开源了。也就是说,从今天开始,世界上任何一台安卓手机啊,都可以用 ai 来完全操控了。 ai 会自己看屏幕,理解界面,然后自己规划思考, 最后模拟出你手部的点击,滑动输入,帮你完成各种各样的操作,而你全程都不需要碰屏幕,完全交给 ai 就 可以了。现在我跟 ai 说帮我点三杯冰美式, 看,他就可以自己思考自己操作了,一步一步点击,完全不用我管,我们再试一个,如果让他对比一下这个显示器在哪个平台更便宜,帮我决定一个,自己下单。然后你看啊,他是真的开始了多步骤操作,现在淘宝搜了一下,然后把价格记下来,然后再去京东搜了一下,把价格记下来,结果还去拼多多看了一圈,然后真的帮我选了一款真的很便宜很便宜的款,这个羊毛真的给它薅到了, 操作的过程就跟真人人手一模一样。最后我们再试一个超级无敌难的版本,我下周六要去长春玩,帮我总结一下这个页面上推荐景点,然后在高德地图上收藏一下这个景点,看一下门票的价格,然后再去一二三六订一张上午实验从北京去长春的高铁票,然后再把香味信息整理好给我,他就开始自己干活,自己搜索,一个一个搞, 打开一二三零六开始帮我看动车票了,而我自己只需要最后付款那一步看一下,确认一下就可以了,你看这个过程是不是真的超级夸张,这个已经不是简单的那种自动化脚本了,而是真的完全用 ai 来去驱动,也就是一个住在你手机里的数字生命。我觉得这个才是我心里面的 siri 该有的样子。 这次可以做到这么猛的效果,也是因为 autim 他 们用上一套视觉语言模型,他可像人一样自己去看懂屏幕上内容,知道哪里是按钮,哪里是输入框,然后再模拟人的点击、滑动、输入这些操作。所以理论上它是可以操控任何一个 app 的, 根本就不需要其他厂家的配合,而是直接变成了一个人类的用户。 我看一下开源社区他们的界面啊,现在已经支持了五十多款主流的 app, 大家关心的微信、淘宝、抖音、 b 站、携程这些全部都可以用。而自古这次把它开源了,我觉得这个意义真的非常重大,因为它解决了一个大家都很关心的问题,隐私问题。如 如果要操作我的手机,那我的聊天记录、支付密码怎么办?而现在因为代码是开源的,所以你可以完全把它部署在你自己的手机跟电脑上,我们就是一台五零九零显卡去跑的, 所有的数据都在你的本地,根本就不会上传到云端。而且有了开发的社区,大家一起去完善这个项目,速度只会越来越快,可以做的事情也越来越多。而从今年开始,像 google、 苹果,还有其他那些巨头大厂,大家都在试着让 ai 真正学会操作手机这件事情, 没想到智普直接在年底就开园了,现在每个人都可以下载来直接用了,所以我觉得二零二六年的手机市场跟 ai 市场啊,应该又会迎来一波腥风血雨了。

嗨,家人们。内心有点小激动,所以虽然感冒了,但我们还是一起录个视频来聊一下,我们一起来看一个在手机上可以说是划时代的全新的 ai 交互方式。那我先在电脑端给手机一个指令,让他呢在美团上帮我去定一个下周六晚上的火锅餐厅的位置, 我们实际拿我的手机来看一下,注意,这是我自己的手机,相信粉丝们都知道老演员了。 打开了美团,进入了搜索框,他自己输入了火锅,进行了搜索,进去餐厅的 list, 他 选择了一家可定的餐厅,你看他进去应该定做了,这边有个 cheeky 的 点是我设计的是下周六,而不是今天或者明天, 我们看他移动这个时间罢了,有点厉害。哎,他选择对了,下周六,接下来应该又比较简单去确认,然后最后一步应该是要我自己去 confirm。 ok, 那 我们再来实操,看一个也是我日常非常高频操作的一个场景啊。我让他帮我去打开小宇宙,然后找到 linux podcast 的 最新播客,并且要加入到播放列表 正面。我觉得第一个难点就是他去打开我这个 app 的 抽屉,因为我的 app 不 像很多手机一样是放在桌面的,它隐藏在这个抽屉里面。 就这一关,他居然能挑战成功,还是比较厉害的。后面接下来我觉得打开 app, 然后像之前一样输入 landspodcast, 找到这个播客应该都不是很难,他找到这个播客了,然后应该会进去。接下来有个难点就是找到这个播客,并且加入到播放列表, 因为我们这个播放列表他其实并没有显示出来,我们看他怎么操作,这个应该不是他在试错, 他进入直接播放了,我们看他把我们这个播客点开了,并且进入到了播放列表,所以是成功的。 ok, 那 看完家人们觉得震撼,而且两个都不是 demo, 全是实打实的操作。更关键的是,这就是我日常用的自己的一台手机啊,并不是一个为 ai 特别定制的手机或者工程样机。 那实现这些的全靠智浦最新开源的 auto g l m, 它可以把我们每个人的手机都变成一台 ai 手机。我个人觉得本次开源可以说是一个里程碑的事情,甚至我把开源的 auto g l m 称为 ai 手机的破局者。那这次的 auto g l m 到底破局在哪呢? 我们先看现状,现在你要做个 ai 手机,很显然是以全世界为敌啊,手机厂商他肯定围缴你,那手机上的应用厂商肯定也得和你拼命, app 天天不就是为了挣个用户流量入口吗?现在你倒好,做个 ai 手持入口变成 ai, 那 么 auto gm 这一步的开源就走得可以说是一举几试,开源了手机厂商手也就没有那么担心自己被取代,更好的是咱俩还能一起合作开发,好兄弟一起走。而且还有最重要的点, ai 时代会有很多全新的 ai native 的 app 出来,那毫无疑问,这些 app 肯定是会拥抱 auto gm 的。 gt, gt 设计肯定天然就适合 ai 手机这种交互方式,所以我说 otoglm 是 ai 手机破局者这一点 完全不夸张。那说了这么多,最后我们给 otoglm 一个极限场景来拉利测试,我给他一个复杂的任务,看它整体的完成度如何,而且我把电脑和手机桌面同时放在一起,电脑端呢,大家可以看一下它整个任务拆解和具 获取手机端完成的一个过程。那手机端呢?我们直接可以看一下这个交互的一些情况。 ok, 那 我把指令给到他,我呢希望去阿勒特滑雪那去小黄书找攻略,并且去携程上找到基九,我们看他开始打开小黄书去搜攻略了。这些搜攻略什么去小黄书点进去,应该是属于对他来说比较简单的人,我觉得他肯定是能够完成的。 他找到帖子了,他还会慢慢去滑动这个图片,然后去读图片里面的内容。他读完以后觉得已经读到了详细的一些信息了,你看接下来他又怎么干?他找到了第二个笔记,是一些门票的价格,你看他在读图片,他去尝试找到一些实用的信息,但没想到这边发的都是风景图, 不接,找不到具体的信息和内容。好像在小黄上他觉得收集了足够多的信息了。我们看下一步,因为携程上首先简单的这种输入城市,包括基酒的起飞跟降落的目的地,我觉得应该都不是很难, 我们看他怎么去调用这些信息的。前面他搜索应该会有一些将军山这些滑雪景区的指示给到他,所以他可能朝这个方向去收了将军山国际滑雪这个区域, 他给了我们一些酒店的一个推荐,接下来他应该是想去给我们订机票了,像这种有突然的弹出来的页面,我看前面他也是能够很好的去点击掉,他就不会误触点掉了,你们看他看到了我是从上海到北京的,之前预设的, 他应该会去改这个目的地吧,我猜他还蛮聪明,你看我之前搜索狂友拍摄这些字样,他去读取,然后他觉得这个应该不是就自己手动输入阿勒泰,他应该准确定位到了从早到晚的这些机票,应该会选择早上吧,不会选个大中午或者傍晚吧, 这个应该是他整体完成了, ok, 给了我们一系列的推荐,我觉得整体的执行还算是一个八十分左右的一个水准吧,毕竟是给我交付了一个完整的攻略,加上推荐的酒店和机票。从我们实测的这个案例来看,基本上很多手机上操作没什么大问题, 其实我们正常用手机也没那么多复杂的操作,像我日常用的软件也就十几个正常的点,按筛选的一系列的操作,也就 ai 大 概率是能够完美的去执行。最后我觉得 ai 手机毫无疑问是 ai 认证去落地的很好的一个场景,所以很多大模型墙纸、手机墙纸可以说是蓄势待发。 而欧托 g l m 本次开源基本上是打响了发力枪,让我们期待一下这场 ai 手机的马拉松。 ok, 那 本期内容就到这了,我是北达眼镜哥,我们下期再见,拜拜。

我要在我自己的手机上部署一个智普的开源 ai agent, 是 auto gim, 试试看看我给他的指令,看能不能完成。在美团下单一份最便宜的新鲜芒果,放在购物车里,不要付款, 看看他能不能执行。我给到他的一个指令, 这个屏幕是虚拟的,我的屏幕并不长这个样子,所以,所以其实他并没有真正的打开我的手机去操作这个美团,他应该是在后台在操作。呃,他搜索了新鲜芒果,然后选择了低价优先,也就是符合我要的最便宜的 哦。我原来已经放在购物车里,我放了两个,然后他 get 到了我只要一个,然后他就在这里减一。还是挺智能的。还是挺惊讶的,因为我之前是放,放在这里是放了两个,然后他直接理解到我只要一份啊,他直接减一,好神奇。看看, 看看对话哦,最便宜的,然后需要我自己付款下单,还是挺挺神奇的。好快。这个 a 证还是不错的,大家可以试试玩玩看。

前几天我发了一条关于智普开源的蜂窝 a 制的视频,没想到直接就火了,这两天私信我的人很多,就说怎么不熟,所以说这两天我整理了一个详细的教程,如果你是程序员,我相信你看一遍就行。如果你是一个小白,可以直接找我来拿,文档写的很详细, 就按步骤走,基本上不会迷路。部署呢,其实不是很难,只提前做好这些东西,好直接开始上传。首先打开 get 号,把仓库原码拉下来,本地部署就需要拉到电脑,如果你用云服务器不在云端,拉云端相当于给你一个可用的 api 地址。第二步就是把环境装对这里,你直接用 card 的 扣子来帮我去安装本地的拍摄环境 对你的相关依赖。第三步呢,手机打开 usb 调试,就这部不同的品牌手机略有差异,但是大体的流程都差不多。首先进入设置,找到相关手机,找到版本号,连点七到十次左右返回设置,可以多出来一个开发者选项,进去把 usb 调试打开就可以了。第四步,下载模型, 进入模型页面,选第一条下载命令,丢进终端去跑就可以了。这一步比较好使,也是对体力活耐心一点。 下载完之后就可以直接上手来用,把路径替换成你真实的模型地址,然后输入你想要让 ai 操作的指令,就比如说你让他打开美团,帮我们搜索霸王茶几,我们就可以看到他现在打开了美团,但是现在触发了他的验证,应该是识别到了不像是人类的操作,我们再让他执行一下这样的操作, 我们再来测试一下用 ai 使用京东帮我们搜索下男士拖鞋,现在有弹出了验证码,我们需要手动点击一下,现在看到了 ai 帮我输入搜索对应的产品,希望大家玩的愉快。

本视频耗时三百二十五小时,制作时长三千六百秒,今天手把手带你们吃透 ai 智能体,从基础原理到实战应用,教你从零构建模型,用对用好, 在校本研博、求职、算法岗相关领域的交叉学者迅速码住。这节课咱们来给大家好好分析一下,什么是 agent, 以及为什么他在 ai 领域当中能这么火,他跟大摩羯之间关系是什么,他的定义是什么?以及他能帮我们解决哪些个问题,这些事啊,我们会一并给大家逐一进行梳理, 然后大家发现了,其实我并没有打开一个 ppt, 就是 我不想啊,拿一些概念给大家去背这个课文,更多的是我想给大家去总结一些啊,就是我用 agent 的 一些感受和我觉得它到底是什么, 我需要大家这么去理解。就是对于 agent 这个东西啊,它并没有一个就是本质的概念,或者说它并没有一个完美的一个定义啊,它就是什么,它究竟解决什么事, 他是比较活的一个概念,就像是你眼中的一个机器人啊,你希望他给你做什么事,和我眼中机器人他怎么解决问题的流程 其实是可以不同的,我们每个人眼中 a 人的其实也可以是完全不一样的,他相对来说啊,就是比较 diy 啊,或者来说你怎么去设计,他,其实完全可以根据你的想法我们来进行设计,咱们没必要有一个统一的概念,统一的一个什么算法,流程这些东西。 哈喽,我们来说说是什么?首先呢,我给大家举个例子,就是这个词啊,翻译过来叫什么?翻译过来就是一般情况下,我们就把它叫做一个代理,或者叫做一个智能体。举个例子吧,就比如说我今天啊,就今天我上课去,然后我说我早上起不来了, 我跟我室友说,哎,我说哥们,你替我上课去吧。然后那我哥们说,行啊,那我就替你上课去呗。那大家想一想他,我给他交代了一个命令,我说你替我上课去, 但是这件事啊,我不给他拆底,拆底他怎么能替我上课?是不是说,首先,哎,我们说啊,他上课的时候,老师在这点名点我名了,他是不是替我举手,替我喊个到这第一个事, 第二个事呢,老师说要交作业,他顺便是不是也能帮我把作业给他交上去,甚至呢,老师讲了些东西,哎,我没去啊,他再好好心点,他说帮我把笔记也记下来了,然后回来让我去看一看,然后到考试的时候,我好能去考, 然后,甚至啊,这也只是基本的概念,甚至这个智能体啊,哎,我说他还去推理一下,他一寻思,这个下课点啊,一看快到中午了,我没来上课,肯定在床上睡觉呢,要来寝室打游戏呢,那我肯定中午也不想上食堂, 他在智能点,他顺便去食堂,他自己吃完饭再把饭给我打回来。你说这件事是不是就完美给我们解决了? 所以说什么是个 agent 呢?将来这样一件事,就是我现在有一个需求,我有一个命令,但是我这个需求的命令不是说啊,你瞬间或者说是一步就能到位的,我们需要把这件事给它拆分成很多个流程 啊,然后每一个流程上你还要单独的去完成,所以说我们来想一想啊,就是代理,就像说的啊,你替我做什么东西,你帮我完成一下什么事啊?就像我们跟这边说话似的啊?咱比较友好,请干这个,请干那个。但是呢 agent 他 跟大模型之间可能有点区别。 大模型就比如说啊,我问他一个东西,他给我回答一个东西,我再问他一件事,他再给我回答一件事,那其实智能体就不是这种感觉。我们说这个 agent 啊,他相当于 第一步啊,他要去理解你的命令,理解完你的命令之后呢?他要把这个东西啊干什么?根据他的一个理解再做一些拆分。什么叫拆分?要完成你这件事,我第一步要干什么?我第二步要干什么?我第三步要干什么?哎,那我问问大家啊,就拆分这件事 他是怎么做到的?他,哎,你觉着我给他个命令,他怎么能把这个命令做一些拆分啊?其实他可能说,哎呦, agent 这东西是不是长大脑了,长脑子了,然后他比较聪明,他就能真正理解这个东西。其实我跟大家说啊,就是在 agent 当中啊, 一切都是用这些大模型去做的。比如说我先给他一个命令,我说你去帮我上课去, 那接下来他就啊问这个大模型,他说,哎,我现在啊想帮唐雨迪上课,那唐雨迪的一些状态是什么啊?他的一些基本情况是什么啊?当做一个提示,以及呢?我的命令也是我的提示。好,那你把这件事帮我去拆分成几个子命令,好大模型啊,自动就把你拆分了,你要给他干什么?要干这个干那个干那个, 哎,是不是他就可以去知道我们每一步要去做什么了?所以这一块啊,就是我们不要觉着 a 点这个东西,他是能脱离大模型之外的一种新鲜的事物,其实不是的,他相当于呢是更好的去利用我们这个大模型。换句话来说, 他每一步都在去利用我们这个大模型。那比如说我们先给他拆分成了一些子任务,那拆分成了一些子任务之后,接下来那大家可能说,哎呀,比如上课的时候, 他在想,我现在老师在上课,那我需要去做点啥呢?又把这件事问问这个大魔球,大魔球说先上课呢,一会老师要点到点,到时候你帮他举个手啊,就是拆解的第一个任务怎么去回答, 那第二任务呢?他说啊,老师现在在上课,然后你顺便啊再去帮他把笔记记一记。那第三件事呢啊,他说你在回来路上再去买一买点吃的,其实这些啊,我们说可以叫做一些决策,或者是一些动作,这些个决策一般情况下都说谁完成的? 其实 a 阵这个东西啊,本质来说就是他在跟我们的大模型做大量的一个交互,他每去做一个决策,他每去办任何的一件事,都要问这个大模型,哎,我该怎么去做啊?我当前的环境是什么?我当前收到的命令是什么? 那我怎么去完成呢?其实一切东西啊,都是由我们大模型每一步再去告诉他。所以就是我希望大家这么去理解啊,就是咱们所谓的一个智能体,就是 先理解你命令,再把这个东西不断做拆分,那每一步靠什么执行?还是靠的这些个大模型去执行你当前所要的一些结果? 所以我希望大家就这么去理解这个所谓的智能体啊,就是啊,让我们的啊,一个 agent 去模仿你人类的一个行为,你可能怎么去做的,那我们就也这么去做了啊,这是我们基本的一个概念。 然后呢,我想再跟大家说几件事,就是,哎,你觉着啊,这个 agent 他 再去做的时候,为什么说他能去理解你每一步的一个操作?哎?他怎么知道你的命令是什么?他该怎么决定你这个东西该怎么做拆分呢? 其实我估计有很多同学会有这样的想法,就是我们这个 agent 足够强大,他已经能够真的去理解你们人类的每一个行为。 其实我们说截止到目前为止还做不到这样一个水平,为什么?因为大模型可能会出现很多的幻觉,他可能是比较发赞,而且是不稳定的一件事。那其实更多的时候 我们这个 agent 是 靠什么来进行执行的?靠我们的规则。什么叫我们的规则呢?就是上课这件事。哦,说你替我上课这件事,我说给他写死了, 就要帮我签到,就要帮我做这个,就要帮我做那个,更多的情况下,我们希望他是帮我代理完成一件事,顺利的完美的完成。那是不是我要给他设计一些游戏的规则? 所以说更多的时候我们的规则是通过什么来设置的?其实说白了就是啊,我们去写一些提示, 那这个提示怎么来呢?你帮汤雨迪去上课,他平时不愿意上课,但是考试喜欢复习笔记。 好,我的个人信息也可以作为提示交给这个大模型。那大模型再把啊,你现在要去替别人上课,以及这个人的需求是什么?他的一些心理行为是什么?以及当前你的目的是什么? 把这些所有东西一起作为一个提示再交给这个大模型,最终啊我们是得到。哎,他在这一步上要去做一件什么事? 所以我一直觉着就现在很多的 a 站,包括框架也好,项目也好,包括大家听到的很多的演讲,很多的故事,我觉得都把这个东西给他说的过于就是神话般的感觉了,好像是说他能去自己的去分析自己的去啊,不断的去理解这些事。 其实目前我看到一些成功的案例都是我们自己好设自己设计好的规则。啥意思?你先让他去写代码,那写代码逻辑是什么?先有产品经理,先有 pm 啊,去制定好每一步的流程是什么,然后每一步的流程上再交给对应的程序员,程序员再去把每一步的功能给他做实现。 是不是做一件事我们讲究就是有一个完整的流程,他还不具备自我的一些思维,就是很难具备自我的一些思维啊。其实不是说不能具备,因为大模型在每一步当中他都可以去思考啊,我们需要去做什么,但是如果说你不涉及规则, 你的结果是很差的,这就是目前 a 阵是什么? 他就是要帮我们去完成一件事,但是完成这件事他会去做一些拆分啊,把它拆分成很多个子的任务,再对每个子的任务,结合你的游戏规则,也就是你有哪些个提示,传进去之后,一起调用大模型来去得到我们想要的一个输出结果。 本期视频给大家整理了 ai 系统入门的保姆级路线图,从基础到进阶,全程无废话,不管你是零基础小白,学生党,还是想转行抓住 ai 风口的朋友,都能直接套用,也可以根据这份路线定制专属学习规划,少走百分之九十的弯路, 只要你是我的粉丝,留言学习就能解锁完整干货。那这个 agent 他 既然能帮我完成这些个事儿, 那他都得具备哪些个能力呢?其实我们觉着就是理解这个东西啊,其实并不难啊,代理我们去做一系列任务,跟大魔镜不断交互,得到结果,哎,那你说他凭什么?凭什么能做到这些 来,咱们说这个事凭什么能做到?为什么他能帮我们解决,哎,我让他去交代这些事啊,其实这一块呢,我们要说几个词,其实我说这些词啊,还不是特别的,就是覆盖全面了,因为整个 agent 在 你的业务当中,他到底有什么能力,完全是你赋予给他的。 第一个我们来说一说啊,比如说大家最常见的叫做一个感知的能力,可能大家觉得这个词挺抽象的,什么叫感知呢? 就比如说,哎,我说我让我那个室友帮我去啊,上课的时候他到课堂了,发现咱们班一共就来了俩人,老师点名的时候一共就俩人,三个人喊到了, 他是不是就觉得这件事可能做不到了?那是不是我们这个大模型他要实时的去得到一些环境的一些反馈呢, 环境的反馈大家可以当做,比如说我们这个智能体,它可以跟环境做一些交互,它可以观察一些信息,一些文本上的信息,一些语音上的信息,一些图像上的信息,这些呢都可以作为它这个感知。那其实感知对我们来说是什么?说的特别抽象,其实就是说 把能用到的转化成提示,啥意思?你在接下来要去帮别人喊到的时候,我们再加上个提示,现在教室里边就两个人,一会老师点到的时候,我该怎么样帮助唐雨迪把喊到这件事完成, 把这件事,哎,问大模型大明哥说了,一会老师要喊到,要要要点名,你们班级人太少了,你就别帮我点到了,要不然老师发现了不许整死他呀。 所以第一个啊,就是我们说得有感知这玩意,他不是一个死的,他得及时去发现个问题是按照我们的流程,但是你说啊,我们按照流程我们自己写一些拍准脚本去执行,完全可以的。用 a 针的就说明他会比较智能,智能体,智能体, 你连感知都没有,是不是就不行了呀?但是我们说任务当中啊,就是不仅仅是有感知,还有什么? 其实你看这一块我写了一些思考,就是我先给大家写这概念啊,其实不是什么标准上的一个定义,就是我理解的就是在我看来 a 阵有什么东西啊,就是大家你们在其他地方去看,可能每个人讲解我觉得是不同的啊,都是凭着自己的感觉,因为这东西还没有 绝对权威的定义啊,都是我们使用者,我们从用下来,从我们这些这段时间吧,做完之后咱们整体的感受啊,第二就是个思考,什么叫思考呢? 我看到的东西可能会很多,我去啊,教室里边我看到了有好多人,我看到老师在讲课,我看到了好多好多好多好多东西,其实这些对我来说什么我看到的东西感知啊,我是可以得到一些记忆的,我给大家再再再补充一个,就相当于这一步啊,我们是要得到, 得到咱们很多记忆,这些记忆啊,都是啊,一会我们可以来进行参考的。那什么时候做参考?其实说白了啊,在这个任务当中就是我们去思考的时候,你要去考虑这样一件事,我们观察这么多东西,是不是都是表面现象, 人很多啊?然后啊,有男有女的,然后老师写了一篇文章,然后老师讲完了一堂课, 其实这些都是我们叫做基本上啊,就是表面层面上看到的东西,但是这些东西我能对大模型产生特别有价值的信息吗?可能性有点杂,也可能性有点多,也可能你的上下文传不进来这么多的提示。 那思考呢?其实说白了就是我们要去总结你看到的感知到的东西,其实这个任务当中啊,说白了你现在要把这些感知当做你的上下文啊,我看到了这么多东西,我再去问这个大魔小, 你能不能帮我把这些事总结成几个关键点,或者说结合我的任务标,我看到了这些东西,这些东西会怎么影响我呢?问问大魔小 大母婴,我告诉你,老师都写这么多了,你快帮他把笔记记一记吧,快帮他去写点知识点吧,考试了他啥也不会,怎么办啊? 所以说思考啊,是要把我们的感知上的东西,或者说把你记忆里边有的东西再做一个升华,你记忆里边都是些基本面上的东西,那个东西太简单了,那我们需要去让智能体有点思维哈,就说点高端点,有点思维,把这个东西重新的再去总结一下, 总结完了之后再去做什么?一般情况下我们叫做一个 action, 或者叫做一个动作,什么叫做一个动作呢?就是说白了啊,我们现在说,哎呀,这个智能体他现在要去啊,记笔记,他现在要去啊,做这个,做那个,那这些事是怎么去做的呀? 我给大家举个例子,比如说我现在啊,就大家翻一翻,你问这个大模型啊,我问他一些问题的时候,他是不是会有一些插件?我问他天气的时候,他会访问一些天气的 a p i。 我 问他日期的时候,他访问一些日期的事,然后问他今年今天的新鲜事,他可能上网去帮我做一些搜索。 那其实这个任务当中动作呀,我觉得就是整个 agent 当中比较核心的一件事了,你这个 agent 他 有多智能,关键来说就是看你的动作设计有多丰富。 大家可能说这件事一个 agent 他 越智能,不应该是他脑子越好使吗?但是我跟大家说啊,就脑子这件事 是你改变不了的,我们现在所有大模型都是用 gpt 四去做的,用别的说几句话就是不好使, 就是你,你一说你考虑,你考虑你本地大模型,你整什么观展大模型就不好使,那玩意就感知也不行,思考也不行,那就不用说了,那为啥说我们自己可以设计动作呢?动作其实我说白了就一一个事,我给大家解释一下,说白就是调 api, 你 让他干什么?就让他调自己 api, 哎,我说就老师点名的时候啊,你给我发个短信,然后我赶紧跑,比如说快马加鞭能赶上, 那这回你想发短信这件事怎么操作?大家都说,哎呀,大模型还真的能给我发个短信吗?当然可以了,这又不是什么难事, 我们说咱们可不可以调用咱们的一些短信的一些 api, 这些东西无论是 gpt 还是一些现成的工具,早就给你接入进去了,给我发个短信,给我发个邮件,这玩意并不是一件什么难事吧?然后再比如说呢,就是我给大家举个例子啊,就调用 api 当中,比如说啊,就是你可以上网, 然后你可以查查各种东西吧,这些都是啥?这些呢?其实都是我们可以定义好的,咱们要去完成哪些个事。好了,这就是一些动作,但是动作其实不仅仅啊,是我们要调用一些 api, 我 再给大家举个例子,这是我们一块去说的啊,就是比如说我这个智能体, 他现在观察到思考这些东西之后,他不确定这事该怎么做,想一想你,咱们,你咋说你们人类了?想一想咱们人类,我不确定什么事,我问问潘小冉,我说咋办啊?我说啥事,我别自己自己定主意,到时候啊,吃不了兜着走,咱们一起参谋参谋哈,你也帮我参谋点事。是不可以问问别的智能题, 其实我给他,我给他举例就可以去啊,就是问别的智能题,其实也是可以的一件事啊,你怎么认为这个东西你的一些回答也要当做我的记忆,我在思考的时候,我在其实就是思考决定的动作要做什么,我在思考的时候也可以去考虑你别的智能题给了我什么什么样的一个信息。 所以说啊,就是这里边啊,我给大家先提了这么三点,其实我觉得这三点还是比较简单的,我们需要什么,就首先呢就最基本,最基本你得有感知,但是不仅要感知,还有思考,思考完之后 你就要去确定一下子我们的动作是什么,大可能说,哎呀,他调这个 api 还是调那个 api, 这样是怎么决定的?这个事是大模型来决定的, 我跟他说我要去完成一件什么事啊?就是现在老师要点名了,我要给唐雨霏去发短信,然后找他怎么做啊?大模型会把你生成出来,我们要调用什么 api, 实际去调用,然后啊发下短信当中短信内容是什么,他是全部都给你完成了的, 所以说这一块就是凭什么做到当中,他得具体啊,就是最少吧,他得具备这几个能力才行。然后呢,我们再说一说啊,就是这个 agent, 大家可能总有一个好奇点,就是这玩意吧,跟那个大模型之间的关系到底是啥呀?好像那时候这东西啊,与人之间的关系。 其实我觉得这样的啊,就是大模型是什么?大模型就是充当了一切,我就给大家说吧,就是他,是 啊,一切,我为啥说他是一切呢?就是相当于你这样,你说你看到了什么?你是不是得有个输入,其实你输入的是啥?你可能输入的是一些文本数据啊,输入的这些图像数据,甚至现在多模态嘛,你输入可以是语音数据, 你输入完之后,那谁知道你们这玩意啥东西啊?书里问问大模型哎,这东西是啥?你从这个图当中看到什么?你从这个文本信息当中你理解到了什么? 是不是你又得跟大模型去作业交互啊?所以我这句话我说第一句啊,就是踏实一切,那你想思考呢?思考时候说,哎,把把你感知到东西啊,总结成上下文,然后当做提示,也去问这个大模型啊,你先能不能思考出来什么东西?那动作呢?基于你的思考和你的目标,再去问大模型啊,你要执行的动作是什么? 其实你看你要得到你的动作是什么之后怎么执行动作,还是去将这个大魔镜再去执行你一个动作,其实说白了就是他就是一个实际执行者,你我总,我总是这么觉得,就是 agent 啊,是我们事先定义好了一个大的框架,就是一个基本的原则, 基本原则当中你为了完成这件事,你可能要分几步走,但是就是啊,有一句话叫什么将在外军令有所不受, 通过你的感知和你的思考和你的动作,你可以稍微的去偏离一点我这个行为,但是也不能偏偏的太离谱是不是?那他怎么能不,他怎么能偏的没那么离谱啊,我们说一切啊,都是我们会给他一些提示的,会给他一些指令的,我们最终的目的是什么?他在做每一件,他在感知的时候 不是说整个世界都让它感知着玩呢?带着我们的任务去感知,带着我们的要求和每一步的流程,你觉着什么重要的,你把它感知进来,就是这里边每一步啊。大家这么理解,就是你玩大魔音的时候是不是都要去写提示 这一块,每一步的时候都要把我们的一些要求当做提示传进去,这样感知的东西就是我要的思考的,也是我要的动作的,也是为了完成我这件事的。那其实与大模型的关系就是 a 阵他要不断的去调用这个大模型,你可以,你可以这么理解,就这个东西啊, 如果大家你们实际去玩的时候,你就会发现一件事,他是一个极其昂贵的一个过程,就是现在为什么说 a 阵这个东西啊?落地难, 我觉得落地难这个东西啊,主要原因就是什么?就是你的一个成本,如果说你不考虑你的一个成本,其实我觉着呃落地来说真就没有啥难度。因为现在你想一想我们这个大模型咱们是选什么? 就是一些 g 做模型,你说你选啊,三点五啊,三点五就是还行,四呢肯定是最好的,但是你说你选你自己本地的大模型,你就是你自己选模型,你也知道他你觉得能具备这些个能力吗?别说具备这个能力了,就一问一答,他整能整明白都不错了。 所以这玩意大家可以想,就 gp 四的 api key 它是有多贵的?你我我就举个例子吧,就是让我室友去帮我去啊,上一堂课,然后他要可以去跟很多交互。他交互的时候我们简单点说啊,如果是一个单智能体,就是他只是去做一些感知,做一些思考,做一些动作, 那可能这件事他是花不了多钱的啊,就你感觉可能就是我们钉过几次,但是我再给大家举个例子,一堂课可能有一百二十分钟,他每分钟都要思考,每分钟都要去感知,都要去产生动作,你觉着还便宜吗? 再比如说现在很少是一个单智能体,如果说是多智能体的,我这个班级有三十个学生,学生和学生之间他们可以交流上课,不是大家在这死的,就是端个书在这听着呢,我们要唠嗑的,要说说事的,老师要跟你们说话的, 你们这些智能体之间再去交互呢?交互的时候你们的感知,你们的思考还要融入到其他人当中,还要由人家感知到你的一些语句,还要形成成他的一个重新的思考。当一个多智能体环境来的时候, 你就知道这一些大模型为什么咱们要自研了。因为就一件事,我就觉得就是用不起的感觉实在是太贵了。你就干一件事 啊,就是 open i n a p i key 嘛,你每一个几美元大概就是少说啊,就是你用 agent 去完成件小事,逻辑上不是特别复杂的,比如说写一些代码啊, 或者是啊生成一些比较高质量的一些什么文案啊,然后一些你想要的东西,我估计每一个两三美元是下不来的,这又是一次调用,这又是一次啊,这一次当中这个 agent 可能已经跟你的大魔镜产生几千次交互了,然后每一次你想一想你的一个记忆,其实这一块我给大家,我想把这个记忆给它放到哪呢?记忆啊,我给大家放到这里边吧,就是这一块啊,大家这么去理解你每一步 上面啊,就是每一步都要得到记忆,啥意思呢?你这个,呃感知啊,不是说你这一步得到完这个东西,它就它就没了 你第一步的感知的东西和你后续就是咱们是有认知的过程,我离挺老远看到卡车过来了,我现在就不敢过马路了,不是说我离近了才看着他,是不是我感知这东西形成了一个记忆,你要把你所有东西不断往当中记忆当中去存, 那你可以想这么一件事,你的记忆要越存越多,越存越多,你的记忆越多,你需要思考的事也越多,你在执行动作的时候,你需要传进来的上下文就是你的一些啊提示,这个东西他也会越全的。所以就导致了一件事,你的输入啊,就是前面那个头衔特别多, 那这个东西就干变得特别贵啊,一个是你交互多,一个是你输入长,所以说就导致了一件事啊,这个 a 证的现在对我们来说呀,我真就觉着有点用不起的感觉,因为你看现在,呃一些开源的框架当中有什么说让你注册一个会员,然后每个月花个三十来块钱 就能让你去用所有的 a 证的解决事了吗?好像没有,是不是因为它的成本实在是太高了,这是目前来说我觉得解决不了的一件事啊。 张伟说了,就是他跟大模型关系什么?就是每一步,你的感知、你的思考、你的动作以及你的记忆怎么去更新,你怎么去啊?比如调一些 api, 你 怎么去做任何事,就这里边一切你要去做的东西其实都是大模型得到的。 我们更多觉着就是 a 帧的是我列好的一个框架,我列好的一个逻辑,你要做什么,然后你大概就是怎么去做大模型,就是执行你的一些细节啊,我具体每一步干什么,我具体看到什么东西,我具体什么东西怎么得到的,这就是说啊,我觉着他跟咱们大模型之间的关系是什, 刚才呢?咱们说了一下,就是一个叫智能体,是不是其实现在更多的啊?就是你做什么事吧?他其实已经不是一个智能体他能完成的东西了,因为你既然又 agent 肯定说这件事就是很麻烦啊。他不是说我一步用到位的,比如说我写一个代码, 写一个代码啊,就是他不是说写在一个代码文件里吧?屁,他生成一堆,你看现在你雕一些模型数,就写一个代码,生成一堆。但是我们说,呃,我让他写一个项目, 写一个项目的时候咱们是不得考虑考虑啊,这个项目当中啊,我要有哪些个文件,要实现具体哪些个功能, 以及在每一个功能当中具体该怎么实现,哎,以及我,我把这个代码写完了,你能不能别给我一些错的,你去跑一跑,跑的时候出现报错,我把这个报错也也问你啊,你这个报错能不能抵 bug? 一下子,你把这个报错改一改给他,实际实际要能执行出来咱们想要的一个结果。 那其实这件事大家想一想,一个智能体他能做到吗?其实我们觉着就智能体他是一个角色,我室友帮我去上课,他充当的是我室友的一个角色, 那在这里边他可能会遇到其他的智能体,他可能遇到一个我的老师,我的老师他也是个智能体。 那我们说两个智能体之间可以怎么样?他们之间可以去做一些交流的,就是他们是可以这这交流啊,其实含义又特别多了,他们可以互相分配任务,他们也可以在互相通过交流得到对方的一些记忆,得到对方的信息,从而更好的去执行我们接下来的一个指令。 所以说多智能体育学生就是啊,咱不用说这么复杂,我觉得就是一个多角色的一个故事。什么叫角色呢?一个软件公司有这个程序员,有产品经理,然后有这个架构师,每个角色要单独完成自己的一件事。注意这个东西其实是我觉得真正啊跟 a 诊断当中最关键的一个问题, 你要完成一件事,其实我们强调是一个标准化的流程,在这个标准化流程当中,你不可能说让一个 agent 它既带有这样的一个啊属性的信息。比如说我,我是比较懒的,我不喜欢上课,我就喜欢等别人把知识点喂到我嘴里,然后把饭把我带回来, 这是我的特色。然后我室友啊,他就是很热心的人,他特别勤快,他特别喜欢上课,你不能让这个 agent 他 是个,他是个双重人格吧?他一会扮演这个,一会扮演那个,所以说在多整体当中啊,就是我们这一块 是有多个角色的第一件事,每个角色当中其实都会有自己的一些属性,自己的自己的那个使命了,相当于他要去做什么,他是为了完成什么事的 程序员,比如说给他的使命,其实使命你不用理解,特别抽象,就是一个提示,程序员的使命就是啊,把这个代码 完整写出来,可读性要强,能满足啊,产满能满足什么?什么要求,然后尽可能写的完整,然后带有什么注视的产品经理呢?尽可能把每一个功能定义的清晰,然后把他按照客户的需求啊,分条分逻辑的总结出来。 就是每一个每一个角色啊,他都是他有,他有使命,就像是你写一个问大门的东西啊,就是现在你现在是个技术专家,你现在是个医疗专家,你是个什么东西啊?你现在要面对什么事?就每一个智能体啊,都会有这样一个角色, 然后呢,这些个角色之间啊,他们要干什么?他们之间我觉着就是啊,要产生很多的一个交互,交互是这种感觉,就是他们啊,嗯,大家可能说这个交互这个东西是不是我们自己预先设置好的呢?其实我觉着就是你要去真办事, 真做一些实际的事。就是啊,要设置好,要设置好啥意思?产品经理他就是跟程序员和架构师啊,以及你们客户之间产生一些交流, 然后这是产品经理他要去跟谁去做,他可能是先跟客户交流,然后再跟架构师交流,然后再跟程序员交流啊,这个产品经理他是有一个顺序的,我们自己设置好的顺序是什么?然后程序员呢?他不要跟客户去交流,他只跟产品经理去交流就好了。 所以说就是啊,我觉得这个东西啊,多智能体是得咱们自己设置好,但是这件事是不是一个必须的呢?也不是必须的,也可以让他们自己玩,就是你可以把这个智能体啊放,就是放进去之后你就不管了, 反正就是你觉得他要不要交互啊?让大模型自己去思考。比如说大模型思考的时候,我给他加上一个提示,通过你现在感知到的,你记到已有的信息,以及你面带着一个使命,你觉着接下来应该跟谁去做一些交互,跟谁去做一些讨论,能得到更多有价值的信息。 哎,你看我加上这样一个提示,他是不是就会在这智能体上去找,哎,跟我记忆当中,哎呀,我觉得谁好,我觉得谁合适,他可以自己去玩的。就现在比如说什么斯坦福 ai 小 镇啊,什么 ai 汤之类的,好多这些多智能体的东西,都是让他们自己去玩, 他们自己去玩的过程当中。其实,嗯,有一件事比较麻烦,就是他们需要通过大量的迭代,长时间才会形成一种问题的一个方案。 就相当于啊,就是比如说一个产品经理他不知道干什么,他是不是得去总结几次,他是不是去把这个,把这个游戏玩几遍才能擅长啊?但这个东西就是咋说呢?就价格是非常贵的,而且你这个 agent 每次都要圈他玩这么多事,那这个成本也太高了。所以说现在啊,这些个 我们使用的过程当中,我觉得多智能体啊,是达不到啊,就是让他们自己玩的一个水平的。虽然说有很多就例子给你演示能自己玩,但是演示是什么? 演示都是游戏,都是一些虚拟场景当中,他们去做一些交互,但是在一些实际任务当中, 我现在目前看到的就是失败的案例咱不说了,所有的成功的案例都是预先设置好的,而且要明确的是设置好每个智能企业做的是什么,他可以跟谁做交互,他只能完成哪些个事,他要做什么,不要做什么, 都要去设置好啊,这就是一个多智能体。其实这个事并不难,就是角色比较多了,这些角色之间他们可以互相共用一些信息,互相去传递一些信息啊这样一件事。 然后呢,我们还要说一说啊,就是现在我们要用这些 agent, 是 不是咱们得去准备一些跟框架相关的东西啊?那框架这个东西 该怎么去理解呢?其实啊,就是大家咱们自己做事的时候啊,就是更多的时候我们是用人家的现成的。那我给大家举个例子啊,就人家现成这些框架啊,比如说奥拓 gpt 啊,什么什么各种 gpts 之类的啊,现在框架 我跟大家这么说吧,就现在这个框架,我我先简单多啰嗦两句啊,就框架好像用的比较多,给我整体的感觉就是大同小异,就是都是你说他好吧, 反正这块儿缺点儿东西,你说那个好吧,那块儿缺点儿东西还真没有一个,就完全意义上我觉得非常好的,但是现在大家用的最多的就还是这个 auto gbt 或者是这个呃, mate 之类的,这些就 get up 的 star 数是比较比较多的,而且就是大家用起来相对来说也是比较容易的,后续我们也会给大家去讲啊, 然后再但是我给大家说一说感受,就是你不要觉得现在这些个开源项目这些框架哇,他就无敌了,他就是个 a 人,能解决的问题是很多的,即便现在啊,就是最强的,做最好这些框架,我跟大家说一句实话,就是他能解决问题非常局限,他能把这件事做出来的可能性非常低, 就是说 a 人这个东西他还在一个发展的状态当中,他还是持续的,就是自动化的完成个东西 大概率得到的结果是不那么尽如人意的,这一点我希望大家清楚。大家能说是不是因为陶老师你讲的不行,这玩意跟我讲也没关系,这东西就是现在啊,人家做着什么东西,我们没能力自己去开发 你的基作模型,也没能力去设计一些底层的架构,底层的工具去调用啊,就要用这些动作,然后怎么去处理这些记忆,这东西其实都不是我们去做的,我们是作为一个使用者,怎么在人家的框架基础上啊?比如说新创建一个角色,新创建一种动作,添加一个 api 调用方式, 我们是在人家基础上做一些增删改查的,但是现在说心里话没有一个框架我觉得真的是能满意的,真是能用起来的,无论是就是付费的也有啊,付费的那玩意 我用了,我选了几家,我本来想讲的,但是我不说哪不说哪些家了,就是用起来跟这个免费的,就是跟这个开源的,我觉着没啥太大的区别,所以说框架啊,嗯,咱们就这么说吧,对我们来说就是个学习, 理解他们任务当中的一个流程,熟悉他,哎,是怎么定义的,逻辑上怎么去做的,好让我们知道 agent 的 整体的框架,咱们从一个输入到我一个输出,他具体流程怎么走啊,咱们理解这些个事,我觉得暂时就足够了。为什么?因为我觉得工具这个东西啊, ai 这里面现在更新换代的非常非常快,你现在就是即便你把这个什么 auto, gbt 没改, gbt 你 熟练掌握了,可能用不了半年,一个新的框架又出来了,一个新的框架可能又是一个颠覆性的超越,又完全碾压了前面这些框架。 这些事是都有可能的,因为我每天都在看新闻,每天有都有同学问我老师新出的框架,我要学,新出的东西我要看, 我给我的感觉我都快麻木了,就是框架实在太多了,咱们去理解去用就行啊。但是我估计后续啊,肯定这玩意早晚都会被更新换代,早晚都会被替代掉的啊。然后 我们来说一说框架当中啊,他其实这些东西啊,他帮我们实现了什么,这些东西啊,就是无论你用哪个框架,咱们都少不了一个东西,就是你得有这个 key, 咱们都得有这个 key 才是可以的。什么叫做一个 key 呢?我给大家举个例子,就是我们要调一些基座模型,是不是啊?就是你要调基座模型,这都不用想了,一般情况下就是 g、 b、 d 四啊,这个是最好的,基本上现在所有的这些框架都是要不三点五,要不就是四,反正就是 token 的 价格有点区别 啊。那这边他可能说我换别的行不行,换别的还真不行,就是我我自己没尝试啊,但是我问了几个哥们,他们搞这些本地化的一些私有 a 证的啊,他们他们他们给我的反馈就是这件事真不行,你本地自己去研究,即便是在自己专业领域当中, 他的这些能力其实是本身具备的,你可以这么理解,就是我是让啊,这个大魔精做我专门的一个医疗领域,做专门的一个什么法律,什么金融领域啊,就是个领域,我这个数据都问给他了, 但是他还是做不好,为什么?因为感知、思考、动作还有记忆这些个能力,是在这个大模型训练的时候他的一些基础能力,而不是说他下游应用的一些能力。 他如果说你的模型都不具备这些个基础能力,你怎么去做微调,怎么去做下一个任务是都不行的。所以这条路我估计大家可以把这条心死了,不要想着我自己去训练一个私有化场景,然后我用这个 a 神怎么样的?我问过好多人,这条路是都行不通的,都是比较差的,所以说业界通用解决方案是什么?就是花钱, 最佳解决方案就是花钱,而且,而且咱们也说这个这个价格啊,这个价格你可想而知是非常非常昂贵的一件事, 但这些框架当中它都帮我们去做了什么呢?其实就是这里边啊,我觉得这些框架当中啊,它都帮我们实现这些东西,就是啊角色,然后交互,然后还有这个 api 调用。我觉得就这几点, 一个框架当中,比如说凹凸或者媒体 ppt 里边,它会给你预定一些角色啊,比如说你现在是一个程序员,你的角色是什么?你现在是一个医生,你的角色是什么?你要做什么事?根据你不同指令,它会给你写很多例子的啊,在这个例子当中,角色该怎么去定义 好?那就是交互,交互,就比如说你为了完成这件事啊,你应该跟谁做交互?程序员跟产品经理之间做交互,程序员啊,程序员就只跟他交互啊,产品经理跟谁交互,你的角色可以跟谁交互。然后最关键的就是我运用这框架啊,最大的一个核心,最大优势是什么?就是工具是现成的, 就比如这里边,现在所有的工具给我的感觉都是这样哇,都是一个,就像个百宝箱一样,就是反正啥 ip 都能用,我让他问天气也能,然后浏览网页就不用说了,用各种浏览器,浏览网页,用各种缩显器,他都能的。 所以说就用这些框架啊,是用人家给我们设计好的这些个 api。 这 api 有 多少种呢?嗯,咱不夸张的说啊,就上百种,肯定是打不住的。因为你比如说你要访问一个公众号, 访问一些微信上的接口,那这个微信,这个公众号,那 a p i 有 多少个了?海了去了,是不是你要你要再去查一些什么企业的信息啊?什么个人的信息,那这每个地方都有 a p i 这些框架,就帮我们写好了很多这样的例子,怎么去掉这 api? 说白了他再去执行这些个动作,就这里边啊,就是他把角色定义好了,然后角色教会定义好了,然后 api 调用给你了。那其实对我们来说就是现成的模板咱可以直接用了,但是更多的,其实我觉着啊,还是希望大家怎么样,就是要这样 熟悉流程,然后我们肯定要做自己的事,你做的事,你不一定是开软件公司的吧?你肯定是有你的一系列人员,然后你们这些人他们要做什么, 我们可以去模仿他们角色定义的方式,他们怎么交互的,以及人家这块涉及到这些 a p i。 那 那在我的任务当中我可能会涉及到哪些个 a p i 呢?就要把这些 a p i 的 一些调用方式,我们给它加进来。其实这些东西啊,我觉着你觉得这个框架当中啊,咱们在理解时候特别难吗? 我,我讲的课比较多,我讲算法、讲论文、讲项目、讲圆满,其实我都会觉着难度挺大的。但是这个框架吧, 他这个难度还真不大,因为就是整体逻辑是比较简单的,所有东西都是到调大模型生成的,他可能并没有太多跟算法、跟数学啊,跟概概念相关的东西,其实都是什么,都是流程, 第一步干什么,第二步干什么?第三步干什么啊?都是流程怎么调 api, 然后反正调 api 也是现成的,反正对我们来说,我,我就觉着啊,如果说我要用这些框架, 我无外乎就是对应好我的角色啊,然后我把我需要用的 api 给它加入进来,就相当于我可能不仅仅执行这些动作,我可能执行点特殊的动作啊,我要执行什么动作? 把这些整理好,其实它的流程我觉得来说是非常类似的,所有里边核心操作都是把啊,就是通过你的角色获取到你这个人基础的一些啊,就就基础的一些命令和基础的属性。 然后呢去啊,根据你的命令当做提示调大模型,然后调完 api 之后呢,把 api 返回结果啊交给大模型,然后生成一些记忆,然后再根据记忆再决定下一步怎么去走。这地方来说,我觉着就这几点吧,框架来说,嗯,就是特别多啊,这个这个到时候大家任选,你想要什么框架都行, 我给大家列出来,是我觉得 k 二 pro 当中死大叔比较高的,也是现在大家呼声比较高的,用的比较多的,我用了一下,我真觉着就是区别不是特别大,而且这东西安装起来比较简单。但是大家会发现一件事,就现在这些框架啊, 都是极简的,他不像是你几年前啊,你想跑个看人像不?哎,我天呐,几年前要跑个看人像不?你配个环境,你没个没个,两三天你配不出来,还得编一这整这贼麻烦。 但是现在呢,这里边啊,你的配置极简单,就是我估计用不了半个小时的一个时间,你就可以把它给它配置起来,只要你有这个 key, 你 就可以很快上手,很快去理解它的流程啊,它的任务是怎么做的啊?反正这个框架我觉得用起来都不难啊, a 阵当中都帮我们把这件事做了一个简化极简,你就可以把这个东西用起来, 给大家去分析了一下,就是我对 a 证的一些理解啊,还有这么长一段时间使用下来,整体的感觉更多的就是通过这些个开源项目和一些实际,再去做这些私有化部属于企业啊,跟他们去讨论交流得到的一些经验。 然后呢我们先来说一说啊,就是 a 证当中啊,什么是可以去做的,什么样的东西他是做不了的,我觉得这样的就是你的业务场景当中啊,如果说啊,你要解决的问题,这个问题他有一个标准化流程, 就比如说你让程序员啊,就是你呢,现在客户有个需求,我需要根据这个需求给他写一些代码啊,给他做一个游戏,给他做一个小程序,做一个界面, 其实这些其实是有一个完整的一个模板的,我们要做这件事怎么分析用户需求,每一步要去做什么,其实都是固定的一些思维逻辑,一旦这件事我们做到一种标准化的体系,其实 a 阵头我觉得是有能力帮我把这事做出来的啊。但是我们现在强调我跟大家说句实话,就是能做出来, 但是你不要指望这个东西能做的多好,不要现在去看别人去吹。这个 a 阵能解决很多事,我目前接触到的百分之九十都是失败的案例, 能成功的也是比较简单的,比较简易的,呆某的级别的还很难做到,说这个东西直接就商业化了,直接就是帮我们解决生活当中的一些实际的需求啊,以以现在啊,以今天这时间来看,还做不到这些东西啊,就更多的标准化体系, 他起码能把格式,能把我们要的东西啊,有那么一点像模像样的感觉输出出来。但是换句话来说, 如果说你现在的任务就是你自己都不知道是怎么该怎么去做啊?你再让他去做,你觉着你让这个 agent 他 自己去思考,自己去反思,自己总结去吧,你能做啥?你按照你的逻辑给我做出来 这件事,百分之百它是做不到的。你没有一个标准化的体系,你的任务当中没有一个清晰的定义,每哪一步该用什么样的 api, 哪一步它应该有什么样的角色。 如果说你没有一个清晰化的定义,其实这件事你是做不到的,那所以这里边啊,我给大家强调了一下,就是 a 人这东西啊,它绝对是 ai 的 一个未来,因为我们用 ai 的 目的是什么? 咱们做大模型的目的,其实现在来说不仅仅是要满足我们一问一答,更多的是我一问,他帮我去把这些个答案做一些汇总,他思考,他决定他做了些事之后,哎,把这个东西交给我,你就别让我再去参与到其中了。帮我做一个 ppt, 别让我告诉你 ppt 的 每一步怎么去做,你来根据我之前做过什么事,你来根据我的一些行为特点,根据我之前写的一些 ppt, 根据我这些要求自动的把这些做出来,别问我一句话,就根据我记忆当中去找。 但如果说这个东西是标准化流程,我觉得是能做的,但是反过来它是很难去解决的啊。哎,这这东西我觉得还是始于持续的一个发展,这东西其实这个词它并不是像是你们现在觉得它火了才提出来的, 很久之前啊,他就已经有这个词了。只不过说之前啊,那些个 gbt 啊,或者之前的决策 可能是靠一些人为的逻辑,显得不那么智能,但是也能把这做出来。现在呢,有了大模型的一个介入,我们可以把每一步优化的更好。最关键是什么?最关键的,其实我就是觉得这样一件事,大模型当中啊,他是帮我们多了一些思考。其实你说执行个动作, 我自己写一些 f s, f s 的 一些判断行不行,什么时候做什么,什么时候做什么,但这东西就很死,他能解决问题就很少。所以说大模型我觉着他是一定是有脑子的,有脑子的大模型能根据他在当前面临的一个问题,去反思我们要怎么去执行接下来的一个动作。 这个是我觉着整个 a 阵当中啊,比较核心的一个概念。但是现在啊,最大的一个难点是什么?最大难点其实我们是无能为力的,就像是一个基作的模型,他的思考能力越强, 他执行动作能力,他的感知能力越强,你整体 a 阵的就会越强。但是这些东西是我们无法去触及的,我们都是用现成的 key 来帮我们去完成的啊。好了,这是给大家做了整体 a 阵的总结啊,他是啊,长什么样子,能做什么东西。 接下来我想给大家再去说这样一件事,就是很多同学啊,咱们现有一些需求,就是我要去构建一些智能体,但是啊,大家觉着就是我这个水平吧,我写代码,我不想写,我也不是程序员啊,不想写代码, 我就想去了解 a 阵的,用 a 阵就行了,然后比如说我现在啊,就是我也不做这个商用,我就自己玩,自己能解决点事就行了,提高点工作效率也好,然后帮我去啊,干点私事也好, 然后第三个呢,就是啊,我可以花点小钱,但是啊,你就别整东西太麻烦,咱们先用起来呗,先用起来就行,这块我给大家推荐的就是这个 gps, 它是最简单最直接的,但是呢,你也得去花点钱, 然后大家说,哎,那有开源的不用,老师你给我推荐这个付费的干啥?那比如开源的这个什么凹凸啊,或者是这个什么 mate gpt 啊, 我咱咱们说,咱们说实话啊,就这东西他不也是调用人家的 key 吗?跟你的 gps 当中调用人家的啊,这个接口,这不是异曲同工之处吗?没有什么本质的区别吧? 但,但是呢,就是,呃,在这个凹凸啊,或者 m i g p 当中,你是自己要写代码啊,就是你要在代码上去实现一个功能啊,要调用调用什么 api, 然后要执行什么动作,然后有什么提示, 都是代码上就显着比较麻烦,没有那么活。但是在这个 gbt 字当中呢,它相当于是 gbt 的 一个应用商店,这里边啊,咱做事就非常非常简单了,而且呢还有很多现成的工具啊,是可以帮我们去用的。更关键的一件事, 这里边啊, o p i 的 全家桶我们是可以玩的多模块能力本身已经具备了,不用你再去额外做些开发了。所以啊,咱们后后面我会给大家讲这些框架的,怎么怎么怎么自己玩,然后他的流程怎么走啊,但是如果说大家咱们你就有点小的需求,想解决自己点事,这个 gps 我 觉着也是挺好的一个地方啊,我给大家举个例子, 比如说现在啊,现在啊,这块我这是打开了一些别人的啊,就是我一会给大家说咱们自己玩怎么用,其实非常非常简单, 比如现在,我现在打开了一个啊,这个 app 吧,或者叫做一个啊,别人写好的一个 a 阵,那我们就叫别人写好 a 阵就行了,他给他起个名字啊,就是啊,叫这个小红书写的专家。然后呢我接下来问他,就是啊,我说这个又就是我啊,我说问他帮我写一篇讲 a 阵的笔记,那你看他是不是帮我把标题列出来了,然后下面呢, 在这个任务当中,他说 a 阵的定义上吧, a 阵的特性, a 阵的一些应用,未来展望,然后结论他是不是有几大块啊? 那其中我们简单梳理梳理啊,就是他要完成这样一件事,他是不是说首先他要给这个 agent 定一个角色,那你是一个写作专家,你接下来要根据用户的输入啊,把它什么什么写完整啊,怎么样的啊?他就有一个提示,然后接下来 他还得有啊,就是要完成这件事,他得去调用什么,他得去调用一下子啊,比如说怎么生成一些比较好的标题,那标题当中有哪些子的模块子的一个逻辑,就相当于他是有顺序的,先生成标题,然后再根据标题和你的要求生成我们想要的一些内容 啊?这就是我们的一个基本逻辑,第一步要干什么?生成标题,第二步根据标题生成内容。其实这不就是最简单的一个 agent 吗?把一件事做一个拆解,然后把最终结果帮我们生成返回就可以了。那这一块呢?比如说 现在啊,呃,比如这块有叫,还有一个随便随便打开的啊,叫什么啊?这个什么 ai 车助手, ai 车助手东西啊,就是比如现在啊,我也我也,我也没看他具体是啥,我就让他说给我介绍一下,比如说沃尔沃叉七六零的详细配置,那下面是我把我们这些结构全拿出来了,那这些配置大家,大家帮我想一想,他是怎么升这个东西的? 他是不是得调用一些工具了?比如说,哎,他要分析一下这个叉 c 六零,他是不是得去找一找?哎呀,叉 c 六零,比如或或者说你问他最近新出的一款车,可能 gbt 里边都没有他这个训练数据,他是不是要到网上去找一找,去做一些搜索, 那这一块就形成什么?这一块就形成他一个动作,我为了完成这个任务,然后他经过一思考,这件事是我目前不具备的,那我要去执行什么动作?执行到互联网上去搜索,那可能他一搜索搜索到这么一千个网页都是讲这玩意的, 他是不是也辨别一下子哪些是广告,哪些是我不想看的网页?在这里边他说经过大脑一思考,我选出来前十篇我觉着最好的网页,然后那是不是还要把这十篇网页 做一些摘药,做一些总结,再根据这些总结,最后再穿越 gbt 啊,问你怎么样基于我找到这些资料,帮我生成该用户想要回答这个问题,再做这样一个结构化的一个输出啊?就这个大家发现反感就是 流程上是怎么样?是我觉得相对比较死的啊,相对比较死的感觉。然后这会还有什么,就是又打开工具啊,什么微信阅读,鬼才不知道干啥的,他就是说让你输入一个文章链接,就你我随便给他发个链接啊,他就帮我分析了这个文章标题是什么,然后文章标摘有什么,然后可以深入思考做哪些事 啊?其实这里边都是啊,你看我给他发个链接,你这他起码得把这个链接打开,是不是?是不具备一些联网的功能才能解决这些问题啊?都是去调一些工具帮我们解决这些事, 然后大家说那给我发短信,然后给我做什么东西,该怎么办呢?其实这件事啊,并不难啊,就是让让我们这 api 啊,就是让我们这个助手,或者说让我们这个 agent 他 具备一些能力。这个东西啊,咋说呢?就是你可以自己去调一些免费的 api 去做, 但是呢,如果说大家觉着就是像我说的,你用那个什么 mate 或者 autodgpt, 你 写这代码特别麻烦,这块现在啊,就是我看啊,一些个人用啊, 可以玩这个语句 ai, 它这里边相当于啥?就是帮我们把 api 做了一个整合,你看啊,比如说这块创建一个叫什么的个 ai 的, 你不用管是什么,你看我一点这个添加动作,这里面有多少种,就是随便给大家举个例子吧,比如说咱们这个什么企业通讯,什么 qq 邮箱,什么什么短信宝,这都干啥的, 哎,调用这个 api 就 给你发短信了,在这个 a 领当中能给你自动发短信,能给你自动发邮件,还能给你做一些这些所有的跟人家集成进来 api 相关的。我觉得这 api 这都不下几百个了吧,你想访问啥?想调用啥?是不都行啊? 但是吧,就天下是没有免费的午餐的,我给大家找这个叫什么语句 ai 啊?他就是总结的比较全啊,我觉得就是,反正我是这样,我喜欢花点小钱,然后你让我做起事来,别那么难。他这块你随便一点, 它这块都给你生成出来,比如说你要要要调这个钉钉应用干什么?比如要发发这个消息,发这个消息,然后这块你要注册账户啊,这块我给大家演示了,你们自己去注册账户,注册完账户之后呢,它就会啊,给你去生成一个 api, 你 就可以调用这 api, 然后你的 agent 它再去执行的时候,大家都说,哎,这个 gbt 它咋地?还能给我这个钉钉连上吗?就这一块它是有的啊,就在这里边我们点它自己创建这个 gpt, 创建 gpt 的 时候啊,就是 create 的 时候,你给自己写啊,你的要求是什么?你的描述是什么?你把你的要求描述写完之后,它右边就会生成出来啊,你的一个助手是长什么样子的? 比如说现在,就是啊,我就随便写啊,咱们先管,我随便写,你是做企业管理专家,尽可能压榨员工的工作时间, 时间,让他们更多的工作,还啊,然后就就就这么写吧。就是啊,我我我写个需求,你这个角色是什么就好说的啊,就是第一步我们希望这 agent 他 要完成一件什么样的工作, 那其实在这 cpts 当中啊,这块我写的比较少啊,这样这玩意你要写一堆啊,就是你是角色是什么,然后你每一步要去啊,做什么,你要写非常全面,这些市面上教程太多了啊,我就不给大家具体详细说这个事了,我主要给大家说说流程,然后这有 config, 这个 config 当中啊,是这样啊,就是我忘加一句话,就是下面用中文给我回答啊, config 当中这块它有, 各位抖友大家来看,这块它有个 create new action, 其实这些啊,就是你可以把你倒数 a p i 直接复制过来,就是这些语句, ai 当中啊,刚给大家演示这些动作,它都是有 a p i 的, 你可以把这 a p i 啊全部复制过来, 这样你的 gpt 就 具备这样一个能力,他就可以做各种各样事了,他也觉得我该调用啊,他也觉着现在这个员工问我点啥,我该给大家群发消息了,大家晚上别走过加班啊,那这一块他就会调你这 a p i 来去啊,在这里面实际的把点东西执行出来,数据分析的,各种查询的,这就不用说了啊,所以说 现在做这 agent 吧,我觉得都不难啊,就是不难的原因是什么?嗯,就是你兜里花点小钱,你想这个这个 open i 的 key 你, 你要买是不是?这是第一个事,第二个事呢,就是你调这些个 api 的 时候,咱们得用一些嗯,现成的现成的库吧,或者现成的 api 的 一个大权。 但这玩意儿吧,这咋说呢?就是你自己折腾也行,很多都免费的。但是这汇总的吧,人家就是收钱的啊。到时候大家你们最简单的方式就是你做出来一些小的 a 这样的东西,你就可以用这个 gps, 它是我觉得最快的一个方式啊,能帮你去解决这个问题的。