第二张模型驱动的 agent 技术框架下篇实操二、简单语义解锁小 demo 懂意思的问答机器人目标问投资相关问题,能精准匹配答案,体验向量数据库的作用。 步骤装依赖命令型输入 help install sentence transformers n p skr 写代码保存成 search agent p 直接运行就行,不用秘要模型自动下载 pattern 运行 from sentence transformers import sentence transformer important p n p from square matrix pairwise import cassini underscore similarity 加载羽翼模型小而快,适合新手马洛 eq sentence transform paraphrase minion l six zip code 知识库存三条投资知识 knowledge base 等于股票市场,是风险投资的主要渠道,外汇市场波动较大,适合有经验的投资者参与 代劝投资具有较低风险,适合保守型投资者。把知识转换成语义向量 knowledge mentors 等于 model encode knowledge base if semantic underscore sheet query 把用户问题也转换成像量 query vector 等于 model and code query 找对象的答案 similarities 等于克西尼相似 query vector, knowledge and score factors closest underscore i d x equals n p r m x similarities return knowledge underscore base courses underscore ids 测试问,适合风险低的投资, brian 只能回答 ximantic 适合风险低的投资, 运行结果会输出证券投资,具有较低风险,适合保守型投资者。就算你换个问法不想冒风险,该选啥投资也能精准匹配。其实这一张总结下来超简单, 智能体靠大模型,当超级大脑用感知、决策、执行三层结构干活,通过 a p i 连外部数据,用向量数据库懂语义。 还有 react、 mapping、 face 这些工具帮忙,咱们高中生不用搞懂复杂原理,跟着代码复制粘贴就能做出实用的小智能体。好了, 今天的读书笔记就到这儿,两个实操项目赶紧试试,体验一下 ai 开发的乐趣。下次咱们再聊更复杂的智能题用用。
粉丝153获赞489

为什么别人可以用 cloud code 这样子的 code agent 开发出企业级的代码? 比如 antropic 说接下来三到六个月内,会有百分之九十以上的那个代码由 ai 来写,但是对于我们自己却只能开发出类似于四三九九一样的非常基本款的小游戏,比如说贪吃蛇。 code agent 有 很多,尤其是以 cloud code 为首的终端 agent, 那 么也是最近非常风靡的一种选择,包括 code x 千万 code 的 ctrl c l i f o c l i。 但是哪怕大家在用 cloud code 这样子的顶级产品的时候,开发出来的效果依然有所不同,我觉得这里唯一的区别就是大家使用 code agent 的 方法有所不同。这里我从啦到吭给大家排序一下, 接下来我也会带大家用比较吭的方式使用 coi agent 来带大家开发两个实际的项目,也是我最近开发的两个项目, 大家可以评判一下这两个项目做的怎么样。接下来就分别讲一下从拉到憨的三种不同的方法,不知道大家用的是哪一种?首先是第一种拉中拉,就比如说我现在要做一个项目,你你跟他讲一句话说,嘿,帮我做一个 video chapter 吧。 那么然后让 ai 去生成,然后再生成出一坨史商代码,这样一坨代码基本上属于狗都不用。第二种呢,它会把自己的需求写得非常的详细,比如说我这里,呃,我想开发一个工具,是 能够将 s r t 的 字幕文件转化为视频的进度条,然后核心功能有一二三四五,然后让 ai 去生成代码,然后我们再循环去修改我们的需求,然后最终生成一个勉强可用的一个勉强可用的代码,这就属于 介于拉和夯之间的 npc 的 一种使用方法,这也是我相信大多数人的呃使用方法。今天呢,我们其实核心就是想要介绍一下呃 spike 驱动。 spike 驱动呢,也是我个人认为最夯的一种使 使用 code agent 的 方式,那么它这里的核心区别是我们要先把自己的需求完全说清楚,然后再让模型去做开发。我们要一次性把我们的需求 和设计文档以及任务文档都生成出来,然后再让模型去做生成,这样才能产生出企业级的代码,否则我们只能采用最后一种拉中拉的方法去只能生产这种贪吃蛇小游戏。最后来暂停看一下 大家用的是哪一种方法,然后呢,我就会带大家用 i f o c l i 这样一个 c l i 终端的 agent 来演示一下 spike 驱动到底是怎么做的, 来做一个我自己的一个项目。这里的话,呃用这个 i f o c l i 的 核心原因就是因为我觉得呃它不需要翻墙,然后它是免费的,基本上可以做到 国内的 t 梯队的模型是免费使用的,比如说 kimi k two k two thinking、 千问三 ko 的 glm 四等一系列的模型,然后它的呃 登录什么的,下载什么的都很方便,然后也可以非常方便的集成到我们的开发环境里面,所以这里我会用它来演示 spark 驱动开发一个自己的小产品。大家可以看一下我最终开发出来的,这是我 上个月开发的一个叫做 auto chapter 吧,就是这个网页里面的就是一键生成视频章节,然后它核心的能力就是你贴上你的字母文件,然后它给你生成一个这样子的一个 呃小视频,然后你把它拖到那个剪映里面,就可以直接在视频的上方或者说下方有一个进度条一样的东西。接下来就带大家讲一下 spike 驱动具体是怎么做的。这里我们用一个开源项目叫做, 大家猜一下叫什么叫做 open spike, 就是 用这一个开源项目来给大家讲解一下什么叫 spike 驱动,这里 呃可以看到它的那个是怎么样运作的。其实核心就是指你第一步先把自己的开发需求告诉 ai, 然后再循环地让 ai 去生成一些 任务,按照特殊的规范去生成一些任务,然后直到他把这一个需求描述清楚了,然后再让 ai 去开发,让大家更方便的理解。我可以 呃用比较通俗易懂的语言来给大家解释。首先就是你的输入,先把我们要做什么东西告诉 ai, 然后 ai 去整理整理你的需求,然后我们去做澄清,确认相关那些东西,然后我们一般来说会生成三个文件, 呃,这个的话,文件的话,呃,其实不同的工具它的命名都不一样,但是为了相对来说比较通用的话,我自己个人的话就采用了类似于 requirements, 就是 你的需求,然后以及设计文档,然后详细任务,类似于这样一种方式来做描述,然后通过这种循环 去沟通的方式去生成最终三个文件,然后再让 ai 去做执行。因此它整体的逻辑是,呃先做任务的输入,然后澄清需求,澄清需求得到了三个或者说四个详细的文件,然后再让 ai 去做生做任务的一个执行, 然后我们搜索一下 iphone c i, 然后进入到这个 gitlab 的 链接里面,去看一下它是怎么样安装的。这里的话它可以一键安装,针对于啊 mac 用户可以直接一键安装,然后我是一个 mac 用户,然后直接复制到这里,但是我已经我已经安装过了 啊,安装完了之后他就直接登录了,就是长这个样子。刚刚跟大家讲过了,其实我们最终的目的就是想要生成三个 需求文件,来告诉 ai 我 们的详细的需求是什么样子的,然后以及我们的架构选型要怎么样做,然后以及把任务拆解的更开,能够让 ai 更好的执行。这里其实说白了就是要给 ai 更好的上下文,然后能够让帮助他执行的更好。 所以这里我们用那个 i flow c i 来演示一下我具体是怎么样跟 ai 做对话的,然后生成出来的结果具体是长什么样子的,这里我们用左右两边的屏幕来演示看一下。你看比如说我登录了,刚刚登录了之后我就跟 ai 聊天说, 嗯,叫他在做写代码之前,先把任务需求写到这个 require requirements 里面,然后我就跟他讲我的那个需求是什么,比如说,呃,我先告诉他我的任务是什么,就是我想要为视频生成一个 chapter 吧, 然后这里的话主要就是呃输入功能,对应我们这里的第一第一个第一个输入功能,输入功能部分,然后 ai 就 会去 呃整理这个需求,然后找我们澄清,你看他就会找我们澄清说,哎,你想要生成什么东西?比如说我这个 java 到底想要做什么东西啊?我这里 然后输入输出具体长什么样,然后章节信息要什么东西,然后最终的目标是什么?然后我就非常清晰地告诉他,我希望做一个视频进度条,能够 直接导入到 capcut 等剪辑软件里面,然后最终发布到那个视频里面,然后我跟他聊很多,聊很多,然后聊很多之后,然后他就最终呃 最终把这些内容都写到了这个 requirements 里面。我们来看一下他最终写出来的那个内容是不是符合我们的要求。 你看他的那个输入输入规范写的非常的清晰,这样模型在开发代码的时候就不会跑偏,他就知道具体要做什么,然后有哪些可配置的一些参数, 然后以及一些制作流程,然后技术站什么的其实都写到了。当他写完了之后,你其实还可以对他去做调整的。比如说对于我这里,他写完了之后,他问我还有什么需要改进的地方吗?那我们肯定得要把事情说清楚。那么这里可以 让他基于呃 spike 原则去告诉他我开发的这个软件他的面向用户是什么。比如说对于我这里的, 我其实面向的用户是 b 站知识区的 up 主,主要是做技术课程,然后还有说 youtube 的 教育创作者,还有企业培训人员的一些视频制作,然后他就会再去做思考,然后把 把最终的这个用户故事相关的一些,比如说,嗯,他要一键去生成进度条,然后可以, 呃,验收标准是什么?然后他的目标是什么?做完刚刚那一些事情,他不是生成了一个 requirements 文件吗?对吧?然后我们接下来要做的是什么?看到这里来说,我就需要有一个详细的设计 design 的 文档,然后我这里是啊,是这样跟他说的,哎,我们先把这个给关掉, 我先把这个给关掉,接下来我要让它根据这个 require 的 内容帮我生成一个 design 的 文档,然后这里需要包含核心目标设计架构图,这个设计架构图是非常重要的, 然后模块划分,然后组建结构也设计清楚,列出相关的依赖,这样子就是你你解释的越具体,它生成的就会越好。我们这里来看一下它最终生成的那个结果,你可以看到 他的那个设计文档其实比我们自己写的还要相对来说更清晰。然后他还是按模块划分的,这样子对于他后续的开发来说,就返工的情况就会变得很少。可以看一下他的设计,他设计真的非常的好,我觉得比大多数 算法工程师,比如说以我为例的算法工程师,其实他都是做的要更好的。然后他还把你的包管理依赖工具相关的一些, 呃,怎么使用啊?巴拉巴拉的一系列的东西都写的很清楚,然后再去做开发,这样会事半功倍。把这一个 d 站文档输出出来了之后,我们接下来要做的是什么?我们接下来就是让他不要修改任何的代码,还是说我们要去生成这样一个 task 任务,去把任务支解, 然后它也是同样的去读取了你的 requirements 和设计文档,之后去把任务分解,生成出最终的那个 task 文件,然后 task 文件它分了八个阶段,三十二个任务。 这样子的话,每一次我们就可以让 ai 去只做一个任务,就每一次开发只开发一小个步骤。 然后我们来看一下我们最终生成出来的那个结果,结果就是三个文件,然后最终我们来看一下它生成的那个代码,它生成的代码也是非常规范化的,就是先去做那个 chapter 的 提取,然后再去做 呃视频的一个生成器,这个是我最后在跟 ai 对 话的时候,让它去做了一些性能相关的优化,然后还有你的字幕的一个解析器,其实主要就这这三大块,然后还有 c l i 的 一个工具,我还让它帮我生成了一个,呃,这个叫 landing page, 然后大家也可以直接去搜一下,叫做 auto chapter 吧,然后我们可以可以免费试用,这个我已经也已经部署了,我们可以看一下,就是在 github 里面。呃,目前为止包括我自己在内一共有五个人点了 star。 呃,这个是上个月生成的,然后这些所有的内容都是用 ai 生成的,然后主要的方法就是采用了 f 六。呃, c i 用 spike 驱动的方式去做代码的生成,然后可以看到 这样一个 auto chapter bar 的 一个能力,大家可以去呃上传自己的一个字幕文件,然后去做那个 chapter bar 的 生成,最终生成一个类似于这样子的小视频,这个大家自己去体验就好了。然后除了这个, 就是昨天我又基于 spark 驱动的原则去开发了一款工具,就是做英语学习的。就比如说我经常会问 ai 说,哎,这个东西用英语怎么说,这个,用这个东西用英语怎么说?然后, 呃,但是每次说完之后我就不记得了,所以我想开发一个自己的小工具,能够把这些东西给记录下来,比如说啊,很多话,很多话,我其实,呃, 说完之后,我希望能把它记录下来,然后我就可以去通过类似于 anki 的 一种学习方式,卡片学习方式 glad to help you 去学习我以前遇到的一些句子和句式,这些都是用它开发的,然后我可以 glad to help you, glad to help you。 然后假设已经 记清楚了, thanks a million for your help。 然后不记得,我就重重新学习, this thing is very expensive。 翻译,就这些东西 都非常的简单,但是你要是真的让 ai 一 口气生成这样子的一个 内容的话,那它其实是做不到的。但是如果说你用 spike 驱动的原则,它其实就可以完成这样子的一个任务,而且我这些数据其实都是有数据库的,就以这个为例,你看其实 都是有数据库的,这里我有几个表,我有几个表,这都是我的一些对话的历史,可以看到吧,就是他都是有数据库的,因此最终的话是可以使用的。所以说我非常推荐大家用 spike 驱动的方式去开发自己的产品,然后能够真实的用起来,而不是说仅仅停留在 小游戏里面。类似于这样子的一个简单的四三九九小游戏,这样子的话基本上是没有什么意义的,我们要开发的话还是要开发一些比较有意义的产品以上。


别吹太狠了,大圆模型驱动的 agent 也会胡来。下象棋都能闹笑话,比如叉的 gpt o one 和 deep sea r y。 下西洋棋出现过把兵当马走自己吃自己棋子还说赢了的情况,现在想让他干严丝合缝的活还得再练练。

本视频耗时三百二十五小时,制作时长三千六百秒,今天手把手带你们吃透 ai 智能体,从基础原理到实战应用,教你从零构建模型,用对用好, 在校本研博、求职、算法岗相关领域的交叉学者迅速码住。这节课咱们来给大家好好分析一下,什么是 agent, 以及为什么他在 ai 领域当中能这么火,他跟大摩羯之间关系是什么,他的定义是什么?以及他能帮我们解决哪些个问题,这些事啊,我们会一并给大家逐一进行梳理, 然后大家发现了,其实我并没有打开一个 ppt, 就是 我不想啊,拿一些概念给大家去背这个课文,更多的是我想给大家去总结一些啊,就是我用 agent 的 一些感受和我觉得它到底是什么, 我需要大家这么去理解。就是对于 agent 这个东西啊,它并没有一个就是本质的概念,或者说它并没有一个完美的一个定义啊,它就是什么,它究竟解决什么事, 他是比较活的一个概念,就像是你眼中的一个机器人啊,你希望他给你做什么事,和我眼中机器人他怎么解决问题的流程 其实是可以不同的,我们每个人眼中 a 人的其实也可以是完全不一样的,他相对来说啊,就是比较 diy 啊,或者来说你怎么去设计,他,其实完全可以根据你的想法我们来进行设计,咱们没必要有一个统一的概念,统一的一个什么算法,流程这些东西。 哈喽,我们来说说是什么?首先呢,我给大家举个例子,就是这个词啊,翻译过来叫什么?翻译过来就是一般情况下,我们就把它叫做一个代理,或者叫做一个智能体。举个例子吧,就比如说我今天啊,就今天我上课去,然后我说我早上起不来了, 我跟我室友说,哎,我说哥们,你替我上课去吧。然后那我哥们说,行啊,那我就替你上课去呗。那大家想一想他,我给他交代了一个命令,我说你替我上课去, 但是这件事啊,我不给他拆底,拆底他怎么能替我上课?是不是说,首先,哎,我们说啊,他上课的时候,老师在这点名点我名了,他是不是替我举手,替我喊个到这第一个事, 第二个事呢,老师说要交作业,他顺便是不是也能帮我把作业给他交上去,甚至呢,老师讲了些东西,哎,我没去啊,他再好好心点,他说帮我把笔记也记下来了,然后回来让我去看一看,然后到考试的时候,我好能去考, 然后,甚至啊,这也只是基本的概念,甚至这个智能体啊,哎,我说他还去推理一下,他一寻思,这个下课点啊,一看快到中午了,我没来上课,肯定在床上睡觉呢,要来寝室打游戏呢,那我肯定中午也不想上食堂, 他在智能点,他顺便去食堂,他自己吃完饭再把饭给我打回来。你说这件事是不是就完美给我们解决了? 所以说什么是个 agent 呢?将来这样一件事,就是我现在有一个需求,我有一个命令,但是我这个需求的命令不是说啊,你瞬间或者说是一步就能到位的,我们需要把这件事给它拆分成很多个流程 啊,然后每一个流程上你还要单独的去完成,所以说我们来想一想啊,就是代理,就像说的啊,你替我做什么东西,你帮我完成一下什么事啊?就像我们跟这边说话似的啊?咱比较友好,请干这个,请干那个。但是呢 agent 他 跟大模型之间可能有点区别。 大模型就比如说啊,我问他一个东西,他给我回答一个东西,我再问他一件事,他再给我回答一件事,那其实智能体就不是这种感觉。我们说这个 agent 啊,他相当于 第一步啊,他要去理解你的命令,理解完你的命令之后呢?他要把这个东西啊干什么?根据他的一个理解再做一些拆分。什么叫拆分?要完成你这件事,我第一步要干什么?我第二步要干什么?我第三步要干什么?哎,那我问问大家啊,就拆分这件事 他是怎么做到的?他,哎,你觉着我给他个命令,他怎么能把这个命令做一些拆分啊?其实他可能说,哎呦, agent 这东西是不是长大脑了,长脑子了,然后他比较聪明,他就能真正理解这个东西。其实我跟大家说啊,就是在 agent 当中啊, 一切都是用这些大模型去做的。比如说我先给他一个命令,我说你去帮我上课去, 那接下来他就啊问这个大模型,他说,哎,我现在啊想帮唐雨迪上课,那唐雨迪的一些状态是什么啊?他的一些基本情况是什么啊?当做一个提示,以及呢?我的命令也是我的提示。好,那你把这件事帮我去拆分成几个子命令,好大模型啊,自动就把你拆分了,你要给他干什么?要干这个干那个干那个, 哎,是不是他就可以去知道我们每一步要去做什么了?所以这一块啊,就是我们不要觉着 a 点这个东西,他是能脱离大模型之外的一种新鲜的事物,其实不是的,他相当于呢是更好的去利用我们这个大模型。换句话来说, 他每一步都在去利用我们这个大模型。那比如说我们先给他拆分成了一些子任务,那拆分成了一些子任务之后,接下来那大家可能说,哎呀,比如上课的时候, 他在想,我现在老师在上课,那我需要去做点啥呢?又把这件事问问这个大魔球,大魔球说先上课呢,一会老师要点到点,到时候你帮他举个手啊,就是拆解的第一个任务怎么去回答, 那第二任务呢?他说啊,老师现在在上课,然后你顺便啊再去帮他把笔记记一记。那第三件事呢啊,他说你在回来路上再去买一买点吃的,其实这些啊,我们说可以叫做一些决策,或者是一些动作,这些个决策一般情况下都说谁完成的? 其实 a 阵这个东西啊,本质来说就是他在跟我们的大模型做大量的一个交互,他每去做一个决策,他每去办任何的一件事,都要问这个大模型,哎,我该怎么去做啊?我当前的环境是什么?我当前收到的命令是什么? 那我怎么去完成呢?其实一切东西啊,都是由我们大模型每一步再去告诉他。所以就是我希望大家这么去理解啊,就是咱们所谓的一个智能体,就是 先理解你命令,再把这个东西不断做拆分,那每一步靠什么执行?还是靠的这些个大模型去执行你当前所要的一些结果? 所以我希望大家就这么去理解这个所谓的智能体啊,就是啊,让我们的啊,一个 agent 去模仿你人类的一个行为,你可能怎么去做的,那我们就也这么去做了啊,这是我们基本的一个概念。 然后呢,我想再跟大家说几件事,就是,哎,你觉着啊,这个 agent 他 再去做的时候,为什么说他能去理解你每一步的一个操作?哎?他怎么知道你的命令是什么?他该怎么决定你这个东西该怎么做拆分呢? 其实我估计有很多同学会有这样的想法,就是我们这个 agent 足够强大,他已经能够真的去理解你们人类的每一个行为。 其实我们说截止到目前为止还做不到这样一个水平,为什么?因为大模型可能会出现很多的幻觉,他可能是比较发赞,而且是不稳定的一件事。那其实更多的时候 我们这个 agent 是 靠什么来进行执行的?靠我们的规则。什么叫我们的规则呢?就是上课这件事。哦,说你替我上课这件事,我说给他写死了, 就要帮我签到,就要帮我做这个,就要帮我做那个,更多的情况下,我们希望他是帮我代理完成一件事,顺利的完美的完成。那是不是我要给他设计一些游戏的规则? 所以说更多的时候我们的规则是通过什么来设置的?其实说白了就是啊,我们去写一些提示, 那这个提示怎么来呢?你帮汤雨迪去上课,他平时不愿意上课,但是考试喜欢复习笔记。 好,我的个人信息也可以作为提示交给这个大模型。那大模型再把啊,你现在要去替别人上课,以及这个人的需求是什么?他的一些心理行为是什么?以及当前你的目的是什么? 把这些所有东西一起作为一个提示再交给这个大模型,最终啊我们是得到。哎,他在这一步上要去做一件什么事? 所以我一直觉着就现在很多的 a 站,包括框架也好,项目也好,包括大家听到的很多的演讲,很多的故事,我觉得都把这个东西给他说的过于就是神话般的感觉了,好像是说他能去自己的去分析自己的去啊,不断的去理解这些事。 其实目前我看到一些成功的案例都是我们自己好设自己设计好的规则。啥意思?你先让他去写代码,那写代码逻辑是什么?先有产品经理,先有 pm 啊,去制定好每一步的流程是什么,然后每一步的流程上再交给对应的程序员,程序员再去把每一步的功能给他做实现。 是不是做一件事我们讲究就是有一个完整的流程,他还不具备自我的一些思维,就是很难具备自我的一些思维啊。其实不是说不能具备,因为大模型在每一步当中他都可以去思考啊,我们需要去做什么,但是如果说你不涉及规则, 你的结果是很差的,这就是目前 a 阵是什么? 他就是要帮我们去完成一件事,但是完成这件事他会去做一些拆分啊,把它拆分成很多个子的任务,再对每个子的任务,结合你的游戏规则,也就是你有哪些个提示,传进去之后,一起调用大模型来去得到我们想要的一个输出结果。 本期视频给大家整理了 ai 系统入门的保姆级路线图,从基础到进阶,全程无废话,不管你是零基础小白,学生党,还是想转行抓住 ai 风口的朋友,都能直接套用,也可以根据这份路线定制专属学习规划,少走百分之九十的弯路, 只要你是我的粉丝,留言学习就能解锁完整干货。那这个 agent 他 既然能帮我完成这些个事儿, 那他都得具备哪些个能力呢?其实我们觉着就是理解这个东西啊,其实并不难啊,代理我们去做一系列任务,跟大魔镜不断交互,得到结果,哎,那你说他凭什么?凭什么能做到这些 来,咱们说这个事凭什么能做到?为什么他能帮我们解决,哎,我让他去交代这些事啊,其实这一块呢,我们要说几个词,其实我说这些词啊,还不是特别的,就是覆盖全面了,因为整个 agent 在 你的业务当中,他到底有什么能力,完全是你赋予给他的。 第一个我们来说一说啊,比如说大家最常见的叫做一个感知的能力,可能大家觉得这个词挺抽象的,什么叫感知呢? 就比如说,哎,我说我让我那个室友帮我去啊,上课的时候他到课堂了,发现咱们班一共就来了俩人,老师点名的时候一共就俩人,三个人喊到了, 他是不是就觉得这件事可能做不到了?那是不是我们这个大模型他要实时的去得到一些环境的一些反馈呢, 环境的反馈大家可以当做,比如说我们这个智能体,它可以跟环境做一些交互,它可以观察一些信息,一些文本上的信息,一些语音上的信息,一些图像上的信息,这些呢都可以作为它这个感知。那其实感知对我们来说是什么?说的特别抽象,其实就是说 把能用到的转化成提示,啥意思?你在接下来要去帮别人喊到的时候,我们再加上个提示,现在教室里边就两个人,一会老师点到的时候,我该怎么样帮助唐雨迪把喊到这件事完成, 把这件事,哎,问大模型大明哥说了,一会老师要喊到,要要要点名,你们班级人太少了,你就别帮我点到了,要不然老师发现了不许整死他呀。 所以第一个啊,就是我们说得有感知这玩意,他不是一个死的,他得及时去发现个问题是按照我们的流程,但是你说啊,我们按照流程我们自己写一些拍准脚本去执行,完全可以的。用 a 针的就说明他会比较智能,智能体,智能体, 你连感知都没有,是不是就不行了呀?但是我们说任务当中啊,就是不仅仅是有感知,还有什么? 其实你看这一块我写了一些思考,就是我先给大家写这概念啊,其实不是什么标准上的一个定义,就是我理解的就是在我看来 a 阵有什么东西啊,就是大家你们在其他地方去看,可能每个人讲解我觉得是不同的啊,都是凭着自己的感觉,因为这东西还没有 绝对权威的定义啊,都是我们使用者,我们从用下来,从我们这些这段时间吧,做完之后咱们整体的感受啊,第二就是个思考,什么叫思考呢? 我看到的东西可能会很多,我去啊,教室里边我看到了有好多人,我看到老师在讲课,我看到了好多好多好多好多东西,其实这些对我来说什么我看到的东西感知啊,我是可以得到一些记忆的,我给大家再再再补充一个,就相当于这一步啊,我们是要得到, 得到咱们很多记忆,这些记忆啊,都是啊,一会我们可以来进行参考的。那什么时候做参考?其实说白了啊,在这个任务当中就是我们去思考的时候,你要去考虑这样一件事,我们观察这么多东西,是不是都是表面现象, 人很多啊?然后啊,有男有女的,然后老师写了一篇文章,然后老师讲完了一堂课, 其实这些都是我们叫做基本上啊,就是表面层面上看到的东西,但是这些东西我能对大模型产生特别有价值的信息吗?可能性有点杂,也可能性有点多,也可能你的上下文传不进来这么多的提示。 那思考呢?其实说白了就是我们要去总结你看到的感知到的东西,其实这个任务当中啊,说白了你现在要把这些感知当做你的上下文啊,我看到了这么多东西,我再去问这个大魔小, 你能不能帮我把这些事总结成几个关键点,或者说结合我的任务标,我看到了这些东西,这些东西会怎么影响我呢?问问大魔小 大母婴,我告诉你,老师都写这么多了,你快帮他把笔记记一记吧,快帮他去写点知识点吧,考试了他啥也不会,怎么办啊? 所以说思考啊,是要把我们的感知上的东西,或者说把你记忆里边有的东西再做一个升华,你记忆里边都是些基本面上的东西,那个东西太简单了,那我们需要去让智能体有点思维哈,就说点高端点,有点思维,把这个东西重新的再去总结一下, 总结完了之后再去做什么?一般情况下我们叫做一个 action, 或者叫做一个动作,什么叫做一个动作呢?就是说白了啊,我们现在说,哎呀,这个智能体他现在要去啊,记笔记,他现在要去啊,做这个,做那个,那这些事是怎么去做的呀? 我给大家举个例子,比如说我现在啊,就大家翻一翻,你问这个大模型啊,我问他一些问题的时候,他是不是会有一些插件?我问他天气的时候,他会访问一些天气的 a p i。 我 问他日期的时候,他访问一些日期的事,然后问他今年今天的新鲜事,他可能上网去帮我做一些搜索。 那其实这个任务当中动作呀,我觉得就是整个 agent 当中比较核心的一件事了,你这个 agent 他 有多智能,关键来说就是看你的动作设计有多丰富。 大家可能说这件事一个 agent 他 越智能,不应该是他脑子越好使吗?但是我跟大家说啊,就脑子这件事 是你改变不了的,我们现在所有大模型都是用 gpt 四去做的,用别的说几句话就是不好使, 就是你,你一说你考虑,你考虑你本地大模型,你整什么观展大模型就不好使,那玩意就感知也不行,思考也不行,那就不用说了,那为啥说我们自己可以设计动作呢?动作其实我说白了就一一个事,我给大家解释一下,说白就是调 api, 你 让他干什么?就让他调自己 api, 哎,我说就老师点名的时候啊,你给我发个短信,然后我赶紧跑,比如说快马加鞭能赶上, 那这回你想发短信这件事怎么操作?大家都说,哎呀,大模型还真的能给我发个短信吗?当然可以了,这又不是什么难事, 我们说咱们可不可以调用咱们的一些短信的一些 api, 这些东西无论是 gpt 还是一些现成的工具,早就给你接入进去了,给我发个短信,给我发个邮件,这玩意并不是一件什么难事吧?然后再比如说呢,就是我给大家举个例子啊,就调用 api 当中,比如说啊,就是你可以上网, 然后你可以查查各种东西吧,这些都是啥?这些呢?其实都是我们可以定义好的,咱们要去完成哪些个事。好了,这就是一些动作,但是动作其实不仅仅啊,是我们要调用一些 api, 我 再给大家举个例子,这是我们一块去说的啊,就是比如说我这个智能体, 他现在观察到思考这些东西之后,他不确定这事该怎么做,想一想你,咱们,你咋说你们人类了?想一想咱们人类,我不确定什么事,我问问潘小冉,我说咋办啊?我说啥事,我别自己自己定主意,到时候啊,吃不了兜着走,咱们一起参谋参谋哈,你也帮我参谋点事。是不可以问问别的智能题, 其实我给他,我给他举例就可以去啊,就是问别的智能题,其实也是可以的一件事啊,你怎么认为这个东西你的一些回答也要当做我的记忆,我在思考的时候,我在其实就是思考决定的动作要做什么,我在思考的时候也可以去考虑你别的智能题给了我什么什么样的一个信息。 所以说啊,就是这里边啊,我给大家先提了这么三点,其实我觉得这三点还是比较简单的,我们需要什么,就首先呢就最基本,最基本你得有感知,但是不仅要感知,还有思考,思考完之后 你就要去确定一下子我们的动作是什么,大可能说,哎呀,他调这个 api 还是调那个 api, 这样是怎么决定的?这个事是大模型来决定的, 我跟他说我要去完成一件什么事啊?就是现在老师要点名了,我要给唐雨霏去发短信,然后找他怎么做啊?大模型会把你生成出来,我们要调用什么 api, 实际去调用,然后啊发下短信当中短信内容是什么,他是全部都给你完成了的, 所以说这一块就是凭什么做到当中,他得具体啊,就是最少吧,他得具备这几个能力才行。然后呢,我们再说一说啊,就是这个 agent, 大家可能总有一个好奇点,就是这玩意吧,跟那个大模型之间的关系到底是啥呀?好像那时候这东西啊,与人之间的关系。 其实我觉得这样的啊,就是大模型是什么?大模型就是充当了一切,我就给大家说吧,就是他,是 啊,一切,我为啥说他是一切呢?就是相当于你这样,你说你看到了什么?你是不是得有个输入,其实你输入的是啥?你可能输入的是一些文本数据啊,输入的这些图像数据,甚至现在多模态嘛,你输入可以是语音数据, 你输入完之后,那谁知道你们这玩意啥东西啊?书里问问大模型哎,这东西是啥?你从这个图当中看到什么?你从这个文本信息当中你理解到了什么? 是不是你又得跟大模型去作业交互啊?所以我这句话我说第一句啊,就是踏实一切,那你想思考呢?思考时候说,哎,把把你感知到东西啊,总结成上下文,然后当做提示,也去问这个大模型啊,你先能不能思考出来什么东西?那动作呢?基于你的思考和你的目标,再去问大模型啊,你要执行的动作是什么? 其实你看你要得到你的动作是什么之后怎么执行动作,还是去将这个大魔镜再去执行你一个动作,其实说白了就是他就是一个实际执行者,你我总,我总是这么觉得,就是 agent 啊,是我们事先定义好了一个大的框架,就是一个基本的原则, 基本原则当中你为了完成这件事,你可能要分几步走,但是就是啊,有一句话叫什么将在外军令有所不受, 通过你的感知和你的思考和你的动作,你可以稍微的去偏离一点我这个行为,但是也不能偏偏的太离谱是不是?那他怎么能不,他怎么能偏的没那么离谱啊,我们说一切啊,都是我们会给他一些提示的,会给他一些指令的,我们最终的目的是什么?他在做每一件,他在感知的时候 不是说整个世界都让它感知着玩呢?带着我们的任务去感知,带着我们的要求和每一步的流程,你觉着什么重要的,你把它感知进来,就是这里边每一步啊。大家这么理解,就是你玩大魔音的时候是不是都要去写提示 这一块,每一步的时候都要把我们的一些要求当做提示传进去,这样感知的东西就是我要的思考的,也是我要的动作的,也是为了完成我这件事的。那其实与大模型的关系就是 a 阵他要不断的去调用这个大模型,你可以,你可以这么理解,就这个东西啊, 如果大家你们实际去玩的时候,你就会发现一件事,他是一个极其昂贵的一个过程,就是现在为什么说 a 阵这个东西啊?落地难, 我觉得落地难这个东西啊,主要原因就是什么?就是你的一个成本,如果说你不考虑你的一个成本,其实我觉着呃落地来说真就没有啥难度。因为现在你想一想我们这个大模型咱们是选什么? 就是一些 g 做模型,你说你选啊,三点五啊,三点五就是还行,四呢肯定是最好的,但是你说你选你自己本地的大模型,你就是你自己选模型,你也知道他你觉得能具备这些个能力吗?别说具备这个能力了,就一问一答,他整能整明白都不错了。 所以这玩意大家可以想,就 gp 四的 api key 它是有多贵的?你我我就举个例子吧,就是让我室友去帮我去啊,上一堂课,然后他要可以去跟很多交互。他交互的时候我们简单点说啊,如果是一个单智能体,就是他只是去做一些感知,做一些思考,做一些动作, 那可能这件事他是花不了多钱的啊,就你感觉可能就是我们钉过几次,但是我再给大家举个例子,一堂课可能有一百二十分钟,他每分钟都要思考,每分钟都要去感知,都要去产生动作,你觉着还便宜吗? 再比如说现在很少是一个单智能体,如果说是多智能体的,我这个班级有三十个学生,学生和学生之间他们可以交流上课,不是大家在这死的,就是端个书在这听着呢,我们要唠嗑的,要说说事的,老师要跟你们说话的, 你们这些智能体之间再去交互呢?交互的时候你们的感知,你们的思考还要融入到其他人当中,还要由人家感知到你的一些语句,还要形成成他的一个重新的思考。当一个多智能体环境来的时候, 你就知道这一些大模型为什么咱们要自研了。因为就一件事,我就觉得就是用不起的感觉实在是太贵了。你就干一件事 啊,就是 open i n a p i key 嘛,你每一个几美元大概就是少说啊,就是你用 agent 去完成件小事,逻辑上不是特别复杂的,比如说写一些代码啊, 或者是啊生成一些比较高质量的一些什么文案啊,然后一些你想要的东西,我估计每一个两三美元是下不来的,这又是一次调用,这又是一次啊,这一次当中这个 agent 可能已经跟你的大魔镜产生几千次交互了,然后每一次你想一想你的一个记忆,其实这一块我给大家,我想把这个记忆给它放到哪呢?记忆啊,我给大家放到这里边吧,就是这一块啊,大家这么去理解你每一步 上面啊,就是每一步都要得到记忆,啥意思呢?你这个,呃感知啊,不是说你这一步得到完这个东西,它就它就没了 你第一步的感知的东西和你后续就是咱们是有认知的过程,我离挺老远看到卡车过来了,我现在就不敢过马路了,不是说我离近了才看着他,是不是我感知这东西形成了一个记忆,你要把你所有东西不断往当中记忆当中去存, 那你可以想这么一件事,你的记忆要越存越多,越存越多,你的记忆越多,你需要思考的事也越多,你在执行动作的时候,你需要传进来的上下文就是你的一些啊提示,这个东西他也会越全的。所以就导致了一件事,你的输入啊,就是前面那个头衔特别多, 那这个东西就干变得特别贵啊,一个是你交互多,一个是你输入长,所以说就导致了一件事啊,这个 a 证的现在对我们来说呀,我真就觉着有点用不起的感觉,因为你看现在,呃一些开源的框架当中有什么说让你注册一个会员,然后每个月花个三十来块钱 就能让你去用所有的 a 证的解决事了吗?好像没有,是不是因为它的成本实在是太高了,这是目前来说我觉得解决不了的一件事啊。 张伟说了,就是他跟大模型关系什么?就是每一步,你的感知、你的思考、你的动作以及你的记忆怎么去更新,你怎么去啊?比如调一些 api, 你 怎么去做任何事,就这里边一切你要去做的东西其实都是大模型得到的。 我们更多觉着就是 a 帧的是我列好的一个框架,我列好的一个逻辑,你要做什么,然后你大概就是怎么去做大模型,就是执行你的一些细节啊,我具体每一步干什么,我具体看到什么东西,我具体什么东西怎么得到的,这就是说啊,我觉着他跟咱们大模型之间的关系是什, 刚才呢?咱们说了一下,就是一个叫智能体,是不是其实现在更多的啊?就是你做什么事吧?他其实已经不是一个智能体他能完成的东西了,因为你既然又 agent 肯定说这件事就是很麻烦啊。他不是说我一步用到位的,比如说我写一个代码, 写一个代码啊,就是他不是说写在一个代码文件里吧?屁,他生成一堆,你看现在你雕一些模型数,就写一个代码,生成一堆。但是我们说,呃,我让他写一个项目, 写一个项目的时候咱们是不得考虑考虑啊,这个项目当中啊,我要有哪些个文件,要实现具体哪些个功能, 以及在每一个功能当中具体该怎么实现,哎,以及我,我把这个代码写完了,你能不能别给我一些错的,你去跑一跑,跑的时候出现报错,我把这个报错也也问你啊,你这个报错能不能抵 bug? 一下子,你把这个报错改一改给他,实际实际要能执行出来咱们想要的一个结果。 那其实这件事大家想一想,一个智能体他能做到吗?其实我们觉着就智能体他是一个角色,我室友帮我去上课,他充当的是我室友的一个角色, 那在这里边他可能会遇到其他的智能体,他可能遇到一个我的老师,我的老师他也是个智能体。 那我们说两个智能体之间可以怎么样?他们之间可以去做一些交流的,就是他们是可以这这交流啊,其实含义又特别多了,他们可以互相分配任务,他们也可以在互相通过交流得到对方的一些记忆,得到对方的信息,从而更好的去执行我们接下来的一个指令。 所以说多智能体育学生就是啊,咱不用说这么复杂,我觉得就是一个多角色的一个故事。什么叫角色呢?一个软件公司有这个程序员,有产品经理,然后有这个架构师,每个角色要单独完成自己的一件事。注意这个东西其实是我觉得真正啊跟 a 诊断当中最关键的一个问题, 你要完成一件事,其实我们强调是一个标准化的流程,在这个标准化流程当中,你不可能说让一个 agent 它既带有这样的一个啊属性的信息。比如说我,我是比较懒的,我不喜欢上课,我就喜欢等别人把知识点喂到我嘴里,然后把饭把我带回来, 这是我的特色。然后我室友啊,他就是很热心的人,他特别勤快,他特别喜欢上课,你不能让这个 agent 他 是个,他是个双重人格吧?他一会扮演这个,一会扮演那个,所以说在多整体当中啊,就是我们这一块 是有多个角色的第一件事,每个角色当中其实都会有自己的一些属性,自己的自己的那个使命了,相当于他要去做什么,他是为了完成什么事的 程序员,比如说给他的使命,其实使命你不用理解,特别抽象,就是一个提示,程序员的使命就是啊,把这个代码 完整写出来,可读性要强,能满足啊,产满能满足什么?什么要求,然后尽可能写的完整,然后带有什么注视的产品经理呢?尽可能把每一个功能定义的清晰,然后把他按照客户的需求啊,分条分逻辑的总结出来。 就是每一个每一个角色啊,他都是他有,他有使命,就像是你写一个问大门的东西啊,就是现在你现在是个技术专家,你现在是个医疗专家,你是个什么东西啊?你现在要面对什么事?就每一个智能体啊,都会有这样一个角色, 然后呢,这些个角色之间啊,他们要干什么?他们之间我觉着就是啊,要产生很多的一个交互,交互是这种感觉,就是他们啊,嗯,大家可能说这个交互这个东西是不是我们自己预先设置好的呢?其实我觉着就是你要去真办事, 真做一些实际的事。就是啊,要设置好,要设置好啥意思?产品经理他就是跟程序员和架构师啊,以及你们客户之间产生一些交流, 然后这是产品经理他要去跟谁去做,他可能是先跟客户交流,然后再跟架构师交流,然后再跟程序员交流啊,这个产品经理他是有一个顺序的,我们自己设置好的顺序是什么?然后程序员呢?他不要跟客户去交流,他只跟产品经理去交流就好了。 所以说就是啊,我觉得这个东西啊,多智能体是得咱们自己设置好,但是这件事是不是一个必须的呢?也不是必须的,也可以让他们自己玩,就是你可以把这个智能体啊放,就是放进去之后你就不管了, 反正就是你觉得他要不要交互啊?让大模型自己去思考。比如说大模型思考的时候,我给他加上一个提示,通过你现在感知到的,你记到已有的信息,以及你面带着一个使命,你觉着接下来应该跟谁去做一些交互,跟谁去做一些讨论,能得到更多有价值的信息。 哎,你看我加上这样一个提示,他是不是就会在这智能体上去找,哎,跟我记忆当中,哎呀,我觉得谁好,我觉得谁合适,他可以自己去玩的。就现在比如说什么斯坦福 ai 小 镇啊,什么 ai 汤之类的,好多这些多智能体的东西,都是让他们自己去玩, 他们自己去玩的过程当中。其实,嗯,有一件事比较麻烦,就是他们需要通过大量的迭代,长时间才会形成一种问题的一个方案。 就相当于啊,就是比如说一个产品经理他不知道干什么,他是不是得去总结几次,他是不是去把这个,把这个游戏玩几遍才能擅长啊?但这个东西就是咋说呢?就价格是非常贵的,而且你这个 agent 每次都要圈他玩这么多事,那这个成本也太高了。所以说现在啊,这些个 我们使用的过程当中,我觉得多智能体啊,是达不到啊,就是让他们自己玩的一个水平的。虽然说有很多就例子给你演示能自己玩,但是演示是什么? 演示都是游戏,都是一些虚拟场景当中,他们去做一些交互,但是在一些实际任务当中, 我现在目前看到的就是失败的案例咱不说了,所有的成功的案例都是预先设置好的,而且要明确的是设置好每个智能企业做的是什么,他可以跟谁做交互,他只能完成哪些个事,他要做什么,不要做什么, 都要去设置好啊,这就是一个多智能体。其实这个事并不难,就是角色比较多了,这些角色之间他们可以互相共用一些信息,互相去传递一些信息啊这样一件事。 然后呢,我们还要说一说啊,就是现在我们要用这些 agent, 是 不是咱们得去准备一些跟框架相关的东西啊?那框架这个东西 该怎么去理解呢?其实啊,就是大家咱们自己做事的时候啊,就是更多的时候我们是用人家的现成的。那我给大家举个例子啊,就人家现成这些框架啊,比如说奥拓 gpt 啊,什么什么各种 gpts 之类的啊,现在框架 我跟大家这么说吧,就现在这个框架,我我先简单多啰嗦两句啊,就框架好像用的比较多,给我整体的感觉就是大同小异,就是都是你说他好吧, 反正这块儿缺点儿东西,你说那个好吧,那块儿缺点儿东西还真没有一个,就完全意义上我觉得非常好的,但是现在大家用的最多的就还是这个 auto gbt 或者是这个呃, mate 之类的,这些就 get up 的 star 数是比较比较多的,而且就是大家用起来相对来说也是比较容易的,后续我们也会给大家去讲啊, 然后再但是我给大家说一说感受,就是你不要觉得现在这些个开源项目这些框架哇,他就无敌了,他就是个 a 人,能解决的问题是很多的,即便现在啊,就是最强的,做最好这些框架,我跟大家说一句实话,就是他能解决问题非常局限,他能把这件事做出来的可能性非常低, 就是说 a 人这个东西他还在一个发展的状态当中,他还是持续的,就是自动化的完成个东西 大概率得到的结果是不那么尽如人意的,这一点我希望大家清楚。大家能说是不是因为陶老师你讲的不行,这玩意跟我讲也没关系,这东西就是现在啊,人家做着什么东西,我们没能力自己去开发 你的基作模型,也没能力去设计一些底层的架构,底层的工具去调用啊,就要用这些动作,然后怎么去处理这些记忆,这东西其实都不是我们去做的,我们是作为一个使用者,怎么在人家的框架基础上啊?比如说新创建一个角色,新创建一种动作,添加一个 api 调用方式, 我们是在人家基础上做一些增删改查的,但是现在说心里话没有一个框架我觉得真的是能满意的,真是能用起来的,无论是就是付费的也有啊,付费的那玩意 我用了,我选了几家,我本来想讲的,但是我不说哪不说哪些家了,就是用起来跟这个免费的,就是跟这个开源的,我觉着没啥太大的区别,所以说框架啊,嗯,咱们就这么说吧,对我们来说就是个学习, 理解他们任务当中的一个流程,熟悉他,哎,是怎么定义的,逻辑上怎么去做的,好让我们知道 agent 的 整体的框架,咱们从一个输入到我一个输出,他具体流程怎么走啊,咱们理解这些个事,我觉得暂时就足够了。为什么?因为我觉得工具这个东西啊, ai 这里面现在更新换代的非常非常快,你现在就是即便你把这个什么 auto, gbt 没改, gbt 你 熟练掌握了,可能用不了半年,一个新的框架又出来了,一个新的框架可能又是一个颠覆性的超越,又完全碾压了前面这些框架。 这些事是都有可能的,因为我每天都在看新闻,每天有都有同学问我老师新出的框架,我要学,新出的东西我要看, 我给我的感觉我都快麻木了,就是框架实在太多了,咱们去理解去用就行啊。但是我估计后续啊,肯定这玩意早晚都会被更新换代,早晚都会被替代掉的啊。然后 我们来说一说框架当中啊,他其实这些东西啊,他帮我们实现了什么,这些东西啊,就是无论你用哪个框架,咱们都少不了一个东西,就是你得有这个 key, 咱们都得有这个 key 才是可以的。什么叫做一个 key 呢?我给大家举个例子,就是我们要调一些基座模型,是不是啊?就是你要调基座模型,这都不用想了,一般情况下就是 g、 b、 d 四啊,这个是最好的,基本上现在所有的这些框架都是要不三点五,要不就是四,反正就是 token 的 价格有点区别 啊。那这边他可能说我换别的行不行,换别的还真不行,就是我我自己没尝试啊,但是我问了几个哥们,他们搞这些本地化的一些私有 a 证的啊,他们他们他们给我的反馈就是这件事真不行,你本地自己去研究,即便是在自己专业领域当中, 他的这些能力其实是本身具备的,你可以这么理解,就是我是让啊,这个大魔精做我专门的一个医疗领域,做专门的一个什么法律,什么金融领域啊,就是个领域,我这个数据都问给他了, 但是他还是做不好,为什么?因为感知、思考、动作还有记忆这些个能力,是在这个大模型训练的时候他的一些基础能力,而不是说他下游应用的一些能力。 他如果说你的模型都不具备这些个基础能力,你怎么去做微调,怎么去做下一个任务是都不行的。所以这条路我估计大家可以把这条心死了,不要想着我自己去训练一个私有化场景,然后我用这个 a 神怎么样的?我问过好多人,这条路是都行不通的,都是比较差的,所以说业界通用解决方案是什么?就是花钱, 最佳解决方案就是花钱,而且,而且咱们也说这个这个价格啊,这个价格你可想而知是非常非常昂贵的一件事, 但这些框架当中它都帮我们去做了什么呢?其实就是这里边啊,我觉得这些框架当中啊,它都帮我们实现这些东西,就是啊角色,然后交互,然后还有这个 api 调用。我觉得就这几点, 一个框架当中,比如说凹凸或者媒体 ppt 里边,它会给你预定一些角色啊,比如说你现在是一个程序员,你的角色是什么?你现在是一个医生,你的角色是什么?你要做什么事?根据你不同指令,它会给你写很多例子的啊,在这个例子当中,角色该怎么去定义 好?那就是交互,交互,就比如说你为了完成这件事啊,你应该跟谁做交互?程序员跟产品经理之间做交互,程序员啊,程序员就只跟他交互啊,产品经理跟谁交互,你的角色可以跟谁交互。然后最关键的就是我运用这框架啊,最大的一个核心,最大优势是什么?就是工具是现成的, 就比如这里边,现在所有的工具给我的感觉都是这样哇,都是一个,就像个百宝箱一样,就是反正啥 ip 都能用,我让他问天气也能,然后浏览网页就不用说了,用各种浏览器,浏览网页,用各种缩显器,他都能的。 所以说就用这些框架啊,是用人家给我们设计好的这些个 api。 这 api 有 多少种呢?嗯,咱不夸张的说啊,就上百种,肯定是打不住的。因为你比如说你要访问一个公众号, 访问一些微信上的接口,那这个微信,这个公众号,那 a p i 有 多少个了?海了去了,是不是你要你要再去查一些什么企业的信息啊?什么个人的信息,那这每个地方都有 a p i 这些框架,就帮我们写好了很多这样的例子,怎么去掉这 api? 说白了他再去执行这些个动作,就这里边啊,就是他把角色定义好了,然后角色教会定义好了,然后 api 调用给你了。那其实对我们来说就是现成的模板咱可以直接用了,但是更多的,其实我觉着啊,还是希望大家怎么样,就是要这样 熟悉流程,然后我们肯定要做自己的事,你做的事,你不一定是开软件公司的吧?你肯定是有你的一系列人员,然后你们这些人他们要做什么, 我们可以去模仿他们角色定义的方式,他们怎么交互的,以及人家这块涉及到这些 a p i。 那 那在我的任务当中我可能会涉及到哪些个 a p i 呢?就要把这些 a p i 的 一些调用方式,我们给它加进来。其实这些东西啊,我觉着你觉得这个框架当中啊,咱们在理解时候特别难吗? 我,我讲的课比较多,我讲算法、讲论文、讲项目、讲圆满,其实我都会觉着难度挺大的。但是这个框架吧, 他这个难度还真不大,因为就是整体逻辑是比较简单的,所有东西都是到调大模型生成的,他可能并没有太多跟算法、跟数学啊,跟概概念相关的东西,其实都是什么,都是流程, 第一步干什么,第二步干什么?第三步干什么啊?都是流程怎么调 api, 然后反正调 api 也是现成的,反正对我们来说,我,我就觉着啊,如果说我要用这些框架, 我无外乎就是对应好我的角色啊,然后我把我需要用的 api 给它加入进来,就相当于我可能不仅仅执行这些动作,我可能执行点特殊的动作啊,我要执行什么动作? 把这些整理好,其实它的流程我觉得来说是非常类似的,所有里边核心操作都是把啊,就是通过你的角色获取到你这个人基础的一些啊,就就基础的一些命令和基础的属性。 然后呢去啊,根据你的命令当做提示调大模型,然后调完 api 之后呢,把 api 返回结果啊交给大模型,然后生成一些记忆,然后再根据记忆再决定下一步怎么去走。这地方来说,我觉着就这几点吧,框架来说,嗯,就是特别多啊,这个这个到时候大家任选,你想要什么框架都行, 我给大家列出来,是我觉得 k 二 pro 当中死大叔比较高的,也是现在大家呼声比较高的,用的比较多的,我用了一下,我真觉着就是区别不是特别大,而且这东西安装起来比较简单。但是大家会发现一件事,就现在这些框架啊, 都是极简的,他不像是你几年前啊,你想跑个看人像不?哎,我天呐,几年前要跑个看人像不?你配个环境,你没个没个,两三天你配不出来,还得编一这整这贼麻烦。 但是现在呢,这里边啊,你的配置极简单,就是我估计用不了半个小时的一个时间,你就可以把它给它配置起来,只要你有这个 key, 你 就可以很快上手,很快去理解它的流程啊,它的任务是怎么做的啊?反正这个框架我觉得用起来都不难啊, a 阵当中都帮我们把这件事做了一个简化极简,你就可以把这个东西用起来, 给大家去分析了一下,就是我对 a 证的一些理解啊,还有这么长一段时间使用下来,整体的感觉更多的就是通过这些个开源项目和一些实际,再去做这些私有化部属于企业啊,跟他们去讨论交流得到的一些经验。 然后呢我们先来说一说啊,就是 a 证当中啊,什么是可以去做的,什么样的东西他是做不了的,我觉得这样的就是你的业务场景当中啊,如果说啊,你要解决的问题,这个问题他有一个标准化流程, 就比如说你让程序员啊,就是你呢,现在客户有个需求,我需要根据这个需求给他写一些代码啊,给他做一个游戏,给他做一个小程序,做一个界面, 其实这些其实是有一个完整的一个模板的,我们要做这件事怎么分析用户需求,每一步要去做什么,其实都是固定的一些思维逻辑,一旦这件事我们做到一种标准化的体系,其实 a 阵头我觉得是有能力帮我把这事做出来的啊。但是我们现在强调我跟大家说句实话,就是能做出来, 但是你不要指望这个东西能做的多好,不要现在去看别人去吹。这个 a 阵能解决很多事,我目前接触到的百分之九十都是失败的案例, 能成功的也是比较简单的,比较简易的,呆某的级别的还很难做到,说这个东西直接就商业化了,直接就是帮我们解决生活当中的一些实际的需求啊,以以现在啊,以今天这时间来看,还做不到这些东西啊,就更多的标准化体系, 他起码能把格式,能把我们要的东西啊,有那么一点像模像样的感觉输出出来。但是换句话来说, 如果说你现在的任务就是你自己都不知道是怎么该怎么去做啊?你再让他去做,你觉着你让这个 agent 他 自己去思考,自己去反思,自己总结去吧,你能做啥?你按照你的逻辑给我做出来 这件事,百分之百它是做不到的。你没有一个标准化的体系,你的任务当中没有一个清晰的定义,每哪一步该用什么样的 api, 哪一步它应该有什么样的角色。 如果说你没有一个清晰化的定义,其实这件事你是做不到的,那所以这里边啊,我给大家强调了一下,就是 a 人这东西啊,它绝对是 ai 的 一个未来,因为我们用 ai 的 目的是什么? 咱们做大模型的目的,其实现在来说不仅仅是要满足我们一问一答,更多的是我一问,他帮我去把这些个答案做一些汇总,他思考,他决定他做了些事之后,哎,把这个东西交给我,你就别让我再去参与到其中了。帮我做一个 ppt, 别让我告诉你 ppt 的 每一步怎么去做,你来根据我之前做过什么事,你来根据我的一些行为特点,根据我之前写的一些 ppt, 根据我这些要求自动的把这些做出来,别问我一句话,就根据我记忆当中去找。 但如果说这个东西是标准化流程,我觉得是能做的,但是反过来它是很难去解决的啊。哎,这这东西我觉得还是始于持续的一个发展,这东西其实这个词它并不是像是你们现在觉得它火了才提出来的, 很久之前啊,他就已经有这个词了。只不过说之前啊,那些个 gbt 啊,或者之前的决策 可能是靠一些人为的逻辑,显得不那么智能,但是也能把这做出来。现在呢,有了大模型的一个介入,我们可以把每一步优化的更好。最关键是什么?最关键的,其实我就是觉得这样一件事,大模型当中啊,他是帮我们多了一些思考。其实你说执行个动作, 我自己写一些 f s, f s 的 一些判断行不行,什么时候做什么,什么时候做什么,但这东西就很死,他能解决问题就很少。所以说大模型我觉着他是一定是有脑子的,有脑子的大模型能根据他在当前面临的一个问题,去反思我们要怎么去执行接下来的一个动作。 这个是我觉着整个 a 阵当中啊,比较核心的一个概念。但是现在啊,最大的一个难点是什么?最大难点其实我们是无能为力的,就像是一个基作的模型,他的思考能力越强, 他执行动作能力,他的感知能力越强,你整体 a 阵的就会越强。但是这些东西是我们无法去触及的,我们都是用现成的 key 来帮我们去完成的啊。好了,这是给大家做了整体 a 阵的总结啊,他是啊,长什么样子,能做什么东西。 接下来我想给大家再去说这样一件事,就是很多同学啊,咱们现有一些需求,就是我要去构建一些智能体,但是啊,大家觉着就是我这个水平吧,我写代码,我不想写,我也不是程序员啊,不想写代码, 我就想去了解 a 阵的,用 a 阵就行了,然后比如说我现在啊,就是我也不做这个商用,我就自己玩,自己能解决点事就行了,提高点工作效率也好,然后帮我去啊,干点私事也好, 然后第三个呢,就是啊,我可以花点小钱,但是啊,你就别整东西太麻烦,咱们先用起来呗,先用起来就行,这块我给大家推荐的就是这个 gps, 它是最简单最直接的,但是呢,你也得去花点钱, 然后大家说,哎,那有开源的不用,老师你给我推荐这个付费的干啥?那比如开源的这个什么凹凸啊,或者是这个什么 mate gpt 啊, 我咱咱们说,咱们说实话啊,就这东西他不也是调用人家的 key 吗?跟你的 gps 当中调用人家的啊,这个接口,这不是异曲同工之处吗?没有什么本质的区别吧? 但,但是呢,就是,呃,在这个凹凸啊,或者 m i g p 当中,你是自己要写代码啊,就是你要在代码上去实现一个功能啊,要调用调用什么 api, 然后要执行什么动作,然后有什么提示, 都是代码上就显着比较麻烦,没有那么活。但是在这个 gbt 字当中呢,它相当于是 gbt 的 一个应用商店,这里边啊,咱做事就非常非常简单了,而且呢还有很多现成的工具啊,是可以帮我们去用的。更关键的一件事, 这里边啊, o p i 的 全家桶我们是可以玩的多模块能力本身已经具备了,不用你再去额外做些开发了。所以啊,咱们后后面我会给大家讲这些框架的,怎么怎么怎么自己玩,然后他的流程怎么走啊,但是如果说大家咱们你就有点小的需求,想解决自己点事,这个 gps 我 觉着也是挺好的一个地方啊,我给大家举个例子, 比如说现在啊,现在啊,这块我这是打开了一些别人的啊,就是我一会给大家说咱们自己玩怎么用,其实非常非常简单, 比如现在,我现在打开了一个啊,这个 app 吧,或者叫做一个啊,别人写好的一个 a 阵,那我们就叫别人写好 a 阵就行了,他给他起个名字啊,就是啊,叫这个小红书写的专家。然后呢我接下来问他,就是啊,我说这个又就是我啊,我说问他帮我写一篇讲 a 阵的笔记,那你看他是不是帮我把标题列出来了,然后下面呢, 在这个任务当中,他说 a 阵的定义上吧, a 阵的特性, a 阵的一些应用,未来展望,然后结论他是不是有几大块啊? 那其中我们简单梳理梳理啊,就是他要完成这样一件事,他是不是说首先他要给这个 agent 定一个角色,那你是一个写作专家,你接下来要根据用户的输入啊,把它什么什么写完整啊,怎么样的啊?他就有一个提示,然后接下来 他还得有啊,就是要完成这件事,他得去调用什么,他得去调用一下子啊,比如说怎么生成一些比较好的标题,那标题当中有哪些子的模块子的一个逻辑,就相当于他是有顺序的,先生成标题,然后再根据标题和你的要求生成我们想要的一些内容 啊?这就是我们的一个基本逻辑,第一步要干什么?生成标题,第二步根据标题生成内容。其实这不就是最简单的一个 agent 吗?把一件事做一个拆解,然后把最终结果帮我们生成返回就可以了。那这一块呢?比如说 现在啊,呃,比如这块有叫,还有一个随便随便打开的啊,叫什么啊?这个什么 ai 车助手, ai 车助手东西啊,就是比如现在啊,我也我也,我也没看他具体是啥,我就让他说给我介绍一下,比如说沃尔沃叉七六零的详细配置,那下面是我把我们这些结构全拿出来了,那这些配置大家,大家帮我想一想,他是怎么升这个东西的? 他是不是得调用一些工具了?比如说,哎,他要分析一下这个叉 c 六零,他是不是得去找一找?哎呀,叉 c 六零,比如或或者说你问他最近新出的一款车,可能 gbt 里边都没有他这个训练数据,他是不是要到网上去找一找,去做一些搜索, 那这一块就形成什么?这一块就形成他一个动作,我为了完成这个任务,然后他经过一思考,这件事是我目前不具备的,那我要去执行什么动作?执行到互联网上去搜索,那可能他一搜索搜索到这么一千个网页都是讲这玩意的, 他是不是也辨别一下子哪些是广告,哪些是我不想看的网页?在这里边他说经过大脑一思考,我选出来前十篇我觉着最好的网页,然后那是不是还要把这十篇网页 做一些摘药,做一些总结,再根据这些总结,最后再穿越 gbt 啊,问你怎么样基于我找到这些资料,帮我生成该用户想要回答这个问题,再做这样一个结构化的一个输出啊?就这个大家发现反感就是 流程上是怎么样?是我觉得相对比较死的啊,相对比较死的感觉。然后这会还有什么,就是又打开工具啊,什么微信阅读,鬼才不知道干啥的,他就是说让你输入一个文章链接,就你我随便给他发个链接啊,他就帮我分析了这个文章标题是什么,然后文章标摘有什么,然后可以深入思考做哪些事 啊?其实这里边都是啊,你看我给他发个链接,你这他起码得把这个链接打开,是不是?是不具备一些联网的功能才能解决这些问题啊?都是去调一些工具帮我们解决这些事, 然后大家说那给我发短信,然后给我做什么东西,该怎么办呢?其实这件事啊,并不难啊,就是让让我们这 api 啊,就是让我们这个助手,或者说让我们这个 agent 他 具备一些能力。这个东西啊,咋说呢?就是你可以自己去调一些免费的 api 去做, 但是呢,如果说大家觉着就是像我说的,你用那个什么 mate 或者 autodgpt, 你 写这代码特别麻烦,这块现在啊,就是我看啊,一些个人用啊, 可以玩这个语句 ai, 它这里边相当于啥?就是帮我们把 api 做了一个整合,你看啊,比如说这块创建一个叫什么的个 ai 的, 你不用管是什么,你看我一点这个添加动作,这里面有多少种,就是随便给大家举个例子吧,比如说咱们这个什么企业通讯,什么 qq 邮箱,什么什么短信宝,这都干啥的, 哎,调用这个 api 就 给你发短信了,在这个 a 领当中能给你自动发短信,能给你自动发邮件,还能给你做一些这些所有的跟人家集成进来 api 相关的。我觉得这 api 这都不下几百个了吧,你想访问啥?想调用啥?是不都行啊? 但是吧,就天下是没有免费的午餐的,我给大家找这个叫什么语句 ai 啊?他就是总结的比较全啊,我觉得就是,反正我是这样,我喜欢花点小钱,然后你让我做起事来,别那么难。他这块你随便一点, 它这块都给你生成出来,比如说你要要要调这个钉钉应用干什么?比如要发发这个消息,发这个消息,然后这块你要注册账户啊,这块我给大家演示了,你们自己去注册账户,注册完账户之后呢,它就会啊,给你去生成一个 api, 你 就可以调用这 api, 然后你的 agent 它再去执行的时候,大家都说,哎,这个 gbt 它咋地?还能给我这个钉钉连上吗?就这一块它是有的啊,就在这里边我们点它自己创建这个 gpt, 创建 gpt 的 时候啊,就是 create 的 时候,你给自己写啊,你的要求是什么?你的描述是什么?你把你的要求描述写完之后,它右边就会生成出来啊,你的一个助手是长什么样子的? 比如说现在,就是啊,我就随便写啊,咱们先管,我随便写,你是做企业管理专家,尽可能压榨员工的工作时间, 时间,让他们更多的工作,还啊,然后就就就这么写吧。就是啊,我我我写个需求,你这个角色是什么就好说的啊,就是第一步我们希望这 agent 他 要完成一件什么样的工作, 那其实在这 cpts 当中啊,这块我写的比较少啊,这样这玩意你要写一堆啊,就是你是角色是什么,然后你每一步要去啊,做什么,你要写非常全面,这些市面上教程太多了啊,我就不给大家具体详细说这个事了,我主要给大家说说流程,然后这有 config, 这个 config 当中啊,是这样啊,就是我忘加一句话,就是下面用中文给我回答啊, config 当中这块它有, 各位抖友大家来看,这块它有个 create new action, 其实这些啊,就是你可以把你倒数 a p i 直接复制过来,就是这些语句, ai 当中啊,刚给大家演示这些动作,它都是有 a p i 的, 你可以把这 a p i 啊全部复制过来, 这样你的 gpt 就 具备这样一个能力,他就可以做各种各样事了,他也觉得我该调用啊,他也觉着现在这个员工问我点啥,我该给大家群发消息了,大家晚上别走过加班啊,那这一块他就会调你这 a p i 来去啊,在这里面实际的把点东西执行出来,数据分析的,各种查询的,这就不用说了啊,所以说 现在做这 agent 吧,我觉得都不难啊,就是不难的原因是什么?嗯,就是你兜里花点小钱,你想这个这个 open i 的 key 你, 你要买是不是?这是第一个事,第二个事呢,就是你调这些个 api 的 时候,咱们得用一些嗯,现成的现成的库吧,或者现成的 api 的 一个大权。 但这玩意儿吧,这咋说呢?就是你自己折腾也行,很多都免费的。但是这汇总的吧,人家就是收钱的啊。到时候大家你们最简单的方式就是你做出来一些小的 a 这样的东西,你就可以用这个 gps, 它是我觉得最快的一个方式啊,能帮你去解决这个问题的。

最近豆包手机火了以后,这个大家对这个 g u i agent 这个概念啊,一下提升了一个比较高的高度啊,今天我也来蹭一下热点啊,当然我们不讲这个在 g u i agent 在 手机上的,我们这个情况就不讲了啊,这个就豆包手机现在是标标杆了,由此联想到我们在电脑上怎么来,我们这个 pc 机上怎么来实现这个 g u i agent, 我 们来看看 啊,怎么来实践呢?那首先再讲讲什么是 g u i agent 啊? g u i agent 其实要讲明白它的话,其实可以先回到前面一个叫 r p a 技术, rpa 技术,其实它的全称叫 robotic process automation 啊,它其实就是在那个电脑上部署一个程序啊,模拟人一步一步的对电脑进行操作啊,然后达成你的目标啊,就说下载这里讲的电商发票还怎么的 啊,但当然现在有了人工智能技术以后,就是现在就出来这个 gia 的 两个主要的区别是什么呢?大家可以理解成原来这种 rpa 技术啊,它是一个规则驱动的幕 啊,他这个基于个编程的啊,但是一步一步怎么操作,他用编程给你写死啊,在哪个对话框里输入什么东西,点击什么东西,下载什么东西啊,他都会先按照规则来编好那个,一步步让他往下做,所以这个形象的比喻就像一个提现木偶一样啊, 但是问题就在于,哎,万一这个界面发生变化了啊,或者那个有时候甚至显示器的像素发生变化,他都会失败啊,有都会失败,但这个 g i 键不太一样啊,他是基于这个目标驱动的数字员工 啊,你也不需要给他编程啊,你只要告诉这个 g y agent 说你给我实现一个什么目标,就像这里讲的,给我去到哪里下载个电商发票,他自己可以根据屏幕上的内容来进行决策啊,来选什么东西,输入什么东西,然后这样的话就是就更加灵活。当然啊,所以对编程人的要求也比较低,你只要用自然语言给他下指令就可以了。 当然它的背后其实核心是一个多模态大模型啊。多模态大模型的话,叫什么来实现驱动这个 g u i agent 啊?所以多模态大模型的智能程度要求比较高,对吧?如果你这个多模态大模型不太好,那这个 g u i agent 表现肯定也不太好。 那当然这个两个技术其实不是说非此即彼,而不是说有了 g u i agent, 这个 r p a 在 电脑上这个就没用了,而不是这样,其实传统的 r p a 它会在和 ai 结合啊,和这个 g u i agent 的 结合, 它可能会处理一些非结构化的或者意外的情况,让这个 g u i a 智能来代替一些基于规则的明晰的情况。其实还是 r p a 速度会比较快,也比较稳定,毕竟能如物 place 的 尽量做如物 place 啊,不要去用大模型,因为大模型有时候也会产生幻觉包,包括结果稳,稳定性不好啊,但是一些意外情况,你原来如物 place 没有 cover 的 地方啊,这个可以用 ai 来代替啊,这个其实就是说 叫什么呃,两者目前来看还是要结合的,而不是完全一个 a i t 的 r p a 啊。当然,随着这个多模态模型能力越来越强啊,有可能将来就不需要这个 r p p a 了。但今天我试的这个实力,大家可以看到,其实这个电脑上的 g u i 键呢,可能还远远没有拿到能够完全取代 r p a 的 这个程度 啊。那今天有一个实力给大家分享啊,就这个实力分享是基于 github 上的一个,嗯,一个能够操纵 browser 的 一个 g u i a 键,他只能操作那个,那个叫什么浏览器啊?一般从浏览器上,因为很多系统交互都是通过浏览器来实现, 其他的的话,你可以通过 python 程序去跟你的 office word 呃,去做交流,对吧?生成 ppt 生成或者 excel, 也不需要用这个 gui 的 去去一步一步点,这个效率比较低啊。这个 pro user, 嗯,这个在 excel 上的评分也挺高的啊,评它其实就是是一个 有七万四千颗星星啊,这个在 excel 上也算评价比较高的一个应用。好吧,那接下来我们就把它下载下来,下载下来以后,然后我们实际在我们的环境里面跑一跑啊,看一看效果,给大家演示一下效果到底怎么样。 好,我们接下来就看一个运行的实力,我把这个开源的这个基于 browser 的 浏览器的 g u i agent 下载下来了啊,并且把它调通了啊。接下来我们就看看给他那个一个具体的任务,一个任务目标,看他是怎么去完成的啊。在这个 main 函数里面其实就加了一个 啊 agent 的 这个让他做的一个事情,做的事情就是我让他去懂车帝网站里面找名爵四车型的这个车友圈里最近五天的客户评论中的好评有哪些啊?让他帮我找一下。好吧,我就这个就是给他这个 task 啊,我们这里运行一下,这里跑运行一下。 那他开始找了啊,他这个后面就不是我在动了,他已经把那个谷歌浏览器打开了,并且找了懂车帝。嗯,他大家看到他打开那个懂车帝网站了, 打开懂车帝网站以后,你看他接下来准备做什么事情?我看一下啊。啊?他输了名爵四应该是速度稍微有点快啊。他输了名爵四了,看他接下来他去找哪里找啊? 他又打开了啊,名爵四的那个车友圈,他找到了,找到了车友圈里边,他开始找那个车友圈里边的这个动态评论,看他接下来会干什么事情。正常人的操作是慢慢慢慢往下移,我们看他是怎么操作的啊,是不是接下来知道去找这些评论。动态评论 可能是基于多模态的,这个理解速度还是有点慢的啊。找了口碑对吧? 找了口碑以后,看他接下来,哎,他知道了好评嘛。既然是好评,他接下来就去找了那个优点,看看他优点他是怎么找的,往下翻还是怎么的好。他往下翻了, 大家可以看到右边的那个,右边的那个滚动条,他再往下翻了一个。既然是好评嘛,我也不知道这个懂车帝里面有这个优点,他认为优点应该就是好评,看看他怎么怎么往下翻的 好了。到这里他好像就任务完成了,来看一看他的解锁结果啊, 那他最后的 result 就是 他把它放在终端里面了,当然以后如果要做成报告的话,可以通过拍摄把它直接导到 word 报告里。这里我们就直接简单看一下,他说名爵四,车友圈里面找了最近五天,十二月十五号到十二月二十号的四条好评优点 啊,什么乘风破浪的小猫啊,说什么对比吉普一啊,那这是第二条啊,在这里有风格服,什么车子外观就这个价位,我认为比较可以的,对吧?然后第三条,什么自由自在的百灵鸟, 什么真的很不错,对吧?性价比拉满,音响也很好,然后我们看看啊,第四条,第四条是执着的叶子,等会儿我们对比一下,打开那个懂车帝,直接直看一下,直接看一下, 搜索一下,你是车友圈, 好,他当时选的是懂车帝口,呃,懂车风口碑,对吧?我们也进去,并且他还蛮聪明的啊,他看到了这个最新发布,刚刚也勾了一下,我这个倒也没注意啊,我看看啊,这是第一条,我们对比一下。第一条是 和吉普 t 一 相比,对吧?新车里面有一点提车不到一个月,对吧?这个是第一条,看跟他输出的一样啊。第一条确实是,我们再看第二条,第二条他说有个什么这个车子的外观认为也可以的,是十二月十九号的,我们回到这个十二月十九号啊,这个车的外观也可以啊,你看看他也做了,做了那个叫什么摘录的,对吧?价位可以, 那我们再看看第三条,第三天十二月十九号,他真的很不错,很好开,性价比拉满音响啊,讲这个音响的事情推到这里,第三条我们看一下啊,第三条是真的很不错,对吧?就刚刚看到这个性价比拉满,音响也很好。哎,确实,他也都找到了啊。再看看第四条, 第四条十二月十九号已经开了两千多公里,什么落地七八万得车,颜值又高,动力又足,你看看这条有吧。啊,这个也是的,十二月十九号已经开了七八万公里啊,这个什么颜值又足,动力又足,跟我们刚刚那个一样的,我们再往下, 再往下。十九号他也有一条,但是这个他不是好评好像啊啊,这个这个所以他没放进去,再往下他十九号有的,对吧?动力好,操控性强,底盘硬稳。这个十月十九号,十二月十九号其实满足我们的要求的,但是他确实没有放进去,可能这个有点遗漏啊。 这个我看也是十二月十九号的,就是他确实叫什么。这条评论我看是好评还是差评啊?应该是好评,对吧?这个电车也比较经济实惠,这个比比较过了,差不多这个相应车型,他说最后还是选了名爵,对吧? 这个这个算中性评论啊。这个确实也不是很经典,也不是说是很好的,所以他确实也没放进去啊。这个也没放进去,十八号其实是满足要求。那目前看来就是说他还是漏了,漏了几条的,对吧?他这个十八号的也没放进去 啊,这个也是优秀的评论。其实这个都没放进去,这个实际测下来啊,就还是能就怎么说呢,就他的智能化程度还可以。那确实,这个基于大模型呢,他还是漏了一些漏了一些评论啊,他这里说是十二十五号到二十号,那其实他就选到十九号 的那四条,还确实有些遗漏,那毕竟基于大模型,不是基于规则的啊。但是整个测试来看,我感觉他还是比较聪明的,自己给了一个很粗的目标,他也能够达到这些 目的,能够基本找出四条。当然随着大模后面的大模多模态、大模型的改进,我相信还有后面的改进空间啊。今天做一个测试啊,就给大家分享一下这个实际的这个基于 browser 的 这个 g o i agent 到底是怎么使用的啊?同时看一下效果,目前看下来效果还行,但是要完全准确的情况可能还是有点难度的啊。

搞懂这三个字,你才算真正的懂 ai, r a g 与 a g、 e n t 和 m c p。 有 人说他们是 ai 的 三大神器,那他们到底是什么? 其实他们就像 ai 成长的三大天梯,从会查资料到会用工具,到他自主的进行决策和执行。 今天我们一条视频把他们给讲清楚。那么首先第一个给大家去介绍的呢,是对应的 reg, 那 么在讲 reg 之前呢?它其实叫做解锁增强生成, 他有也会有自己的名字哈,等下会去介绍。那在讲这个 red 之前,我们首先要来对大模型它本身的问题进行一个简单的了解, 就我们所用的大模型,它其实会存在一些缺陷问题,这个缺陷也是目前没有办法去解决的一些问题哈,那么这个缺陷问题会有什么呢?会有以下三个点,首先第一个是对应的幻觉现象,再就是更新缓慢的问题, 以及对专业领域的知识理解有限的问题。这三个点是目前使用的模型里面所存在的问题,那么我们先一个来看啊。首先第一个我们先来看幻觉是什么?幻觉其实比较好理解啊,就好比如说我们小时候这个没写作业去学校上学,对吧?你老师会问你为什么没写作业啊? 那么我们一般会想一些比较合理的回答,比如说我在路上扶老奶奶的时候,对吧?这个作业被老奶奶拿走了,或者说我这个这个被家里的狗把作业给撕掉了,对吧? 这种其实明显就是什么,就是我们所讲的正常的说谎,对吧?那么大模型其实也会存在这种说谎的现象,就比方说我们在问大模型问题的时候,比方林黛玉倒拔垂杨柳是红楼梦的哪个章节,那这个章节是明显没有的,或者是没有这个数据的,那么他会很理直气壮的告诉你啊,红楼梦 倒拔垂杨柳是出现在红楼梦里面的第二十七回,林黛玉因为什么预感?对未来的这个预感,对吧?于是倒拔了一只垂杨柳,那这个明显是跟我们的现实是不相符的,那这种现象呢?其实我们在大模型里面其实就叫幻觉,幻觉指的是什么呢?指的是 模型生成内容看似合理,但是与实际内容是完全不相符的,逻辑错误,或者说缺乏真实依据的一个现象。 好,那么我们模型为什么会存在这种幻觉现象呢?这种幻觉或者说我们所讲的说谎不应该是人所具备的一个思维吗?对吧?那么这个幻觉其实会取决于一般会有两种情况的造成啊。第一个呢,会有我们对应的训练数据噪声就是假数据,或说喂,或者说是我们的混乱数据是不对的数据。 我们在训练模型的时候,首先我们需要获取海量的数据,海量文本的数据,那么这些数据呢,是要提供给大模型去进行学习的, 那我们在获取这个数据的过程里面,我们不缺乏我们会包含一些假的数据,就本身这个数据就是有问题的,可能会存在一些偏见或者是虚构的数据,比方说一些网络谣言,或者说一些小说的情节模型,他可能会误将此视为真实的知识。 就有个人专门就写了一个红楼梦,里面就有一个林黛玉倒拔垂杨柳的这个章节,然后就有那这个模型在训练这个数据的时候,那我原来 这个红楼梦里面就有这个这样的一个桥段。比如说我们在训练数据的时候,它可能会存在一些噪声问题,就它数据是假数据或者是不对的数据。第二个就是我们概率优先的,而非值一,非真实性啊,概率优先,非真实性,那这个含义是什么?其实我们在用现在所有的模型里面,基基本上都用的是 transference, 或者说我们用的多头注意力机制 这个模型它的目标的生成,它生成数据的时候,它其实是为了是最符合上下文概率分布的一个文本,而并非去追求真实性。当缺乏明确的答案的时候,模型会更加倾向于用高频次或者说我们合理的这个句式来 填空白的一个游戏,它就是类似于做填词的游戏。那这个又是什么意思呢?其实我们在用目前的一个圈子中的架构,其实会有个什么问题?比方说我们在 举个很简的例子,比如说我在写个你,你后面会跟一个字,那么这个字我们会有个概率问题。我们百川老师我觉得你后面会跟一个什么字?一般会跟个好字,或者说后面可能会跟上一个,你是谁?你是,或者说你 今天怎这个怎么样?或者你今天吃饭了没有?或者说你今天真好看,可能也会跟一个金字,那么这个字当我这个大模型对这个知识不是特别了解的时候,或者说是我不确定他后面到底是一个在哪个章节,他可能就更多的是做一个填词。 就比方说出现好的概率是百分之百分之九十,那出现这个式的概率百分之八十, 对应这个经的概率是百分之七十,那么他就会把这个好写在后面,后面再根据你前面的词再怎么样,再去根据概率去写这些东西。比如说他会把这一个回答你的问题当做是一个填词游戏, 也是当这个模型里面他本身就是不清楚这个内容的时候,他就做的是一个填词,那这个也是我们模型本身所存在的一些缺陷啊。那么第二个问题是什么?当我们在使用对应的这个大模型的时候,他会存在一个叫做知识更新缓慢的一个问题,这个是目前所有的模型一定会存在的共有的问题, 以及没有办法去解决的问题啊。就比如说我们在提问的时候,你知道这个谷歌新推出的吉米尼的一个模型,他有几个版本,你们俩谁更厉害?然后他会告诉你,我最后的更新的支付是在二零二三年四月,谷歌并没有去推出名为这个吉米尼的一个大模型, 那意味着怎么样啊?那这个东西是干嘛?我们在训练模型的时候,它其实会有一个周期性,我训练一个模型,比方说百盛老师,我今天打算去开发一个模型, 那我截止今天是在七月份,七月份之后的数据我是肯定没有办法获取的。一般七月份比如说怎么样 出现的一些什么特殊的数据,那我肯定是没有办法喂给我的模型的,他一定会有个周期性的问题,所以这个问题也是我们现在考虑怎么去解决的。第三个就是大模型对于专业领域的知识其实是有限的,他在一些前期的领域里面,大模型可以去通过大量的数据去训练相对应的能力。 但是我们当涉及到更深层次那些专业的时候,我们有些模型就会出现幻觉的问题,就我们深层的问题偏离我们真正性那群深层的原因是什么?就我们在给模型训练数据的时候,可能会考虑对应的广度优先,什么叫广度优先?我尽可能让这个大模型学习更多的东西,而不是让他去深挖某一个领域,这个我们会存在 有,比方说有一些特殊的领域可能不太清楚,比方说一些医学领域,或者说一些比较复杂的领域,他可能就不是特别清楚。我们再来理解这个 red, 那么 reg 的 作用是干嘛? reg 的 引入它的初衷就是为了去增强大模型的一个实时性、实时性、时效性以及减少幻觉,引入专业知识,优化我们生成与回复, 那这个是我们的 reg 引发出来之后所希望达到的一个效果。好,那么再回过头来看 reg 它到底是来干嘛的? reg 的 概念它就叫做 对你的解锁增强生成,他们意思就是什么呢?通过解锁外部的数据去增强大模型生成的效果。比方说给大家举个例子,百川老师现在要大家去参与一场考试,要大家去参加一个考试,那参加考试 我在做考试的时候肯定会有什么,一定会有一些东西清楚的,我是不会的。那打比方说我参加这个考试的时候,我的脑子只储备了这么多知识, 比方说我现在考的是历史,我对历史可能只了解了百分之五十,那么问到一些其他的百分之五十的问题的时候,我可能就是瞎编,瞎编 也是我们所讲的幻觉,我瞎编乱写, ok, 那 么这个时候如果说我能在考试的时候带上一本专业的历史书,这个应该能免想到。比如说我们所讲的开卷考试, 那如果说我能够去在回答这个问题之前,我先翻书,在书上找到正确答案,我再来结合我自己的理解,我是不可以去把这个问题回答的相当的完美,那这个是 right, 其实就是 right, right 所做的事情干嘛能够去通过解锁外部的内容,这个内容是需要我们自己去准备的, 从而去增加。我们大模型在回答一些特殊问题的时候,别人说我问他今天我们公司的年假是有几天,那这个他是肯定不知道的, 那当我把我公司的员工手册让这个模型,哎,当我去问我公司有年假是多少天的时候,你去帮我,他会去到我们对应的数据里面去找到。原来百川的公司的年假是八十天,他现在就知道目前公司的年假是多少天。那这个题就是我们所讲的 red, red 的 作用就是在回答问题之前, 我先去外部的知识库里面去找到有相关的正确的回复,然后再给到对应的大模型, 大模型在拿到这个正确答案之后,它相当于我知道这个内容了,我可以更好地去回复你,那这个就是我们所讲的 reg。 接着我们还有两个关键词,一个叫做 agent, 还有一个是 m c p。 那 么什么是叫做 agent 呢?这个时候我们其实会思考一个问题啊,在之前我们其实用的都是一个什么大模型, 那么大模型他可以更多的什么?能够去理解我们用户的问题,并且能够去分析我们用户的问题,给你输出文字或者给出对应的代码,他更多的是什么?像是一个智者,有点类似于我们在高深,我们出家人他那种高深的感觉啊,他能够给出你一些 这个提议,给出你对应的建议,那这个会有什么问题?对于我们目前想使用对应大模型或者使用对应的 ai 来讲,它太局限了。我们是希望大模型能够干嘛?能做到帮我去解决工作上的一些事情,或者说能够去帮我去完成我的指令之前它更多是基于问答的一个效果。 那有没有个什么东西能够去让我们对内大模型能够基于问答的同时,并且能帮我去做事情?就打比方说我现在想干嘛?我想要去上海旅游,我肯定要有一些规划,比方说我要买车票,或者说我要怎么样?我希望我的 ai 能够帮助我做什么?首先帮我去规划 当天的一个行程,比方说在上海你一天要怎么玩规划的行程,并且让他能够去帮我去,那我规划行程是不是要有天气?那么大模型这个 ai 就 帮我去查询当天的天气,并且告诉我 安排好要穿的衣服,衣服,我去上海是不是还需要买票?我希望这个 ai 并且能够去帮我进行买票的操作,买票来回的机票什么的, 那我希望我的 ai 是 能够做那这样的效果的,那这个东西单单利用于大模型来讲,它是没有办法去达到的,它只能对你进行一个问答的操作,那这个效果有点类似于什么。我们应该都看过一个钢铁侠里面会有个叫贾维斯,对不对?贾维斯就它能够去帮我们去做, 通过这个有智慧的大脑之后能够去帮我做一些事情。那如果说我在现在的 ai 应用开发里面想做成这个事情,可以用什么叫做 agent, 也把叫智能体。在之前我们的大模型它只有脑子,我能够去跟你对话,或者能给你输出对你的内容,那么有了 agent 之后,就类似于我给这个脑子 加了一双手脚,那么这个手脚就能够去操作工具,那么这个 agent 它到底做了什么事情?在我们的 ai 里面, ai agent 首先它会去规划,会去拆解任务的复杂度,那么这个拆解任务什么意思呢?你会给 ai 提出指令,就比方说我想去上海旅游,我明天 需要准备什么,并且帮我把车票买好。首先 agent 会通过 ai 去帮我把任务规划出来,比方说查询天气,定酒店,安排行程,安排对应的车票什么的,都帮我们去安排好,那这个其实大模型是可以去做的, 就基于我们大模型本身是可以做的,那我想让他动手,我让他去帮我买车票,帮我去订酒店,帮我去选对应的衣服什么的。如果说想动手,那我们就可以通过 agent 来做。 agent 相当于做我们的一个手脚,它能够去操作我们其他的一些工具,这个其实是我们对应的 agent。 agent 说白了 让大模型长出手,能够去操作一些其他工具,让它有实际的操作权,能够让我们更好地去使用它,使用对应的 ai, 好,那这个甲维斯奇就是我们最完最理想的一个状态,就是我想让这个 ai 实现这个状态,但目前来说我们 agent 能够操作的工具也可以,但是它还是有限,没有办法像那么智能,那这个就是我们对应的 agent。 除了 agent 以外,还有个东西叫做 mcp。 mcp 什么?我们又提到 agent, 它其实是用来操作工具的,对不对?是用来操作工具,那么操作工具其实分为两种,第一种就是我们自己写的工具,自己封装的工具,就比如说我们可以通过对应的当称, 或者说我们一些什么其他的 ai 的 应用开发框架,可以自己去封装一些框架,你的这个工具信息提供给对应的 agent 去进行调用。还有一种比方说我想去操作一些软件, 那我想操作什么软件?我刚刚讲的我想去上海旅游,那我是不是要去操作携程,操作这个幺幺二三零六,去给我进行买票,对不对?那这些如果说我想的这些工具,这些软件能够去具备让我 a 证的操作的能力的话,那么这些软件就需要去开发出一个 对应的工具版本,需要开出一个支持支持 agent 调用的工具版本。因为我们现在这个工具,比方说你用的集成幺三零六这些,它都是不能够让这个 agent 去进行调用的,因为我没有给他对应的接口,那如果说我想去调用怎么办?我是不是要重新开发, 需要重新开发这个软件,重新开发这个软件,我并且要支持 agent 的 调用,那么它需要遵循 一个设计的协议,你按照什么协议,按照什么规则开发,才能去让我 agent 进行调用?所以说 mcp 它其实并不是一个什么特殊的东西,它其实是一个协议。 mcp 协议就是我们在之后,如果说这些软件什么的想提供给 agent 进行调用,那我需要去按照 mcp 的 协议进行开发 出来的工具就能提供给 agent 进行调用,那么这个就是我们三个名词的邮件进行开发出来的工具,就能增强我们对应的内容的回复。 agent 让我们的大模型长出手,能够去操作工具。那么 m c p 呢?它其实更多的是我们要操作第三方的这些软件,那么这些软件必须要开发一个具备 a 帧的开发的一个版本, a 帧的调用的版本,那这个版本的开发过程里面,它需要用到一个叫做 m c p 的 协议, 遵循这个协议我才能提供给 agent 进行调用,那这个就是三个名词,它们三个的关系什么?我们在之后其实更多的是对应的大模型,一个是大模型,一个是对应的 agent, 还有一个是对应的 mcp, 那 么它们三者的关系呢?首先 agent 它更多像是一个 管理的,其实我们还会有个 agent 管理的模块,那么 agent 它是负责去接收我们用户的任务, 比方说我接受用户的一个指令,接收到之后会通过对应的大模型进行分析,我要分析对应的用户的意图,比方说我想去上海,那么首先 agent 会询问,让这个大模型帮我把这个意图分析出来,然后根据 大模型给我分析了用户的意图之后再选择。我在 agent 里面会有很多的工具,比方说有支持 m c p 的 版本,比方说我要去上海,那你需要给我买车票,那么它会通过 m c p 的 版本的,这个版本我打比方版本的 幺二三零六,我只打比方,现在幺二三零六是肯定没有这样的版本的,那么 agent 就 会去调用这个工具去给我进行买票, 买了票之后再进行告诉我们对应的用户,我当前这功能已经执行完了,你的票已经帮你买在第几点钟的,你需要怎么办?整几点钟去出发进行乘坐当前的这个飞机,那这个就是我们三者的一个关系啊,一个是对应的大模型,一个是 agent, 还有一个是 m c p, 那 么还有一个就是我们对应的 flag, 那 么这个 flag 到底充当是一个什么角色呢?它其实也是也可以是 agent 所提供的一些工具,因为说白了这个 flag 它就是用来增强我们大模型的回复的,它其实也可以充当成一个工具,能够在我们对应的询问问题的时候,比方说我想去询问 iphone 十六的价格,或者说我想询问这个 公司内部的一些数据公司的,我当前还有几天年假,那你肯定要访问当前是否有年假,我当前如果说这个数据库里面,就我自己存的知识库里面去问,就我需要通过 log 外挂的知识库,就关于我公司的一些数据 问到了之后在我去帮我进行请假,调用一些工具 reg, 它其实说白了它其实也可以充当是一个工具,搜索完之后 有对应的数据内容输出,然后再提供给大模型,那这个其实也是,这就是这三者的关系,以及说这三者分别是用来干嘛的? reg agent 以及 mcp。 经过这一个小结的内容,应该大家都是对这个三个关键词有一定的了解,那么具体怎么去做,中间其实是比较复杂的, 所以我们在之后如果说对当前这一块感兴趣,大家可以多去钻研,多去研究,目前的 ai 发展是有无限可能的,你们想法有多大胆,那么得到的效果也会有多大胆?