老规矩啊,先看视频 这个啊,看这个, 再看这个 这个啊, 这个九宫格呢?他不是很稳定啊,九宫格大家可以看一下啊,就是这个东西你到底要怎么玩啊? 九宫格这个图可能不太行啊,应该是一个十六比九的他才能会更精准的去按照这个格式来做啊。我这边就是一直被那个安全审查查的我烦了啊, 一直一直提示这个安全审查,我估计是因为这个第二个镜头里面有钞票的这个东西啊,一一直给我提这个烦死了,然后我生成了好几次,然后我这今天呢给大家讲一下这个智能到底怎么用啊? 嗯,先看问题啊,这个后最后再讲怎么打开这个网站啊?就是说我给了你一个地址,然后你打开,呃,是需要魔法的啊,需要魔法。 因为呢,这个这个这个项目呢,不止在一个国外的免费的服务器上面去,而且呢我整个项目是没有收益的,所以说,呃,这个 魔法呢,我是不会给大家提供的,而且 a p i k 大家也需要自己去弄,就好比我这个车借给你开,但是这个油你得自己加,好吧,这个油从哪弄的啊? open 官网或者是谷歌的官网,或者是这两个第三方平台,或者是你有其他的,你可以告诉我更便宜的, 好吧,然后我就把这个更便宜的接进来,因为这个地方要接进来,要重新修改代码,还挺麻烦的,所以说你尽量的话,嗯,看你能不能比这些平台更便宜好吧。 呃,这个是这个,这个魔法你自己想办法啊,我没法给你提供。呃,这个 api k 你 也需要自己弄啊? 第二个问题啊,如何绑定这个角色 id 啊?那个苏瑞尔,这是个常识。我觉得这应该是个常识啊,就是说苏瑞尔对绑定角色的要求 啊,必须是一个带有音频的角色视频。那问题来了,有个朋友问我说这个音频是说话呢还是背景音乐呢?那我, 呃,请大家帮我想一下这个问题,到底是苏然二,如果说我要绑一个有背景音乐的角色有什么用呢?对吧?我,哎,我,这个我不知道该怎么跟你解释啊, 哎。还有还有一个说,就是说我本地那个怎么使用啊?这个可能是我上一期讲的那个有问题啊,就说我是个这个地方直接导入,导入进来已经有的。已经有的是什么意思呢?就是说我已经上传过了, 我已经上传过了,那个搜索二已经保存在搜索二的网网站上了,然后他返回给了我一个 id, 这种的是我已经 已经有了这个意思,你懂我什么意思吧?就是说这个已经是上传过一次了,不是说你自己拿本地的图片往这一放,然后传到这个智能体里面就直接能用 啊?没有这个说法,你必须得上传一次,你得让 solo 二知道你这个角色是个什么形象,他说话是什么声音,他才会给你去做一致性的。这个视频能明白吗? 哎呀我的天呐,资产库的角色卡可以直接使用,呃,这个就涉及一个问题吧,还是刚才说的那个问题啊?就是资产库啊,我,这,我从这呢,我生成了。我不是,呃,那个剧本嘛,生成了一堆这种。呃,图片, 这是提示词,自动提取了那个小说里面的文案的角色的形象的提示词。 我在这地方输入什么什么风格,什么二次元风格,对吧?二次元风格,然后是全全 身三式图,对吧?那你就出来一张这个图,对吧?这个是我用那那不丹丹的那个绘图实验室做的,我本身就有一个这种形象啊,这是我自己的,然后我让他生成三式图,然后他就生成了这个三式图,对吧? 拿到了这个三式图呢?怎么用啊?这个就是说这个就是资产库里面的那个图,拿到了资产库里面图怎么用啊?那你还你还是得去上传到所软里面去才能用, 你可以自己去做一个带视带音频的一个三秒视频从这上传。可以啊,这是最最通用的方式,他们也认这个,然后第二个呢?是,哎,第二个你看多容易麻,容易麻。 第二个我给会的人介介绍一下,就是你之前用这个角色生生成过视频,就或者是纹身图生成过视频,他会返回这个视频,他会返回给你一个 id, 你 发现了没有? 他会返回给你一个 s 开头的 id, 你 把这个 id 复制过来贴到这,然后角色明明明,然后点他就可以获取到这个视频里面的角色了,这个属于高级功能,你们初学者不要用。好吧, 这个,这个是我给大家说的,你自己既不想去做那个带三秒音频的视频,又想要去上上传角色,那你就用这个方式 点击从资产库里面获取,把这个图片获取过来,然后上传音频,点击合成设置,他就会自动的帮你合成出一个三秒的带音频的视频啊,满足于这个格式,然后你点上传,等着他那个上传,结果上传完了之后,他就会返回给你一个带 id 的, 一定是带 id 的 角色,这样你就可以在这个生产队列的这里面,这里面去啊,这里面,对吧? 我,我先给绑定一下啊,同步一下,那,那你就在这里面把这个角色给它绑定上, 可以了,这个一定是带着 id 的, 你看了没有?后边有一个艾特,然后有一有一两串两串数字啊,这样你应用绑定,你点开你看一下,你点开你看一下,对吧?角色名会被替换成这个 id, 加一个空格的形式啊, 就这样这样来用啊,大家还不明白吗?这就是整个绑定角色的流程啊, 还有一个问题就是说我多写作,对吧?我是一个团队啊,我这些视频啊,我这些素材啊,应该怎么办呢?倒倒给其他人用怎么办啊?就是我这个角色库,对吧?我都已经上传了啊,还有什么视觉设计,这边我都弄好了,我该怎么办啊? 在这第第一个页面,剧本工作流页面右上角有一个 excel, 有 一个 gip, 你 导出就行了,如果导出 gip 导出不了,你就导 gip。 好 吧,导出完了之后呢?你发给其他人这个 excel, 我 就拿 excel 举例啊, 你点这个上传 excel, 好 选择你这个 excel 啊, 然后点这个音导入,他就会,他就会把你这些所有的角色库啊,包括任务历史啊, 什么视觉设计啊,绘图实验室这些,呃,这些图啊,他都会给你带回来啊,甚至包括于你这个剧本分镜,他都给你带进来,好吧。嗯,就是这个 好,下一步啊。首尾针。首尾针怎么用啊?首尾针是我正在开发的一个模式啊,首尾针模式在这呢,这个是只能用季梦或者是?呃对,现在暂时只能用季梦,而且这个我后续加这个暂时先先先放了,你们先别用啊。这个 其实其实就是这样,你一个手针,一个尾针,一个提示词,点上之后他就出出视频了。好吧,他只是没那么智能,现在还没那么智能。这个我再弄一弄啊,暂时先放了 九宫格啊九宫格,刚才刚开始给大家展示的那个九宫格那个安全审查,我这我真是服了,他一直给我安全审查,你看到没有? 哎。提示词怎么写啊这个提示词怎么写啊?给大家看一下那个提示词啊。呃,这个需要大家去探索一下啊探索一下这件九宫格的视视频,然后下面是九宫格的这个提示词啊,这个可能 这个是不同的啊。我我测试了好几种啊,你看还有这种形式的。嗯这个你需要自己去测试啊,还有这种形式的,对吧?节省格式,节省格式的可能稍微差点,你自己看这个效果啊,还有这个 对吧?你自己去实验啊,我这边有好多格式九宫格的,你可能需要去剪出来一些视频,你看这些这些格式对吧?这些格式你自己去选啊,点这个时间按钮,左边这边有好多种格式让你去选啊, 然后这边你就需要自己去实验了。那个到底是哪种提示词的格式好,对吧?你就可以直接用啊,也可以在评论区给我反一下哪个格式好对吧? 嗯,行,那就先这样,这题应该没啥问题了吧?应该没了吧。啊对对对,那你给大家抄一遍这个具体的流程啊,第一步呢是选择生成那个剧本啊,选择模式啊,模式就是 模式就是这个啊,创意模式是自由发挥,严格模式是遵从剧本,极限模式就是一本书,他提取是个十五秒的视频打斗会优化打斗的镜头 啊。剧本模式就是你自己已经有剧本了,你想让他给你批改一下对吧?这边是有批改作业的啊,就是说他会给你批就是你,你这个哪有漏洞哪有小问题他会给你指出来啊,然后给你修批改模式, 不批改他就原文原原原那个剧本他就给你放到这,然后你自自己去生成鸟本就得了好吧。 嗯,这个是对,你可以自己去实验这个不同的模式,然后生成角色形象。呃,这边 这边这个生成完了呢,你会你会能从这看到这个生成的所有角色啊,他会自动的帮你把那个角色放到这里面去。 素颜洲或者是什么沈同学对吧。啊?你点生成这个地方你自己写啊,写个什么全身啊,什么三式图啊,什么什么风格啊你自己写啊,我更建议的是你直接生成出真人然后拿一张图 啊是怎么说呢?就是拿一张真人图,然后拿一张风格图让图一转为图二的风格,这样是更稳定的啊,比你在这写什么什么什么风格?新海城风格什么那种的要要好用的多啊。 这这个他香蕉乱出你知道吗?他出的风格不是很好,还还不如你自己拿一张参考图,然后让真人转成这个参考图的风格,这种事更更快。不用不懂得抽卡的方式啊,抽两次总比你这咔咔咔一直抽好。好吧,你自己看你自己选择啊,反正这个 看你自己了。然后就是绑定角色生成视频啊。绑定角色有有可以绑,可以不绑,九宫格的就不用绑。呃,那个 常规的你就得自己绑啊。绑绑。上面我讲了好多了,你自己去绑吧。上上视频也是啊,都是上几期我都讲了,我就不带讲了。好吧,先这样,拜拜。
粉丝1507获赞4946

给大家看一个东西啊, 还是没人回复我,连话费都提醒我该停机了,算了。 呃,这个就是,呃,今天我做的一个东西啊,给大家看一下,这个就是 siri 二做的,然后用的这个智能体全程没有动脑子一键完成的啊。 这个智能体上一期我讲了就是说怎么用上一期我讲了这个期我就简单的讲啊,新加的东西啊,新加东西。那这样的话我可我生成完剧本了之后呢?然后我在这点开这个,呃, 资产视觉设计里边有个绘图实验室啊,我需要把我的生产的这些首尾针所有的图,对吧?我这首尾针然后导进来,导进来了之后呢?我这个地方选一个,嗯, 呃,看一下啊,这个地方呢就选一个香蕉 pro, 对 吧?然后分辨率你可以自己设置啊,我这边设置四 k, 然后十六比九,然后这个是所有的提示词啊,然后在这上面加一行就是,呃,借借,呃图中人物 生成,呃九宫格,呃分镜头,哎,就可以了。然后你再点这个参考图,参考图的话你可以直接选你这个库里的人物啊,就这样点保存点发送,就他就生成了这个, 它就生成了这个啊,你拿到了这张图之后呢?呃,在 sora 生成这啊, sora 生成这自定义模式,自定义模式啊,然后把这个, 呃啊从这啊,从这,然后点这个时间按钮,然后选择收尾帧模式,呃,不是是,是剧本模式。好吧,剧本模式,你就把这所有的这个信息呢复制过来,复制过来啊,给大家看一下啊, 复制过来,在这个自定义模式把它贴贴到这。嗯,其实你稍微整理一下这个地方,稍微整理一下啊,这个就把这些格式什么乱七八糟的先去掉啊。这个是我今天刚实验的啊,我给大家演示嘛, 就这个地方呢,你选择这这张图片,我这这个地方就不选了,它加载可能有点慢啊,就你点一下,这我点一下吧,卡就卡吧, 然后他就会把那个图加载到这,你等一会啊,他这个图有点大,这十六兆的图。嗯,他等他这里面上上完了之后呢,哎,你看这就上,上完了, 这边有一个 date, 然后有个 base 六十四的格式,然后这个图,然后你点生成视频啊,什么都不。呃,这个这个格式改一下,改成十六比九啊,啊,这时间改成十五秒啊,点击生成视频,他就会自动生成,然后他就在这了,这就是生成的结果。 就是我开头给你看的那个段视频啊,全程没有任何动脑的地方,全程无动脑啊, 就出来了这一一个分镜,这个算是这一个镜头吧,对吧?这这是一章节里面的,呃,一个分镜,对吧?然后你你可以继续吗?对吧?后面的你可以继续。 这个就是整个流程啊,把这个啊还。我这边还加了一个首尾针啊,首尾针模式是用钓的季梦跟那个什么其他的那种模式啊,这个都是可以的,在这 然后首针尾针,对吧?选择你的资产历史都是可以的啊,这边后续会陆续的把这个首尾针也做上,你如果,嗯, 这个就是我今天也主要讲的挺好的啊,大家想要来的话,可以来我粉丝群加一下,然后来试试玩一下啊。这个这边可以看到啊,除了 jason 格式的,还有 story 啊, list, 还有 block, 还有设为帧,对吧?这些不同的格式你可以自己去玩一玩,好吧?嗯,就先这样。

本视频耗时三百二十五小时,制作时长三千六百秒,今天手把手带你们吃透 ai 智能体,从基础原理到实战应用,教你从零构建模型,用对用好, 在校本研博、求职、算法岗相关领域的交叉学者迅速码住。这节课咱们来给大家好好分析一下,什么是 agent, 以及为什么他在 ai 领域当中能这么火,他跟大摩羯之间关系是什么,他的定义是什么?以及他能帮我们解决哪些个问题,这些事啊,我们会一并给大家逐一进行梳理, 然后大家发现了,其实我并没有打开一个 ppt, 就是 我不想啊,拿一些概念给大家去背这个课文,更多的是我想给大家去总结一些啊,就是我用 agent 的 一些感受和我觉得它到底是什么, 我需要大家这么去理解。就是对于 agent 这个东西啊,它并没有一个就是本质的概念,或者说它并没有一个完美的一个定义啊,它就是什么,它究竟解决什么事, 他是比较活的一个概念,就像是你眼中的一个机器人啊,你希望他给你做什么事,和我眼中机器人他怎么解决问题的流程 其实是可以不同的,我们每个人眼中 a 人的其实也可以是完全不一样的,他相对来说啊,就是比较 diy 啊,或者来说你怎么去设计,他,其实完全可以根据你的想法我们来进行设计,咱们没必要有一个统一的概念,统一的一个什么算法,流程这些东西。 哈喽,我们来说说是什么?首先呢,我给大家举个例子,就是这个词啊,翻译过来叫什么?翻译过来就是一般情况下,我们就把它叫做一个代理,或者叫做一个智能体。举个例子吧,就比如说我今天啊,就今天我上课去,然后我说我早上起不来了, 我跟我室友说,哎,我说哥们,你替我上课去吧。然后那我哥们说,行啊,那我就替你上课去呗。那大家想一想他,我给他交代了一个命令,我说你替我上课去, 但是这件事啊,我不给他拆底,拆底他怎么能替我上课?是不是说,首先,哎,我们说啊,他上课的时候,老师在这点名点我名了,他是不是替我举手,替我喊个到这第一个事, 第二个事呢,老师说要交作业,他顺便是不是也能帮我把作业给他交上去,甚至呢,老师讲了些东西,哎,我没去啊,他再好好心点,他说帮我把笔记也记下来了,然后回来让我去看一看,然后到考试的时候,我好能去考, 然后,甚至啊,这也只是基本的概念,甚至这个智能体啊,哎,我说他还去推理一下,他一寻思,这个下课点啊,一看快到中午了,我没来上课,肯定在床上睡觉呢,要来寝室打游戏呢,那我肯定中午也不想上食堂, 他在智能点,他顺便去食堂,他自己吃完饭再把饭给我打回来。你说这件事是不是就完美给我们解决了? 所以说什么是个 agent 呢?将来这样一件事,就是我现在有一个需求,我有一个命令,但是我这个需求的命令不是说啊,你瞬间或者说是一步就能到位的,我们需要把这件事给它拆分成很多个流程 啊,然后每一个流程上你还要单独的去完成,所以说我们来想一想啊,就是代理,就像说的啊,你替我做什么东西,你帮我完成一下什么事啊?就像我们跟这边说话似的啊?咱比较友好,请干这个,请干那个。但是呢 agent 他 跟大模型之间可能有点区别。 大模型就比如说啊,我问他一个东西,他给我回答一个东西,我再问他一件事,他再给我回答一件事,那其实智能体就不是这种感觉。我们说这个 agent 啊,他相当于 第一步啊,他要去理解你的命令,理解完你的命令之后呢?他要把这个东西啊干什么?根据他的一个理解再做一些拆分。什么叫拆分?要完成你这件事,我第一步要干什么?我第二步要干什么?我第三步要干什么?哎,那我问问大家啊,就拆分这件事 他是怎么做到的?他,哎,你觉着我给他个命令,他怎么能把这个命令做一些拆分啊?其实他可能说,哎呦, agent 这东西是不是长大脑了,长脑子了,然后他比较聪明,他就能真正理解这个东西。其实我跟大家说啊,就是在 agent 当中啊, 一切都是用这些大模型去做的。比如说我先给他一个命令,我说你去帮我上课去, 那接下来他就啊问这个大模型,他说,哎,我现在啊想帮唐雨迪上课,那唐雨迪的一些状态是什么啊?他的一些基本情况是什么啊?当做一个提示,以及呢?我的命令也是我的提示。好,那你把这件事帮我去拆分成几个子命令,好大模型啊,自动就把你拆分了,你要给他干什么?要干这个干那个干那个, 哎,是不是他就可以去知道我们每一步要去做什么了?所以这一块啊,就是我们不要觉着 a 点这个东西,他是能脱离大模型之外的一种新鲜的事物,其实不是的,他相当于呢是更好的去利用我们这个大模型。换句话来说, 他每一步都在去利用我们这个大模型。那比如说我们先给他拆分成了一些子任务,那拆分成了一些子任务之后,接下来那大家可能说,哎呀,比如上课的时候, 他在想,我现在老师在上课,那我需要去做点啥呢?又把这件事问问这个大魔球,大魔球说先上课呢,一会老师要点到点,到时候你帮他举个手啊,就是拆解的第一个任务怎么去回答, 那第二任务呢?他说啊,老师现在在上课,然后你顺便啊再去帮他把笔记记一记。那第三件事呢啊,他说你在回来路上再去买一买点吃的,其实这些啊,我们说可以叫做一些决策,或者是一些动作,这些个决策一般情况下都说谁完成的? 其实 a 阵这个东西啊,本质来说就是他在跟我们的大模型做大量的一个交互,他每去做一个决策,他每去办任何的一件事,都要问这个大模型,哎,我该怎么去做啊?我当前的环境是什么?我当前收到的命令是什么? 那我怎么去完成呢?其实一切东西啊,都是由我们大模型每一步再去告诉他。所以就是我希望大家这么去理解啊,就是咱们所谓的一个智能体,就是 先理解你命令,再把这个东西不断做拆分,那每一步靠什么执行?还是靠的这些个大模型去执行你当前所要的一些结果? 所以我希望大家就这么去理解这个所谓的智能体啊,就是啊,让我们的啊,一个 agent 去模仿你人类的一个行为,你可能怎么去做的,那我们就也这么去做了啊,这是我们基本的一个概念。 然后呢,我想再跟大家说几件事,就是,哎,你觉着啊,这个 agent 他 再去做的时候,为什么说他能去理解你每一步的一个操作?哎?他怎么知道你的命令是什么?他该怎么决定你这个东西该怎么做拆分呢? 其实我估计有很多同学会有这样的想法,就是我们这个 agent 足够强大,他已经能够真的去理解你们人类的每一个行为。 其实我们说截止到目前为止还做不到这样一个水平,为什么?因为大模型可能会出现很多的幻觉,他可能是比较发赞,而且是不稳定的一件事。那其实更多的时候 我们这个 agent 是 靠什么来进行执行的?靠我们的规则。什么叫我们的规则呢?就是上课这件事。哦,说你替我上课这件事,我说给他写死了, 就要帮我签到,就要帮我做这个,就要帮我做那个,更多的情况下,我们希望他是帮我代理完成一件事,顺利的完美的完成。那是不是我要给他设计一些游戏的规则? 所以说更多的时候我们的规则是通过什么来设置的?其实说白了就是啊,我们去写一些提示, 那这个提示怎么来呢?你帮汤雨迪去上课,他平时不愿意上课,但是考试喜欢复习笔记。 好,我的个人信息也可以作为提示交给这个大模型。那大模型再把啊,你现在要去替别人上课,以及这个人的需求是什么?他的一些心理行为是什么?以及当前你的目的是什么? 把这些所有东西一起作为一个提示再交给这个大模型,最终啊我们是得到。哎,他在这一步上要去做一件什么事? 所以我一直觉着就现在很多的 a 站,包括框架也好,项目也好,包括大家听到的很多的演讲,很多的故事,我觉得都把这个东西给他说的过于就是神话般的感觉了,好像是说他能去自己的去分析自己的去啊,不断的去理解这些事。 其实目前我看到一些成功的案例都是我们自己好设自己设计好的规则。啥意思?你先让他去写代码,那写代码逻辑是什么?先有产品经理,先有 pm 啊,去制定好每一步的流程是什么,然后每一步的流程上再交给对应的程序员,程序员再去把每一步的功能给他做实现。 是不是做一件事我们讲究就是有一个完整的流程,他还不具备自我的一些思维,就是很难具备自我的一些思维啊。其实不是说不能具备,因为大模型在每一步当中他都可以去思考啊,我们需要去做什么,但是如果说你不涉及规则, 你的结果是很差的,这就是目前 a 阵是什么? 他就是要帮我们去完成一件事,但是完成这件事他会去做一些拆分啊,把它拆分成很多个子的任务,再对每个子的任务,结合你的游戏规则,也就是你有哪些个提示,传进去之后,一起调用大模型来去得到我们想要的一个输出结果。 本期视频给大家整理了 ai 系统入门的保姆级路线图,从基础到进阶,全程无废话,不管你是零基础小白,学生党,还是想转行抓住 ai 风口的朋友,都能直接套用,也可以根据这份路线定制专属学习规划,少走百分之九十的弯路, 只要你是我的粉丝,留言学习就能解锁完整干货。那这个 agent 他 既然能帮我完成这些个事儿, 那他都得具备哪些个能力呢?其实我们觉着就是理解这个东西啊,其实并不难啊,代理我们去做一系列任务,跟大魔镜不断交互,得到结果,哎,那你说他凭什么?凭什么能做到这些 来,咱们说这个事凭什么能做到?为什么他能帮我们解决,哎,我让他去交代这些事啊,其实这一块呢,我们要说几个词,其实我说这些词啊,还不是特别的,就是覆盖全面了,因为整个 agent 在 你的业务当中,他到底有什么能力,完全是你赋予给他的。 第一个我们来说一说啊,比如说大家最常见的叫做一个感知的能力,可能大家觉得这个词挺抽象的,什么叫感知呢? 就比如说,哎,我说我让我那个室友帮我去啊,上课的时候他到课堂了,发现咱们班一共就来了俩人,老师点名的时候一共就俩人,三个人喊到了, 他是不是就觉得这件事可能做不到了?那是不是我们这个大模型他要实时的去得到一些环境的一些反馈呢, 环境的反馈大家可以当做,比如说我们这个智能体,它可以跟环境做一些交互,它可以观察一些信息,一些文本上的信息,一些语音上的信息,一些图像上的信息,这些呢都可以作为它这个感知。那其实感知对我们来说是什么?说的特别抽象,其实就是说 把能用到的转化成提示,啥意思?你在接下来要去帮别人喊到的时候,我们再加上个提示,现在教室里边就两个人,一会老师点到的时候,我该怎么样帮助唐雨迪把喊到这件事完成, 把这件事,哎,问大模型大明哥说了,一会老师要喊到,要要要点名,你们班级人太少了,你就别帮我点到了,要不然老师发现了不许整死他呀。 所以第一个啊,就是我们说得有感知这玩意,他不是一个死的,他得及时去发现个问题是按照我们的流程,但是你说啊,我们按照流程我们自己写一些拍准脚本去执行,完全可以的。用 a 针的就说明他会比较智能,智能体,智能体, 你连感知都没有,是不是就不行了呀?但是我们说任务当中啊,就是不仅仅是有感知,还有什么? 其实你看这一块我写了一些思考,就是我先给大家写这概念啊,其实不是什么标准上的一个定义,就是我理解的就是在我看来 a 阵有什么东西啊,就是大家你们在其他地方去看,可能每个人讲解我觉得是不同的啊,都是凭着自己的感觉,因为这东西还没有 绝对权威的定义啊,都是我们使用者,我们从用下来,从我们这些这段时间吧,做完之后咱们整体的感受啊,第二就是个思考,什么叫思考呢? 我看到的东西可能会很多,我去啊,教室里边我看到了有好多人,我看到老师在讲课,我看到了好多好多好多好多东西,其实这些对我来说什么我看到的东西感知啊,我是可以得到一些记忆的,我给大家再再再补充一个,就相当于这一步啊,我们是要得到, 得到咱们很多记忆,这些记忆啊,都是啊,一会我们可以来进行参考的。那什么时候做参考?其实说白了啊,在这个任务当中就是我们去思考的时候,你要去考虑这样一件事,我们观察这么多东西,是不是都是表面现象, 人很多啊?然后啊,有男有女的,然后老师写了一篇文章,然后老师讲完了一堂课, 其实这些都是我们叫做基本上啊,就是表面层面上看到的东西,但是这些东西我能对大模型产生特别有价值的信息吗?可能性有点杂,也可能性有点多,也可能你的上下文传不进来这么多的提示。 那思考呢?其实说白了就是我们要去总结你看到的感知到的东西,其实这个任务当中啊,说白了你现在要把这些感知当做你的上下文啊,我看到了这么多东西,我再去问这个大魔小, 你能不能帮我把这些事总结成几个关键点,或者说结合我的任务标,我看到了这些东西,这些东西会怎么影响我呢?问问大魔小 大母婴,我告诉你,老师都写这么多了,你快帮他把笔记记一记吧,快帮他去写点知识点吧,考试了他啥也不会,怎么办啊? 所以说思考啊,是要把我们的感知上的东西,或者说把你记忆里边有的东西再做一个升华,你记忆里边都是些基本面上的东西,那个东西太简单了,那我们需要去让智能体有点思维哈,就说点高端点,有点思维,把这个东西重新的再去总结一下, 总结完了之后再去做什么?一般情况下我们叫做一个 action, 或者叫做一个动作,什么叫做一个动作呢?就是说白了啊,我们现在说,哎呀,这个智能体他现在要去啊,记笔记,他现在要去啊,做这个,做那个,那这些事是怎么去做的呀? 我给大家举个例子,比如说我现在啊,就大家翻一翻,你问这个大模型啊,我问他一些问题的时候,他是不是会有一些插件?我问他天气的时候,他会访问一些天气的 a p i。 我 问他日期的时候,他访问一些日期的事,然后问他今年今天的新鲜事,他可能上网去帮我做一些搜索。 那其实这个任务当中动作呀,我觉得就是整个 agent 当中比较核心的一件事了,你这个 agent 他 有多智能,关键来说就是看你的动作设计有多丰富。 大家可能说这件事一个 agent 他 越智能,不应该是他脑子越好使吗?但是我跟大家说啊,就脑子这件事 是你改变不了的,我们现在所有大模型都是用 gpt 四去做的,用别的说几句话就是不好使, 就是你,你一说你考虑,你考虑你本地大模型,你整什么观展大模型就不好使,那玩意就感知也不行,思考也不行,那就不用说了,那为啥说我们自己可以设计动作呢?动作其实我说白了就一一个事,我给大家解释一下,说白就是调 api, 你 让他干什么?就让他调自己 api, 哎,我说就老师点名的时候啊,你给我发个短信,然后我赶紧跑,比如说快马加鞭能赶上, 那这回你想发短信这件事怎么操作?大家都说,哎呀,大模型还真的能给我发个短信吗?当然可以了,这又不是什么难事, 我们说咱们可不可以调用咱们的一些短信的一些 api, 这些东西无论是 gpt 还是一些现成的工具,早就给你接入进去了,给我发个短信,给我发个邮件,这玩意并不是一件什么难事吧?然后再比如说呢,就是我给大家举个例子啊,就调用 api 当中,比如说啊,就是你可以上网, 然后你可以查查各种东西吧,这些都是啥?这些呢?其实都是我们可以定义好的,咱们要去完成哪些个事。好了,这就是一些动作,但是动作其实不仅仅啊,是我们要调用一些 api, 我 再给大家举个例子,这是我们一块去说的啊,就是比如说我这个智能体, 他现在观察到思考这些东西之后,他不确定这事该怎么做,想一想你,咱们,你咋说你们人类了?想一想咱们人类,我不确定什么事,我问问潘小冉,我说咋办啊?我说啥事,我别自己自己定主意,到时候啊,吃不了兜着走,咱们一起参谋参谋哈,你也帮我参谋点事。是不可以问问别的智能题, 其实我给他,我给他举例就可以去啊,就是问别的智能题,其实也是可以的一件事啊,你怎么认为这个东西你的一些回答也要当做我的记忆,我在思考的时候,我在其实就是思考决定的动作要做什么,我在思考的时候也可以去考虑你别的智能题给了我什么什么样的一个信息。 所以说啊,就是这里边啊,我给大家先提了这么三点,其实我觉得这三点还是比较简单的,我们需要什么,就首先呢就最基本,最基本你得有感知,但是不仅要感知,还有思考,思考完之后 你就要去确定一下子我们的动作是什么,大可能说,哎呀,他调这个 api 还是调那个 api, 这样是怎么决定的?这个事是大模型来决定的, 我跟他说我要去完成一件什么事啊?就是现在老师要点名了,我要给唐雨霏去发短信,然后找他怎么做啊?大模型会把你生成出来,我们要调用什么 api, 实际去调用,然后啊发下短信当中短信内容是什么,他是全部都给你完成了的, 所以说这一块就是凭什么做到当中,他得具体啊,就是最少吧,他得具备这几个能力才行。然后呢,我们再说一说啊,就是这个 agent, 大家可能总有一个好奇点,就是这玩意吧,跟那个大模型之间的关系到底是啥呀?好像那时候这东西啊,与人之间的关系。 其实我觉得这样的啊,就是大模型是什么?大模型就是充当了一切,我就给大家说吧,就是他,是 啊,一切,我为啥说他是一切呢?就是相当于你这样,你说你看到了什么?你是不是得有个输入,其实你输入的是啥?你可能输入的是一些文本数据啊,输入的这些图像数据,甚至现在多模态嘛,你输入可以是语音数据, 你输入完之后,那谁知道你们这玩意啥东西啊?书里问问大模型哎,这东西是啥?你从这个图当中看到什么?你从这个文本信息当中你理解到了什么? 是不是你又得跟大模型去作业交互啊?所以我这句话我说第一句啊,就是踏实一切,那你想思考呢?思考时候说,哎,把把你感知到东西啊,总结成上下文,然后当做提示,也去问这个大模型啊,你先能不能思考出来什么东西?那动作呢?基于你的思考和你的目标,再去问大模型啊,你要执行的动作是什么? 其实你看你要得到你的动作是什么之后怎么执行动作,还是去将这个大魔镜再去执行你一个动作,其实说白了就是他就是一个实际执行者,你我总,我总是这么觉得,就是 agent 啊,是我们事先定义好了一个大的框架,就是一个基本的原则, 基本原则当中你为了完成这件事,你可能要分几步走,但是就是啊,有一句话叫什么将在外军令有所不受, 通过你的感知和你的思考和你的动作,你可以稍微的去偏离一点我这个行为,但是也不能偏偏的太离谱是不是?那他怎么能不,他怎么能偏的没那么离谱啊,我们说一切啊,都是我们会给他一些提示的,会给他一些指令的,我们最终的目的是什么?他在做每一件,他在感知的时候 不是说整个世界都让它感知着玩呢?带着我们的任务去感知,带着我们的要求和每一步的流程,你觉着什么重要的,你把它感知进来,就是这里边每一步啊。大家这么理解,就是你玩大魔音的时候是不是都要去写提示 这一块,每一步的时候都要把我们的一些要求当做提示传进去,这样感知的东西就是我要的思考的,也是我要的动作的,也是为了完成我这件事的。那其实与大模型的关系就是 a 阵他要不断的去调用这个大模型,你可以,你可以这么理解,就这个东西啊, 如果大家你们实际去玩的时候,你就会发现一件事,他是一个极其昂贵的一个过程,就是现在为什么说 a 阵这个东西啊?落地难, 我觉得落地难这个东西啊,主要原因就是什么?就是你的一个成本,如果说你不考虑你的一个成本,其实我觉着呃落地来说真就没有啥难度。因为现在你想一想我们这个大模型咱们是选什么? 就是一些 g 做模型,你说你选啊,三点五啊,三点五就是还行,四呢肯定是最好的,但是你说你选你自己本地的大模型,你就是你自己选模型,你也知道他你觉得能具备这些个能力吗?别说具备这个能力了,就一问一答,他整能整明白都不错了。 所以这玩意大家可以想,就 gp 四的 api key 它是有多贵的?你我我就举个例子吧,就是让我室友去帮我去啊,上一堂课,然后他要可以去跟很多交互。他交互的时候我们简单点说啊,如果是一个单智能体,就是他只是去做一些感知,做一些思考,做一些动作, 那可能这件事他是花不了多钱的啊,就你感觉可能就是我们钉过几次,但是我再给大家举个例子,一堂课可能有一百二十分钟,他每分钟都要思考,每分钟都要去感知,都要去产生动作,你觉着还便宜吗? 再比如说现在很少是一个单智能体,如果说是多智能体的,我这个班级有三十个学生,学生和学生之间他们可以交流上课,不是大家在这死的,就是端个书在这听着呢,我们要唠嗑的,要说说事的,老师要跟你们说话的, 你们这些智能体之间再去交互呢?交互的时候你们的感知,你们的思考还要融入到其他人当中,还要由人家感知到你的一些语句,还要形成成他的一个重新的思考。当一个多智能体环境来的时候, 你就知道这一些大模型为什么咱们要自研了。因为就一件事,我就觉得就是用不起的感觉实在是太贵了。你就干一件事 啊,就是 open i n a p i key 嘛,你每一个几美元大概就是少说啊,就是你用 agent 去完成件小事,逻辑上不是特别复杂的,比如说写一些代码啊, 或者是啊生成一些比较高质量的一些什么文案啊,然后一些你想要的东西,我估计每一个两三美元是下不来的,这又是一次调用,这又是一次啊,这一次当中这个 agent 可能已经跟你的大魔镜产生几千次交互了,然后每一次你想一想你的一个记忆,其实这一块我给大家,我想把这个记忆给它放到哪呢?记忆啊,我给大家放到这里边吧,就是这一块啊,大家这么去理解你每一步 上面啊,就是每一步都要得到记忆,啥意思呢?你这个,呃感知啊,不是说你这一步得到完这个东西,它就它就没了 你第一步的感知的东西和你后续就是咱们是有认知的过程,我离挺老远看到卡车过来了,我现在就不敢过马路了,不是说我离近了才看着他,是不是我感知这东西形成了一个记忆,你要把你所有东西不断往当中记忆当中去存, 那你可以想这么一件事,你的记忆要越存越多,越存越多,你的记忆越多,你需要思考的事也越多,你在执行动作的时候,你需要传进来的上下文就是你的一些啊提示,这个东西他也会越全的。所以就导致了一件事,你的输入啊,就是前面那个头衔特别多, 那这个东西就干变得特别贵啊,一个是你交互多,一个是你输入长,所以说就导致了一件事啊,这个 a 证的现在对我们来说呀,我真就觉着有点用不起的感觉,因为你看现在,呃一些开源的框架当中有什么说让你注册一个会员,然后每个月花个三十来块钱 就能让你去用所有的 a 证的解决事了吗?好像没有,是不是因为它的成本实在是太高了,这是目前来说我觉得解决不了的一件事啊。 张伟说了,就是他跟大模型关系什么?就是每一步,你的感知、你的思考、你的动作以及你的记忆怎么去更新,你怎么去啊?比如调一些 api, 你 怎么去做任何事,就这里边一切你要去做的东西其实都是大模型得到的。 我们更多觉着就是 a 帧的是我列好的一个框架,我列好的一个逻辑,你要做什么,然后你大概就是怎么去做大模型,就是执行你的一些细节啊,我具体每一步干什么,我具体看到什么东西,我具体什么东西怎么得到的,这就是说啊,我觉着他跟咱们大模型之间的关系是什, 刚才呢?咱们说了一下,就是一个叫智能体,是不是其实现在更多的啊?就是你做什么事吧?他其实已经不是一个智能体他能完成的东西了,因为你既然又 agent 肯定说这件事就是很麻烦啊。他不是说我一步用到位的,比如说我写一个代码, 写一个代码啊,就是他不是说写在一个代码文件里吧?屁,他生成一堆,你看现在你雕一些模型数,就写一个代码,生成一堆。但是我们说,呃,我让他写一个项目, 写一个项目的时候咱们是不得考虑考虑啊,这个项目当中啊,我要有哪些个文件,要实现具体哪些个功能, 以及在每一个功能当中具体该怎么实现,哎,以及我,我把这个代码写完了,你能不能别给我一些错的,你去跑一跑,跑的时候出现报错,我把这个报错也也问你啊,你这个报错能不能抵 bug? 一下子,你把这个报错改一改给他,实际实际要能执行出来咱们想要的一个结果。 那其实这件事大家想一想,一个智能体他能做到吗?其实我们觉着就智能体他是一个角色,我室友帮我去上课,他充当的是我室友的一个角色, 那在这里边他可能会遇到其他的智能体,他可能遇到一个我的老师,我的老师他也是个智能体。 那我们说两个智能体之间可以怎么样?他们之间可以去做一些交流的,就是他们是可以这这交流啊,其实含义又特别多了,他们可以互相分配任务,他们也可以在互相通过交流得到对方的一些记忆,得到对方的信息,从而更好的去执行我们接下来的一个指令。 所以说多智能体育学生就是啊,咱不用说这么复杂,我觉得就是一个多角色的一个故事。什么叫角色呢?一个软件公司有这个程序员,有产品经理,然后有这个架构师,每个角色要单独完成自己的一件事。注意这个东西其实是我觉得真正啊跟 a 诊断当中最关键的一个问题, 你要完成一件事,其实我们强调是一个标准化的流程,在这个标准化流程当中,你不可能说让一个 agent 它既带有这样的一个啊属性的信息。比如说我,我是比较懒的,我不喜欢上课,我就喜欢等别人把知识点喂到我嘴里,然后把饭把我带回来, 这是我的特色。然后我室友啊,他就是很热心的人,他特别勤快,他特别喜欢上课,你不能让这个 agent 他 是个,他是个双重人格吧?他一会扮演这个,一会扮演那个,所以说在多整体当中啊,就是我们这一块 是有多个角色的第一件事,每个角色当中其实都会有自己的一些属性,自己的自己的那个使命了,相当于他要去做什么,他是为了完成什么事的 程序员,比如说给他的使命,其实使命你不用理解,特别抽象,就是一个提示,程序员的使命就是啊,把这个代码 完整写出来,可读性要强,能满足啊,产满能满足什么?什么要求,然后尽可能写的完整,然后带有什么注视的产品经理呢?尽可能把每一个功能定义的清晰,然后把他按照客户的需求啊,分条分逻辑的总结出来。 就是每一个每一个角色啊,他都是他有,他有使命,就像是你写一个问大门的东西啊,就是现在你现在是个技术专家,你现在是个医疗专家,你是个什么东西啊?你现在要面对什么事?就每一个智能体啊,都会有这样一个角色, 然后呢,这些个角色之间啊,他们要干什么?他们之间我觉着就是啊,要产生很多的一个交互,交互是这种感觉,就是他们啊,嗯,大家可能说这个交互这个东西是不是我们自己预先设置好的呢?其实我觉着就是你要去真办事, 真做一些实际的事。就是啊,要设置好,要设置好啥意思?产品经理他就是跟程序员和架构师啊,以及你们客户之间产生一些交流, 然后这是产品经理他要去跟谁去做,他可能是先跟客户交流,然后再跟架构师交流,然后再跟程序员交流啊,这个产品经理他是有一个顺序的,我们自己设置好的顺序是什么?然后程序员呢?他不要跟客户去交流,他只跟产品经理去交流就好了。 所以说就是啊,我觉得这个东西啊,多智能体是得咱们自己设置好,但是这件事是不是一个必须的呢?也不是必须的,也可以让他们自己玩,就是你可以把这个智能体啊放,就是放进去之后你就不管了, 反正就是你觉得他要不要交互啊?让大模型自己去思考。比如说大模型思考的时候,我给他加上一个提示,通过你现在感知到的,你记到已有的信息,以及你面带着一个使命,你觉着接下来应该跟谁去做一些交互,跟谁去做一些讨论,能得到更多有价值的信息。 哎,你看我加上这样一个提示,他是不是就会在这智能体上去找,哎,跟我记忆当中,哎呀,我觉得谁好,我觉得谁合适,他可以自己去玩的。就现在比如说什么斯坦福 ai 小 镇啊,什么 ai 汤之类的,好多这些多智能体的东西,都是让他们自己去玩, 他们自己去玩的过程当中。其实,嗯,有一件事比较麻烦,就是他们需要通过大量的迭代,长时间才会形成一种问题的一个方案。 就相当于啊,就是比如说一个产品经理他不知道干什么,他是不是得去总结几次,他是不是去把这个,把这个游戏玩几遍才能擅长啊?但这个东西就是咋说呢?就价格是非常贵的,而且你这个 agent 每次都要圈他玩这么多事,那这个成本也太高了。所以说现在啊,这些个 我们使用的过程当中,我觉得多智能体啊,是达不到啊,就是让他们自己玩的一个水平的。虽然说有很多就例子给你演示能自己玩,但是演示是什么? 演示都是游戏,都是一些虚拟场景当中,他们去做一些交互,但是在一些实际任务当中, 我现在目前看到的就是失败的案例咱不说了,所有的成功的案例都是预先设置好的,而且要明确的是设置好每个智能企业做的是什么,他可以跟谁做交互,他只能完成哪些个事,他要做什么,不要做什么, 都要去设置好啊,这就是一个多智能体。其实这个事并不难,就是角色比较多了,这些角色之间他们可以互相共用一些信息,互相去传递一些信息啊这样一件事。 然后呢,我们还要说一说啊,就是现在我们要用这些 agent, 是 不是咱们得去准备一些跟框架相关的东西啊?那框架这个东西 该怎么去理解呢?其实啊,就是大家咱们自己做事的时候啊,就是更多的时候我们是用人家的现成的。那我给大家举个例子啊,就人家现成这些框架啊,比如说奥拓 gpt 啊,什么什么各种 gpts 之类的啊,现在框架 我跟大家这么说吧,就现在这个框架,我我先简单多啰嗦两句啊,就框架好像用的比较多,给我整体的感觉就是大同小异,就是都是你说他好吧, 反正这块儿缺点儿东西,你说那个好吧,那块儿缺点儿东西还真没有一个,就完全意义上我觉得非常好的,但是现在大家用的最多的就还是这个 auto gbt 或者是这个呃, mate 之类的,这些就 get up 的 star 数是比较比较多的,而且就是大家用起来相对来说也是比较容易的,后续我们也会给大家去讲啊, 然后再但是我给大家说一说感受,就是你不要觉得现在这些个开源项目这些框架哇,他就无敌了,他就是个 a 人,能解决的问题是很多的,即便现在啊,就是最强的,做最好这些框架,我跟大家说一句实话,就是他能解决问题非常局限,他能把这件事做出来的可能性非常低, 就是说 a 人这个东西他还在一个发展的状态当中,他还是持续的,就是自动化的完成个东西 大概率得到的结果是不那么尽如人意的,这一点我希望大家清楚。大家能说是不是因为陶老师你讲的不行,这玩意跟我讲也没关系,这东西就是现在啊,人家做着什么东西,我们没能力自己去开发 你的基作模型,也没能力去设计一些底层的架构,底层的工具去调用啊,就要用这些动作,然后怎么去处理这些记忆,这东西其实都不是我们去做的,我们是作为一个使用者,怎么在人家的框架基础上啊?比如说新创建一个角色,新创建一种动作,添加一个 api 调用方式, 我们是在人家基础上做一些增删改查的,但是现在说心里话没有一个框架我觉得真的是能满意的,真是能用起来的,无论是就是付费的也有啊,付费的那玩意 我用了,我选了几家,我本来想讲的,但是我不说哪不说哪些家了,就是用起来跟这个免费的,就是跟这个开源的,我觉着没啥太大的区别,所以说框架啊,嗯,咱们就这么说吧,对我们来说就是个学习, 理解他们任务当中的一个流程,熟悉他,哎,是怎么定义的,逻辑上怎么去做的,好让我们知道 agent 的 整体的框架,咱们从一个输入到我一个输出,他具体流程怎么走啊,咱们理解这些个事,我觉得暂时就足够了。为什么?因为我觉得工具这个东西啊, ai 这里面现在更新换代的非常非常快,你现在就是即便你把这个什么 auto, gbt 没改, gbt 你 熟练掌握了,可能用不了半年,一个新的框架又出来了,一个新的框架可能又是一个颠覆性的超越,又完全碾压了前面这些框架。 这些事是都有可能的,因为我每天都在看新闻,每天有都有同学问我老师新出的框架,我要学,新出的东西我要看, 我给我的感觉我都快麻木了,就是框架实在太多了,咱们去理解去用就行啊。但是我估计后续啊,肯定这玩意早晚都会被更新换代,早晚都会被替代掉的啊。然后 我们来说一说框架当中啊,他其实这些东西啊,他帮我们实现了什么,这些东西啊,就是无论你用哪个框架,咱们都少不了一个东西,就是你得有这个 key, 咱们都得有这个 key 才是可以的。什么叫做一个 key 呢?我给大家举个例子,就是我们要调一些基座模型,是不是啊?就是你要调基座模型,这都不用想了,一般情况下就是 g、 b、 d 四啊,这个是最好的,基本上现在所有的这些框架都是要不三点五,要不就是四,反正就是 token 的 价格有点区别 啊。那这边他可能说我换别的行不行,换别的还真不行,就是我我自己没尝试啊,但是我问了几个哥们,他们搞这些本地化的一些私有 a 证的啊,他们他们他们给我的反馈就是这件事真不行,你本地自己去研究,即便是在自己专业领域当中, 他的这些能力其实是本身具备的,你可以这么理解,就是我是让啊,这个大魔精做我专门的一个医疗领域,做专门的一个什么法律,什么金融领域啊,就是个领域,我这个数据都问给他了, 但是他还是做不好,为什么?因为感知、思考、动作还有记忆这些个能力,是在这个大模型训练的时候他的一些基础能力,而不是说他下游应用的一些能力。 他如果说你的模型都不具备这些个基础能力,你怎么去做微调,怎么去做下一个任务是都不行的。所以这条路我估计大家可以把这条心死了,不要想着我自己去训练一个私有化场景,然后我用这个 a 神怎么样的?我问过好多人,这条路是都行不通的,都是比较差的,所以说业界通用解决方案是什么?就是花钱, 最佳解决方案就是花钱,而且,而且咱们也说这个这个价格啊,这个价格你可想而知是非常非常昂贵的一件事, 但这些框架当中它都帮我们去做了什么呢?其实就是这里边啊,我觉得这些框架当中啊,它都帮我们实现这些东西,就是啊角色,然后交互,然后还有这个 api 调用。我觉得就这几点, 一个框架当中,比如说凹凸或者媒体 ppt 里边,它会给你预定一些角色啊,比如说你现在是一个程序员,你的角色是什么?你现在是一个医生,你的角色是什么?你要做什么事?根据你不同指令,它会给你写很多例子的啊,在这个例子当中,角色该怎么去定义 好?那就是交互,交互,就比如说你为了完成这件事啊,你应该跟谁做交互?程序员跟产品经理之间做交互,程序员啊,程序员就只跟他交互啊,产品经理跟谁交互,你的角色可以跟谁交互。然后最关键的就是我运用这框架啊,最大的一个核心,最大优势是什么?就是工具是现成的, 就比如这里边,现在所有的工具给我的感觉都是这样哇,都是一个,就像个百宝箱一样,就是反正啥 ip 都能用,我让他问天气也能,然后浏览网页就不用说了,用各种浏览器,浏览网页,用各种缩显器,他都能的。 所以说就用这些框架啊,是用人家给我们设计好的这些个 api。 这 api 有 多少种呢?嗯,咱不夸张的说啊,就上百种,肯定是打不住的。因为你比如说你要访问一个公众号, 访问一些微信上的接口,那这个微信,这个公众号,那 a p i 有 多少个了?海了去了,是不是你要你要再去查一些什么企业的信息啊?什么个人的信息,那这每个地方都有 a p i 这些框架,就帮我们写好了很多这样的例子,怎么去掉这 api? 说白了他再去执行这些个动作,就这里边啊,就是他把角色定义好了,然后角色教会定义好了,然后 api 调用给你了。那其实对我们来说就是现成的模板咱可以直接用了,但是更多的,其实我觉着啊,还是希望大家怎么样,就是要这样 熟悉流程,然后我们肯定要做自己的事,你做的事,你不一定是开软件公司的吧?你肯定是有你的一系列人员,然后你们这些人他们要做什么, 我们可以去模仿他们角色定义的方式,他们怎么交互的,以及人家这块涉及到这些 a p i。 那 那在我的任务当中我可能会涉及到哪些个 a p i 呢?就要把这些 a p i 的 一些调用方式,我们给它加进来。其实这些东西啊,我觉着你觉得这个框架当中啊,咱们在理解时候特别难吗? 我,我讲的课比较多,我讲算法、讲论文、讲项目、讲圆满,其实我都会觉着难度挺大的。但是这个框架吧, 他这个难度还真不大,因为就是整体逻辑是比较简单的,所有东西都是到调大模型生成的,他可能并没有太多跟算法、跟数学啊,跟概概念相关的东西,其实都是什么,都是流程, 第一步干什么,第二步干什么?第三步干什么啊?都是流程怎么调 api, 然后反正调 api 也是现成的,反正对我们来说,我,我就觉着啊,如果说我要用这些框架, 我无外乎就是对应好我的角色啊,然后我把我需要用的 api 给它加入进来,就相当于我可能不仅仅执行这些动作,我可能执行点特殊的动作啊,我要执行什么动作? 把这些整理好,其实它的流程我觉得来说是非常类似的,所有里边核心操作都是把啊,就是通过你的角色获取到你这个人基础的一些啊,就就基础的一些命令和基础的属性。 然后呢去啊,根据你的命令当做提示调大模型,然后调完 api 之后呢,把 api 返回结果啊交给大模型,然后生成一些记忆,然后再根据记忆再决定下一步怎么去走。这地方来说,我觉着就这几点吧,框架来说,嗯,就是特别多啊,这个这个到时候大家任选,你想要什么框架都行, 我给大家列出来,是我觉得 k 二 pro 当中死大叔比较高的,也是现在大家呼声比较高的,用的比较多的,我用了一下,我真觉着就是区别不是特别大,而且这东西安装起来比较简单。但是大家会发现一件事,就现在这些框架啊, 都是极简的,他不像是你几年前啊,你想跑个看人像不?哎,我天呐,几年前要跑个看人像不?你配个环境,你没个没个,两三天你配不出来,还得编一这整这贼麻烦。 但是现在呢,这里边啊,你的配置极简单,就是我估计用不了半个小时的一个时间,你就可以把它给它配置起来,只要你有这个 key, 你 就可以很快上手,很快去理解它的流程啊,它的任务是怎么做的啊?反正这个框架我觉得用起来都不难啊, a 阵当中都帮我们把这件事做了一个简化极简,你就可以把这个东西用起来, 给大家去分析了一下,就是我对 a 证的一些理解啊,还有这么长一段时间使用下来,整体的感觉更多的就是通过这些个开源项目和一些实际,再去做这些私有化部属于企业啊,跟他们去讨论交流得到的一些经验。 然后呢我们先来说一说啊,就是 a 证当中啊,什么是可以去做的,什么样的东西他是做不了的,我觉得这样的就是你的业务场景当中啊,如果说啊,你要解决的问题,这个问题他有一个标准化流程, 就比如说你让程序员啊,就是你呢,现在客户有个需求,我需要根据这个需求给他写一些代码啊,给他做一个游戏,给他做一个小程序,做一个界面, 其实这些其实是有一个完整的一个模板的,我们要做这件事怎么分析用户需求,每一步要去做什么,其实都是固定的一些思维逻辑,一旦这件事我们做到一种标准化的体系,其实 a 阵头我觉得是有能力帮我把这事做出来的啊。但是我们现在强调我跟大家说句实话,就是能做出来, 但是你不要指望这个东西能做的多好,不要现在去看别人去吹。这个 a 阵能解决很多事,我目前接触到的百分之九十都是失败的案例, 能成功的也是比较简单的,比较简易的,呆某的级别的还很难做到,说这个东西直接就商业化了,直接就是帮我们解决生活当中的一些实际的需求啊,以以现在啊,以今天这时间来看,还做不到这些东西啊,就更多的标准化体系, 他起码能把格式,能把我们要的东西啊,有那么一点像模像样的感觉输出出来。但是换句话来说, 如果说你现在的任务就是你自己都不知道是怎么该怎么去做啊?你再让他去做,你觉着你让这个 agent 他 自己去思考,自己去反思,自己总结去吧,你能做啥?你按照你的逻辑给我做出来 这件事,百分之百它是做不到的。你没有一个标准化的体系,你的任务当中没有一个清晰的定义,每哪一步该用什么样的 api, 哪一步它应该有什么样的角色。 如果说你没有一个清晰化的定义,其实这件事你是做不到的,那所以这里边啊,我给大家强调了一下,就是 a 人这东西啊,它绝对是 ai 的 一个未来,因为我们用 ai 的 目的是什么? 咱们做大模型的目的,其实现在来说不仅仅是要满足我们一问一答,更多的是我一问,他帮我去把这些个答案做一些汇总,他思考,他决定他做了些事之后,哎,把这个东西交给我,你就别让我再去参与到其中了。帮我做一个 ppt, 别让我告诉你 ppt 的 每一步怎么去做,你来根据我之前做过什么事,你来根据我的一些行为特点,根据我之前写的一些 ppt, 根据我这些要求自动的把这些做出来,别问我一句话,就根据我记忆当中去找。 但如果说这个东西是标准化流程,我觉得是能做的,但是反过来它是很难去解决的啊。哎,这这东西我觉得还是始于持续的一个发展,这东西其实这个词它并不是像是你们现在觉得它火了才提出来的, 很久之前啊,他就已经有这个词了。只不过说之前啊,那些个 gbt 啊,或者之前的决策 可能是靠一些人为的逻辑,显得不那么智能,但是也能把这做出来。现在呢,有了大模型的一个介入,我们可以把每一步优化的更好。最关键是什么?最关键的,其实我就是觉得这样一件事,大模型当中啊,他是帮我们多了一些思考。其实你说执行个动作, 我自己写一些 f s, f s 的 一些判断行不行,什么时候做什么,什么时候做什么,但这东西就很死,他能解决问题就很少。所以说大模型我觉着他是一定是有脑子的,有脑子的大模型能根据他在当前面临的一个问题,去反思我们要怎么去执行接下来的一个动作。 这个是我觉着整个 a 阵当中啊,比较核心的一个概念。但是现在啊,最大的一个难点是什么?最大难点其实我们是无能为力的,就像是一个基作的模型,他的思考能力越强, 他执行动作能力,他的感知能力越强,你整体 a 阵的就会越强。但是这些东西是我们无法去触及的,我们都是用现成的 key 来帮我们去完成的啊。好了,这是给大家做了整体 a 阵的总结啊,他是啊,长什么样子,能做什么东西。 接下来我想给大家再去说这样一件事,就是很多同学啊,咱们现有一些需求,就是我要去构建一些智能体,但是啊,大家觉着就是我这个水平吧,我写代码,我不想写,我也不是程序员啊,不想写代码, 我就想去了解 a 阵的,用 a 阵就行了,然后比如说我现在啊,就是我也不做这个商用,我就自己玩,自己能解决点事就行了,提高点工作效率也好,然后帮我去啊,干点私事也好, 然后第三个呢,就是啊,我可以花点小钱,但是啊,你就别整东西太麻烦,咱们先用起来呗,先用起来就行,这块我给大家推荐的就是这个 gps, 它是最简单最直接的,但是呢,你也得去花点钱, 然后大家说,哎,那有开源的不用,老师你给我推荐这个付费的干啥?那比如开源的这个什么凹凸啊,或者是这个什么 mate gpt 啊, 我咱咱们说,咱们说实话啊,就这东西他不也是调用人家的 key 吗?跟你的 gps 当中调用人家的啊,这个接口,这不是异曲同工之处吗?没有什么本质的区别吧? 但,但是呢,就是,呃,在这个凹凸啊,或者 m i g p 当中,你是自己要写代码啊,就是你要在代码上去实现一个功能啊,要调用调用什么 api, 然后要执行什么动作,然后有什么提示, 都是代码上就显着比较麻烦,没有那么活。但是在这个 gbt 字当中呢,它相当于是 gbt 的 一个应用商店,这里边啊,咱做事就非常非常简单了,而且呢还有很多现成的工具啊,是可以帮我们去用的。更关键的一件事, 这里边啊, o p i 的 全家桶我们是可以玩的多模块能力本身已经具备了,不用你再去额外做些开发了。所以啊,咱们后后面我会给大家讲这些框架的,怎么怎么怎么自己玩,然后他的流程怎么走啊,但是如果说大家咱们你就有点小的需求,想解决自己点事,这个 gps 我 觉着也是挺好的一个地方啊,我给大家举个例子, 比如说现在啊,现在啊,这块我这是打开了一些别人的啊,就是我一会给大家说咱们自己玩怎么用,其实非常非常简单, 比如现在,我现在打开了一个啊,这个 app 吧,或者叫做一个啊,别人写好的一个 a 阵,那我们就叫别人写好 a 阵就行了,他给他起个名字啊,就是啊,叫这个小红书写的专家。然后呢我接下来问他,就是啊,我说这个又就是我啊,我说问他帮我写一篇讲 a 阵的笔记,那你看他是不是帮我把标题列出来了,然后下面呢, 在这个任务当中,他说 a 阵的定义上吧, a 阵的特性, a 阵的一些应用,未来展望,然后结论他是不是有几大块啊? 那其中我们简单梳理梳理啊,就是他要完成这样一件事,他是不是说首先他要给这个 agent 定一个角色,那你是一个写作专家,你接下来要根据用户的输入啊,把它什么什么写完整啊,怎么样的啊?他就有一个提示,然后接下来 他还得有啊,就是要完成这件事,他得去调用什么,他得去调用一下子啊,比如说怎么生成一些比较好的标题,那标题当中有哪些子的模块子的一个逻辑,就相当于他是有顺序的,先生成标题,然后再根据标题和你的要求生成我们想要的一些内容 啊?这就是我们的一个基本逻辑,第一步要干什么?生成标题,第二步根据标题生成内容。其实这不就是最简单的一个 agent 吗?把一件事做一个拆解,然后把最终结果帮我们生成返回就可以了。那这一块呢?比如说 现在啊,呃,比如这块有叫,还有一个随便随便打开的啊,叫什么啊?这个什么 ai 车助手, ai 车助手东西啊,就是比如现在啊,我也我也,我也没看他具体是啥,我就让他说给我介绍一下,比如说沃尔沃叉七六零的详细配置,那下面是我把我们这些结构全拿出来了,那这些配置大家,大家帮我想一想,他是怎么升这个东西的? 他是不是得调用一些工具了?比如说,哎,他要分析一下这个叉 c 六零,他是不是得去找一找?哎呀,叉 c 六零,比如或或者说你问他最近新出的一款车,可能 gbt 里边都没有他这个训练数据,他是不是要到网上去找一找,去做一些搜索, 那这一块就形成什么?这一块就形成他一个动作,我为了完成这个任务,然后他经过一思考,这件事是我目前不具备的,那我要去执行什么动作?执行到互联网上去搜索,那可能他一搜索搜索到这么一千个网页都是讲这玩意的, 他是不是也辨别一下子哪些是广告,哪些是我不想看的网页?在这里边他说经过大脑一思考,我选出来前十篇我觉着最好的网页,然后那是不是还要把这十篇网页 做一些摘药,做一些总结,再根据这些总结,最后再穿越 gbt 啊,问你怎么样基于我找到这些资料,帮我生成该用户想要回答这个问题,再做这样一个结构化的一个输出啊?就这个大家发现反感就是 流程上是怎么样?是我觉得相对比较死的啊,相对比较死的感觉。然后这会还有什么,就是又打开工具啊,什么微信阅读,鬼才不知道干啥的,他就是说让你输入一个文章链接,就你我随便给他发个链接啊,他就帮我分析了这个文章标题是什么,然后文章标摘有什么,然后可以深入思考做哪些事 啊?其实这里边都是啊,你看我给他发个链接,你这他起码得把这个链接打开,是不是?是不具备一些联网的功能才能解决这些问题啊?都是去调一些工具帮我们解决这些事, 然后大家说那给我发短信,然后给我做什么东西,该怎么办呢?其实这件事啊,并不难啊,就是让让我们这 api 啊,就是让我们这个助手,或者说让我们这个 agent 他 具备一些能力。这个东西啊,咋说呢?就是你可以自己去调一些免费的 api 去做, 但是呢,如果说大家觉着就是像我说的,你用那个什么 mate 或者 autodgpt, 你 写这代码特别麻烦,这块现在啊,就是我看啊,一些个人用啊, 可以玩这个语句 ai, 它这里边相当于啥?就是帮我们把 api 做了一个整合,你看啊,比如说这块创建一个叫什么的个 ai 的, 你不用管是什么,你看我一点这个添加动作,这里面有多少种,就是随便给大家举个例子吧,比如说咱们这个什么企业通讯,什么 qq 邮箱,什么什么短信宝,这都干啥的, 哎,调用这个 api 就 给你发短信了,在这个 a 领当中能给你自动发短信,能给你自动发邮件,还能给你做一些这些所有的跟人家集成进来 api 相关的。我觉得这 api 这都不下几百个了吧,你想访问啥?想调用啥?是不都行啊? 但是吧,就天下是没有免费的午餐的,我给大家找这个叫什么语句 ai 啊?他就是总结的比较全啊,我觉得就是,反正我是这样,我喜欢花点小钱,然后你让我做起事来,别那么难。他这块你随便一点, 它这块都给你生成出来,比如说你要要要调这个钉钉应用干什么?比如要发发这个消息,发这个消息,然后这块你要注册账户啊,这块我给大家演示了,你们自己去注册账户,注册完账户之后呢,它就会啊,给你去生成一个 api, 你 就可以调用这 api, 然后你的 agent 它再去执行的时候,大家都说,哎,这个 gbt 它咋地?还能给我这个钉钉连上吗?就这一块它是有的啊,就在这里边我们点它自己创建这个 gpt, 创建 gpt 的 时候啊,就是 create 的 时候,你给自己写啊,你的要求是什么?你的描述是什么?你把你的要求描述写完之后,它右边就会生成出来啊,你的一个助手是长什么样子的? 比如说现在,就是啊,我就随便写啊,咱们先管,我随便写,你是做企业管理专家,尽可能压榨员工的工作时间, 时间,让他们更多的工作,还啊,然后就就就这么写吧。就是啊,我我我写个需求,你这个角色是什么就好说的啊,就是第一步我们希望这 agent 他 要完成一件什么样的工作, 那其实在这 cpts 当中啊,这块我写的比较少啊,这样这玩意你要写一堆啊,就是你是角色是什么,然后你每一步要去啊,做什么,你要写非常全面,这些市面上教程太多了啊,我就不给大家具体详细说这个事了,我主要给大家说说流程,然后这有 config, 这个 config 当中啊,是这样啊,就是我忘加一句话,就是下面用中文给我回答啊, config 当中这块它有, 各位抖友大家来看,这块它有个 create new action, 其实这些啊,就是你可以把你倒数 a p i 直接复制过来,就是这些语句, ai 当中啊,刚给大家演示这些动作,它都是有 a p i 的, 你可以把这 a p i 啊全部复制过来, 这样你的 gpt 就 具备这样一个能力,他就可以做各种各样事了,他也觉得我该调用啊,他也觉着现在这个员工问我点啥,我该给大家群发消息了,大家晚上别走过加班啊,那这一块他就会调你这 a p i 来去啊,在这里面实际的把点东西执行出来,数据分析的,各种查询的,这就不用说了啊,所以说 现在做这 agent 吧,我觉得都不难啊,就是不难的原因是什么?嗯,就是你兜里花点小钱,你想这个这个 open i 的 key 你, 你要买是不是?这是第一个事,第二个事呢,就是你调这些个 api 的 时候,咱们得用一些嗯,现成的现成的库吧,或者现成的 api 的 一个大权。 但这玩意儿吧,这咋说呢?就是你自己折腾也行,很多都免费的。但是这汇总的吧,人家就是收钱的啊。到时候大家你们最简单的方式就是你做出来一些小的 a 这样的东西,你就可以用这个 gps, 它是我觉得最快的一个方式啊,能帮你去解决这个问题的。

大家好,今天我们学习制作这款十分喜庆的卡点银新年模板,我们打开像素,点击加号键,点击模板创作。首先导入提供给大家的白色素材, 导入后我们点击添加音频音乐,然后导入音乐,选择视频进行提取,点击使用。导入音乐后,我们点击节拍, 使用自动裁剪,然后我们点击主轨,选择图片, 添加上我们的图片素材,这里大家可以用 ai 写真,也可以用实拍照,都可以的。添加上照片以后,我们调整卡点,每个照片两个点, 然后最后一张照片可以稍微多一点对齐就可以了。调整好以后,我们选中前面的素材, 打上固定针,这里千万不要忘记,然后我们点中第一张照片,点击复制,复制好以后,我们切画中画, 然后拖到前方和白色素材拖齐,下方工具栏找到裁剪,选择一比一,点击对勾,我们调整图片, 放到一个合适的位置, 让一边和虚线对齐,然后下方工具栏找到蒙版,选择矩形蒙版, 我们上下调整一下,稍微拉一点圆角,这样好看一点,然后我们再次复制, 我们需要四张,我们就复制三次,复制好以后,我们调整图片,全部和前方对齐,对齐以后,我们拉动来到文字全部出现的位置,选中第二张画中画,把它拖到一个合适的位置, 然后继续选择第三张,然后拖动调整。第四张。调整好以后,我们在临近结尾的位置,每一张都给他打上一个关键针, 这个关键针就是防止用户替换时的位置没在我们预定的位置。然后我们开始调整图片的开头,第一张照片我们不用动,第二张照片我们对齐第二个黄点,然后第三张照片我们间隔一个黄点对齐,第四个, 最后一张照片再间隔一个黄点,我们对齐第六个黄点。 我们给第一段添加动画向右转入,时长零点五,不用动,第二个向左转入,第三张向右转入,第四张向左转入。 因为像素没有这个爆金币的特效,我们从别的地方借来的,所以呢 它会显示在照片的后面,我们添加一个特效,让它稍微好看一点,选择运镜里爆闪运镜,然后对齐 后面的四张呢,我们依次添加动画组合,动画往后滑动,选择荡秋千一,时长零点五,然后第二张照片组合动画荡秋千二, 也是零点五,第三张组合动画荡秋千, 第四张荡秋千二,它是一个配套的动画,一左一右,这样看上去比较美观, 然后我们再添加一个星光绽放的特效,同样因为像素的特效不完善啊,我们这里利用话筒话添加 添加老师提供的黑幕素材就可以了。我们放大全屏,然后点击固定混合绿色, 这个黑幕要对齐我们照片中间的黄点,然后调整它和第一张照片对齐,然后我们复制就可以了。拖动到第二张照片中间和结尾的位置,然后再复制 拖动到第三张照片中间和结尾的位置,然后再复制 拖动的第二个黄点,然后拉满,然后我们添加不同的妆容滤镜去点发布就可以了。