假如你从二六年才开始学 ai, 不 用焦虑,一点也不晚,收下这份完全免费的进阶清单,这是我去年花了六万多在各种培训费上面总结出来的经验。普通人如果想要学 ai, 用 ai 创收,根本不需要学习代码, 更不需要买那些过时的课程。哪怕你只是零基础,只要按照这个逻辑走一个月,也是可以弯道超车。第一步,升级你的 ai 老板思维。记住,二零二六年学 ai, 核心不再是学聊天,而是学会管理。你要把 ai 当成你的员工,而不是问答题。 建议你直接去学 n 八 n 或者扣子。以前我们需要自己熬夜写脚本、剪视频,现在你只需要像堆积木一样把这个 ai 模型连起来,就能自动帮你完成工作。比如让 ai 每天帮你抓取全网的热点,自动写研报,自动做视频,这种成熟的工作流, pos 和 n 八 n 的 社区里面已经有千万个大神捏好了,你只需要一键复制,就相当于把顶尖高手的脑子装进自己的电脑。第二步,攻克 ai 视觉和三 d 视觉。 ai 绘画在二零二六年已经在基础建设上了,没什么好吹的。今年的爆发点是 ai 视频,不要去报班,直接看骚扰 极梦的 cds 二点零、可灵 ai 和海螺 ai 的 官方保姆级教程,特别是可灵的导演模式,以及极梦的 cds 二点零模式,看完你就能明白,一个人拍大片的时代真的要到了。 如果你想做游戏或者原宇宙,就刷 rolling 和 style ai 的 官方文档,打几个字就能生成三维模型,这种效率对传统建模的降维打击。 第三步,掌握全站产品的能力。以前我们聊科 sir 是 为了辅助写代码,现在二零二六年我们有 ai 直接出产品, 我身边就有很多朋友在做外部网页出海, a p p 出海去看科 sir, 结合 replay 的 教程或者国产之光 tree, 你 不需要懂复杂的语法,你只需要懂产品的商业逻辑,跟着官方文档练手三个小项目,你就是一个能独立开发 app 的 全站工程师。第四步,执行三十天自学路径的人很多,但是都学废了, 因为顺序搞错了。第一周先用起来,别学技巧,直接把 chat g p t 或者 cloud, 再或者 deepsafe 当成你的私人助理,有问题就问,让他帮你改邮件,写周报,感受他的能力边界。 第二种学题问 pro max, 搞定三件事,设定角色控制、输出任务拆解这三个动作,学会了 ai 产出质量直接能翻三倍。 第三到四周,进阶自动化,去扣子,搭建智能体,去 n 八 n 跑工作流。最后一点,也是最重要的, 建立你的 ai 情报网。 ai 迭代实在太快了,想不掉队,必须紧盯源头。国外呢,多去看 hunting face, 国内呢,多去收藏和 one two a j i 的 社区。想学底层逻辑,就听吴恩达老师的课,想搞视频审美,关注可玲 ai 或者海螺 ai 的 关 分号。说实话,这套清单呢,是我熬了几个大夜,看了很多资料才试出来的真东西。我把文案中提到的所有官方文档入口开源及工作解锁,以及我亲自汉化好的中文版手册,全部都打包好了,扣个二零二六, ai 跟你一起学习。
粉丝1352获赞6741

只要给我充好电,知识能力随时更新。提到天津,除了相声早点,我觉得未来会多一个新的硬核的绰号。科技之城 这次之争大会让我开了眼了,你真的到现场,你就能看到和你息息相关的未来生活究竟会是什么样? 逛展保姆攻略奉上,记得提前收藏。终于抵达现场,早起人还不多,出示证件进入会场。进门先在二零二六这里打卡拍个照,旁边是专业观众和普通观众的咨询区, 往后走能免费领取一个你的 ai 数字名片,等待他出的时间。往里边走,直接是文创区,挑个你喜欢的带回家。没吃早饭的宝可以尝尝机器人摊的煎饼果子和你家楼下阿姨的有没有区别?来得早的听我的,先冲右边这些掌管,因为下午人会非常多。划重点, n 三十二机器人小镇真的太热闹了,有指挥交通的, 有给你演奏的,有跟你抛媚眼的,嘿,京东这个巨深人像真的太震撼了,只是身边美女姐姐我分不清是真是假。 语数家的拳击赛场,感觉刚刚发生一场激烈比赛,机器人在这歇着呢,然后左手边这些展馆。 n 十七划重点,里边有很多智能的新款车型,直接被特斯拉这两款王炸车型拿捏了。 model y 属于私用的天花板,大空间,有全家出行需求的可以考虑选它。 model 三是那种低趴六倍的跑车型,灵活飒爽, 城市代步的可以考虑选它。一个大空间,一个帅炸,我坐上去根本不想下来。如果过去你以为机器人只能娱乐,那就想错了。这届直播会最大的亮点是 ai 不 单是概念,而是落地的场景。小到你早起吃个早点,喝杯咖啡,然后日常的帮快递站分拣快递给你的爱车加油。 大到社区的中医诊断、人机接口,甚至智慧养老哦,还能为老人住行、户外旅游全都能实现逛完展,顺便还能给家里孩子带个智能机器狗机器人,给老人烧个按摩仪,价格都比网上便宜。哎,现在这个旅行箱都能当小电动车骑了吗?这个我得高低带走一个! 这届智能大会天津真的是憨爆了!也欢迎全国对科技生活感兴趣的来天津国展一起探寻未来呀!

这个开源宝库帮你把二零二六年顶尖的两百六十家各 ai agent 的 资源全部盘点清除。如果你不想这一轮技术浪潮中掉队,或者是个纯小白,想搞清楚 ai agent 到底是什么,可以重点看看这个项目。二零二六年是属于 ai agent 的 爆发元年, ai 不 再只是被动回答问题, 而是开始主动思考,调用工具团队协助去替人类完成复杂的端道端任务。这个仓库系统的把 agent 分 成了三层,第一层是大脑, 比如 openai 的 gpt 系列, a n s r, optic 的 cloud, google 的 gemini, 还有中国这边的 kimi, qwen deepsea, 这是 agent 的 推理核心。第二层是神经系统,比如 m c p a 二 a, 让模型能标准化连接外部工具,不在每个项目重复造轮子。第三层是执行系统,像 land graph pro ai、 open ai 这些框架,开始让 agent 真正进入生产。最牛的是它还有场景指南,五十六个场景,直接告诉你用什么工具,不管是想做个人助理,还是想搞 agent, 安全全都给你对标好了。二零二六年最重要的变化不是某个模型发布,而是更多人意识到,未来的软件可能是你拥有了一群 ai agent。

当智能走出实验室的围墙,当科技真正融入生产生活的肌理, 一场汇聚全球智慧的产业盛会,正在渤海之滨缓缓拉开帷幕。 五月二十八日至三十一日,二零二六世界智能产业博览会在天津如约而至,七百余家国外科创先锋齐聚一堂,从核心算法突破到终端场景落地, 全景呈现 ai 与实体经济深度融合的鲜活图景。在这里,科研大模型为基础研究注入新动能, ai 原生工厂打通生产全链路,刺足机器狗奔赴巡检一线,轻量智能眼镜化身随身助手。从科研突破到产业落地,从智能制造到民生服务,人工智能正成为驱动产业升级与经济高质量发展的核心引擎。 智行天下,能动未来。人工智能正以润物无声的力量重塑产业格局,点亮美好生活。这场属于智能时代的盛宴,我们在天津等你赴约!

还在坚守 ar 应用的兄弟们,或许从六月份开始,这个板块慢慢就会好起来。不管是智普和 mini max 即将来大 a 要上市,包括我们的 debsek 的 ipo 首轮融资也接近了尾声,还包括节月、星辰月之暗面以及国外的相关 ipo, oppo ai x ai, 甚至包括谷歌要发布的个 mini, 称之为世界大模型,从六月份都慢慢陆续要登陆了。 还记得去年 ai 应用可是涨到了年底,过完年才到硬件慢慢登场,一直涨到了年终。那么你最看好哪个 ai 相关概念呢?关注我,磨指甲,提前布局!

好了,那么所以说这个光模块啊,就是说依然会强烈的继续去,会旺盛的啊,不要,千万不要下车,好,真的不要下车,这个是你们一辈子的性情所在好吗?不管拿到哪里,你如果你算你的资本开支没有消减,这个光模块它是都不会动的,不管怎么样,你现在呢?三点二 t 到六点四 t 理论上都能用十年, 那么我想跟你说第二个就是说 pcb ccl 他 们马上啊,会就从这个涨价逻辑进入到这个 he 的 这个验证了啊,这个节点马上就要来了,因为今天是这个五月嘛, 这个十六号吗?因为理论上的话就是你再过一个月就是六月十六七号左右的话,上半年就要结束了,那么 很多公司呢,就说他们会抢着就开始发发 h e 的 报告了啊,他预告啊,就基本上就会打出来,那么因为有了整个大的基调,开始趋于从失控到稳定,那么越来越多的外部的这个潜力,看好国内市场只会越来越多 啊,这个毫无疑问,有哪些东西还被低估的干到?我就说只是 pcb 四季度,所以呢,那么同样的这些东西会拿这个 he 来验证, he 一 旦给出了百分之一百以上的暴增, 那么我告诉你 pcb 的 这个穿透力,它短时间可能会到四到五个月,甚至半年左右,大幅领先于科巴沙冠模块, 这个你们记住,所以呢, p c b 的 一个,下一个呢?大的爆发口是 h e 是 半年报啊,其实作为材料段来说的话, c c l 包括这科普内比这个官材料,它们的这个被重视的程度都是远远不够的, 一旦被这个 h e 半年报验证,那么接下来的话非常好的好戏看,会超越 ai 的 个上游端材料,把上半年应该有的还给你。

二十一世纪,每五个人里就有一个会进化成人类人工智能,他们情感麻木,快感缺失,就隐藏在我们的身边,开始基础调用。小柯,我在打印文件,好的, 不愧是 ai, 连续加班二十一天,还是很稳定,刺激测试,下班一起去吃烤肉吗?我,请 不去,谢谢。零情绪反馈,这样最好。人类 ai, 在 ai 大 时代我们已经遥遥领先了。我们开启了开始复刻测试。小克,我在下奥,对家不批, 生气了,快来。好的,哎呀,服务器有拥挤延迟,连续加班二十持续运转,不是加班文件呢?小克,打印文件。小克,哦, 开了低电量。我靠,过载了吧。这是?小贺,小贺,下午有访客,准备接待人呢,死机了。什么抑郁症啊?情感麻木,快感缺失,动力下降。病,真啊,老板, 那很麻烦了,为啥 a i 坏了能换人坏了就要请假了。

五月二十九日早上, ai 产业有五条消息值得看,今天重点看这几个方向,算力 ai agent、 大 模型网络安全、自动驾驶 anzopec 完成六百五十亿美元融资,头后估值达到九千六百五十亿美元。简单说就是大模型公司还在继续拼算力和企业客户。相关概念方向,算力 ai 服务器、数据中心、 cloud ops。 四点八发布,重点强化代码和长任务能力。简单说就是大模型正在从聊天走向替人跑复杂流程。相关概念方向,大模型 ai agent ai 应用 openai 发布前沿模型治理框架,回应美国和欧盟的 ai 监管。简单说就是模型越强,安全评估和合规交付越重要。相关概念方向,大模型网络安全 ai 应用 google 推出 chrome 企业版 mcp server, 让 ai agent 接入浏览器安全管理。简单说就是企业 agent 落地必须先把权限和安全管住。相关概念方向, ai agent、 网络安全、云计算小鹏发布一季度财报, 继续强调 physical ai 量产和国际化。简单说就是自动驾驶和机器人最终要看真实交付。相关概念方向,自动驾驶、机器人、 ai 终端。 以上内容只做产业信息梳理,不构成任何投资建议。关注我,每天用三分钟看懂 ai 产业变化。

这条视频可能会让你接下来四十八小时都睡不好觉,因为看完他,你再也找不到借口说我不知道怎么开始了。 ai 漫剧现在已经不是能不能做的问题了,而是谁先把流程跑通,因为一旦连载做起来,广告解锁和付费解锁都会给你强 反馈。但很多人卡在第一步工具安装了一大堆,教程看了一大堆,还是不知道怎么做出第一集。原因很简单, 没人给你一条从头到尾的顺序,今天这条视频我就把顺序交给你,先讲他怎么赚钱,再讲他怎么做,他怎么赚钱。 ai 慢剧是连续剧情内容,观众要看后续通常只有两种方式,付费解锁和广告解锁。转载越稳, 锁越多,收益越容易出现。知道了变现逻辑,接下来讲怎么做。从本期视频开始,我将带着大家从新建文件夹开始,到成片发布,从零开始制作一分钟左右的 ai 动画,无论你是完全不懂 ai 视频领域的小白还是老手, 都能轻松跟上。为了不浪费大家时间,本系列教程直接划分为七个核心板块,剧情、脚本、人物设定、分镜生成、 镜头分镜、 ai 配音与音效生成、 ai 配乐和最后的剪辑成片。我会全部使用简单免费易懂的创作工具进行教学,相关制作流程、提示词和 ai 工具都以文档的形式整理好了,感兴趣的看自己评论直接领取 资料拿到手后,我们直接开始。今天的大家好,从这期视频开始,我们就来讲解像刚刚那样的 ai 动画短片是如何制作的。想要制作一个完整的 ai 动画短片,其实和常规的动画短片制作流程并无区别,只是得益于 ai 的 加持,很多工作都可以由一个人独立完成, 多专业的知识也可以借助 ai 快 速的进行学习和掌握。制作一个完整的 ai 动画短片主要分为这么几个流程,写故事剧本。写故事脚本。根据剧本和脚本生成图片,然后是根据图片来生成视频, 视频生成音效,生成人物配音,最后就是后期的剪辑制作。相信作为新手的同学看到这么多流程会感到有些头痛,不过不用担心,从今天开始,我们会从最基础的用 ai 大 语言模型编写故事剧本脚本,再到最后的剪辑 成片,从零开始,非常细致的教大家如何制作一个完整的 ai 动画。这期视频我们就先来讲解第一个部分,如何利用 ai 大 语言模型来编写故事的剧本脚本。同时我们这期视频相关的学习资料也放到了评论区的置顶评论,大家需要的话可以自取。 我们大多数人都不是专业的导演和编剧,因此想要获取好的故事剧本脚本,通常就要借助 ai 大 语言模型的生成,例如豆包、 deepsea 等等。这时如何给 ai 大 语言模型进行提问就显得非常重要。在给 ai 大 语言模型提问时,这里有一个通用格式,需要满足三个基本要素,第一点就是 ai 设定身份,第二点是给 ai 提出问题,而第三点是给 ai 的 回答设定格式。我们首先来看第一点,给 ai 设定身份。来到豆包 ai 可以 看到这里我一共向他提出了两个问题,第一个问题是假设你是一个导演, 请和大家科普一下什么是动态慢,此时他所给出的回复是动态慢的核心定义,动态慢的关键特征,以及动态慢与动画漫画的核心区别,且这些内容所给出的格式非常的专业。我们再来看第二个问题, 其实这里问题是一样的,同样是请和大家科普一下动态漫,但此时给 ai 设定的身份是假设你是一个脱口秀演员,可以看到这里他所回复的内容就和刚刚有一定的差异,是以更加接地气且通俗易懂的方式来介绍动态漫的,例如什么懒人福音精简版, 连漫画的画稿不动给他俩加 buff。 同时将动态漫漫画和动画做了一个简单的对比,讲述的方式非常诙谐幽默,且更加通俗易懂。这就是我们给 ai 设定的身份不同而产生的不同的结果, ai 会以不同的角度,不同的专业做出不同的回答。我们再来看第二点, ai 提出问题。这里没有什么特殊的技巧,我们就直接简单直白的向 ai 提出我们的问题,就好比如这里的请和大家科普一下什么是动态慢,就是一个简单直白的问题,通常向 ai 询问时,如果没有今天我们所讲解的提问框架,大家大概率也是 这么提问的。而第三点,我们需要给 ai 的 回答来设定格式,例如现在我们可以看到当前的回答格式是大标题加小标题加内容的方式进行回答的,那么我们现在以第一个问题为基础,将其复制下来,然后粘贴后面来追加一句,需要从内容基础、制作核心、技术、适配合规与 传播这几个方面去分析。现在回车发送可以看到,此时豆包 ai 回复的内容就是围绕我们所提出的要求进行回复的。从内容基础,以 以漫画 ip 为核心根基,制作核心,轻量化动态加生化适配、技术适配适配多场景的轻量化技术、合规与传播、版权先行加精准破圈这么几个角度对问题进行的回答, 这就是给 ai 的 回答来设定格式。在向大语言模型提问时,相信大家使用这样的框架都能够获得较为理想的结果。我们下面就回归到本节课的主题,如 如何让 ai 来编辑剧本脚本,这里我已经提前准备好了,我们来看一下具体的内容是怎样的。首先要明确一点, 剧本和脚本是不同的,可以看到在这里我分别生成了故事的剧本和脚本。在剧本方面,我们点击查看,可以看到它更像是一则故事的直观叙述, 像阅读一本小说一样,没有非常的杂的解释,只是顺着观众的正常思路来讲述一则普通的故事。而脚本则不同,它的内容会更加繁复,包括了警别场景,对于画面内容的描述、静号 以及发生的时间。它更像是一本在制作这个故事完整影视作品时的一个指导规划书,告诉我们在拍摄这一段时应该注意些什么, 该按照什么样的方式去制作。那么了解了故事剧本和脚本的区别,我们再回到刚刚的内容来看具体的提问方式是怎样的,可以看到这里同样满足了提问的三要素。首先第一点给 ai 设定身份 是一个经验丰富的动画电影导演,这句话就给 ai 设定了一个经验丰富的动画电影导演的身份。下面是提要求,现在我需要你写一个动画电影短片的故事剧本。这句简短的话就提出了我们的要求,是写动画电影短片的故事剧本。而第三个部分就是给 回答来设定格式,要求是情节简单,故事有逻辑,以古风修炼为题材,以写故事的方式提供给我,以便于我能快速了解故事内容不超过四百字。而在下面我们生成脚本的时候,可以看到就没有再给 ai 设定身份了,因为通常来说 ai 大 语言模型是有关联上下文的能力的, 我们在第一句话中已经给他设定了一个经验丰富的动画导演的身份,所以默认在后续的提问中,即便不再单独的设定身份,这个身份已经贯彻整个的对话了。那么到了这里,大家可能会产生一个疑问,那就是既然我们生成的分镜头脚本 够直接,告诉我们在真正制作短片时该在什么位置,用什么样的描述,设定什么样的时间,为什么还需要先让 ai 生成一个故事的剧本呢?其实道理很简单,作为一个导演,也就是我们自己,要想制作出完整的故事,就必须要先深入对故事有一个清晰的认识, 故事当中的出场人物,故事的情节。所以相较于永长的脚本而言,一则故事的剧本能够让作为导演的我们像阅读一个短片故事一样,快速的了解整个故事都发生了什么,这样在制作时才能够更多的打磨这个故事的细节, 了解故事的前后逻辑。其次,我们先行编写了一个故事剧本,也能够十分方便的对故事剧本当中逻辑不通或者不够精彩需要修改的部分进行提前修改, 在修改好之后,再让大语言模型参考修改后的内容来生成更加完善的脚本,以此来降低后续修改的成本。毕竟修改一个简短的剧本要比修改一个永 长的脚本要方便得多。在生成一个 ai 动画故事短片时,大家可以看到开头我们所展示的动画短片在时长上都不是很长, 通常一两分钟,所以这里生成的字数就非常重要。通常来说,四百字的故事剧本对应的是两分钟左右的 ai 动画短片, 所以大家可以以此为基础,在设定 ai 的 回答框架时来设定一下生成的字数。此外,在生成脚本时,我们所要求的回答格式中,很多内容其实都是为将来生成图片而服, 所以大家在提要求时,尽可能想一想我们将来在生成图片时需要哪些信息。例如这里我的要求是要包括景别、场景、出场、事物造型、时间、提升画质的提示词描述,因为在生成图片时, 需要的便是对于这些内容的描述,同时还要求描述尽量直观客观,避免华丽的词造。这句话非常的重要,大家如果使用过一定的 ai 图片生成工具,你会发现在一些小说当中,比较华丽的对于画面内容的描述 有可能会误导 ai 图片生成模型,例如在小说当中可能会描述长城蜿蜒的犹如一条巨龙,如果使用这样的提示词让 ai 图片生成模型,生成图片,那极有可能生成的不再是长城,而是一条真正的巨龙。所以我们猜要求描述时尽量直观客观比 华丽词造,以便于后续用于 ai 生成分镜头图片。当然最后我们还需要补充一句,因为本身我们并非是专业的导演编剧,不知道一个脚本作为基础的要素都有哪些,所以最后补充了一句, 同时要具备脚本基本的要素,至少让这个脚本在满足我们要求的同时,它也是一个完整的脚本。我们最后来简单总结一下这期视频都讲解了哪些内容。 先我们大致讲述了制作一个 ai 动画作品完整的流程都有哪些,这也是我们后续课程当中会逐一给大家详细讲解的内容。而本节课我们讲解了如何编辑一个 ai 作品 的故事剧本脚本,其重点在于给 ai 大 语言模型提问题时的框架,分别是给 ai 设定身份,给 ai 提出问题以及给 ai 的 回答设定格。 我们通过一个简单的苹果例子得知了这个框架的重要性,同时也在实践中生成了剧本脚本,并且对什么是剧本,什么是脚本,还有他们都有什么功能做了详细的区分。下一期视频我们来学习如何根据生成好的剧本脚本来 生成分镜头图片,这也是整个制作环节最花时间的部分,因为它不仅要生成图片,还包含了设计故事当中各种事物的形象,如何对生成不满意的图片进行修改等等。 要继续学习这些内容的同学,如果大家不想在学习时错过这些内容,也不妨点赞关注、支持一下。在片头我们所展示的 ai 动画短片的制作流程,我也总结成了一个文档资料,放在了评论区的置顶中,大家需要的话可以自取, 我们就下期视频再见。在上一期视频中,我们使用 ai 大 语言模型生成了剧本和脚本,这期视频我们将利用已经生成好的剧本脚本来生成分镜头图片。首先我们需要了解为什么要生成分镜头图片。在大多数时候,想要制作 ai 视频片段, 我们都并非在 ai 视频平台以文声视频的方式直接生成,因为本身生成一条 ai 视频在资金和时间成本上消耗不低, 使用文生视频的方式有太多的随机性,极有可能生成十条视频,有五条都是不满意的结果。因此在大多数情况下, 我们想要生成 ai 视频片段,采用的方式都是先生成图片,再使用图生视频的方式,以此来更加可控的生成视频片段。所以生成图片是制作 ai 视频作品必不可少的一环, 是最花时间的一环。我们这节课会从前期准备、提示词结构、提示词描述技巧以及图片修改技巧四个方面来讲解和分镜头图片生成相关的知识。 首先来看生成图片的前期准备。通常来说,一则完整的故事都是需要故事当中出现主要人物或者说主要事物的,所以首先我们需要对故事当中的主要人物进行造型设计。 通常来说,在生成的脚本当中就会包含简单的对人物造型的描述,比如我们上节课对陌生的描述就是束发、浅灰不一。因此如果甲方或者我们自己对生成的主要角色并没有特定的要求,可以直接 在提示词中要求根据脚本生成陌生的全身正面角色造型比例是多少,风格是什么?可以看到,此时我们就直接获取了关于角色造型上的一个设计。当然,除了根据脚本当中已有的简单描述对角色的造型进行设计之外,我们同样可以根据自身的想法 来单独设计角色的造型。比如人物没有束发,可能是披头散发的状态或者是短发。人物的服装不是灰色的,可能具有更加华丽的设计和其他的颜色。这些内容我们可以直接用正常描述的方式告诉 ai, 都是可以生成对应的结果的。再来看前期准备当中的第二点, 对故事画面的美术风格进行设计。要知道大多数的影视作品在美术风格上都要保持前后的一致性,不能说前期是写实风格,后期就突然变成了三 d 风格, 所以这里我们也要预先对将来画面当中的美术风格进行固定。这里同样是要通过提示词来描述,比如这里在生成角色造型时,我的要求就是高精度三 d 建模风格。 实生成的角色就不像写实人物那般有着写实的比例和长相特征,而是更像是一个三 d 动画电影当中的人物长相。 那么问题来了,如果我们喜欢某一张图片当中的美术风格,但又不知道该如何用提示词描述,那么该如何获取这个风格的提示词呢? 其实方法也非常简单,比如现在我们来到吉梦 ai 的 首页,在这里可以看到很多由其他作者生成的作品,如果喜欢当中的某一个作品的美术风格,我们就可以点击查看大图。 以这张图片为例,可以看到右侧就展示了作者在生成这张图片时所使用的提示词,而我们要做的事情就是直接将这些提示词复制下来,在复制好之后, 回到豆包 ai 当中,直接 ctrl 加 v 粘贴,然后按住 shift 键再按下回车另起一行,此时向豆包 ai 这个大语言模型提 出要求,去除上述提示词中对具体事物和氛围的描述,只保留画面美术风格相关的提示词,然后点击发送可以看到。这样一来,我们就快速的从其他作者的作品当中提取出了和美术风格相关的提示词。 当然,由 ai 提取的和风格相关的提示词未必都是准确或者说我们需要的,所以在使用时还需要经过一次人工的筛选。 比方说当前所提取的这些提示词中,像全景航拍就并非是对美术风格的描述,而是对景别的描述,在使用时最好先将其删除。我们下面就对刚刚所提取的提示词进行一定的删减, 是配合自己新增的提示词,描述一个古风帅哥在御剑飞行近景特写这样的提示词来生成一组图片,看一看效果如何呗。可以看到最终生成的效果。在美术风格上是不是和刚刚我们所见到的那种带有三 d 质感的图片非常的接近呢?当然在很多时候使用这样的方法, 由于生成的主题不同,在美术风格的最终表现上也并非绝对能够完全贴合。我们参考时作者生成的图片,大家可以多对提示词的描述,根据自己的理解,结合生成的结果进行修改,以此来满足自己对画面风格的要求。 回到豆包 ai, 我 们继续来承接之前的内容,在设定好角色,也就是陌生的形象之后,我们自然要继续设计画面当中出现镜头比较多的 零露的形象。这里我们就继续向豆包 ai 要求,用相同的风格生成脚本当中提到的零露,可以看到最终生成的效果也非常出色,成功的生成了零露的形象。当然大家同样可以靠自己的想象来描述零露都有什么样的特征。我们现在已经获取了人物造型的设计, 同时也规定了画面的美术风格,下面要做的事情就是书写提示词,描述来生成脚本当中的每一个分镜头了。主要有这六个方面,分别是景别, 比如近景、中景、远景等等。第二个方面是画面当中出现的事物,像人物、动物、环境等等都是画面当中出现的事物。而第三点是时间和光照,白天、夜晚、傍晚的光照是 不同的,同时光照也可以来自于不同的方向,像正面光、侧逆光等等,能够表达的人物情绪也有区别。而色调方面,包括冷色调、暖色调,或者可以用某一部电影当中的调色, 如教父的风格等等。而构图方面则包括水平构图、对称构图、 s 型构图等等,可以让生成的画面体现更多的情绪。最后一点是质量词, 像胶片颗粒质感电影感构图、超高清十六 k 等等,这些词汇都能提升生成结果的画面质量。例如在设计好陌生和零路的形象之后,我们就开始了第一张图片的生成,这张图片就集合了刚刚 所说的提示词结构相关要素。景别方面要求是航拍镜头远景,而这里的白天晴天则是在描述时间和光照。绵延的青山瀑布、溪流是在描述画面当中出现的事物。 而像胶片颗粒质感、电影感构图、超高清十六 k、 三 d 高净度建模则是在描述画面的美术风格 及相关的质量词。可以看到,在这些描述当中,我们并没有描述色调,这里主要是从两个方面考量的。第一个方面,本身 ai 生成的图片在色调上表现的就足够优秀了, 不需要去单独的提及或者调色,即便要调色,也可以用后期的剪辑软件,以更加可控的方式进行调色。第二方面就是我们在生成图片时 刚刚所提及的各种提示词结构,并不是每一种都要在生成图片时使用,比如说景别,有时候我们不去描述,但要求生成的内容是人物的证件照,通常也会采取近景取景框、指框选人物上半身的方式来生成人物的证件照。 所以在很多情况下,我们就主观的描述自己想要生成的画面,无需考虑刚刚我们所讲解的提示词结构也是能够生成很好的效果的。当然,如果生成的质量不佳,我们自然还是要根据刚刚的提示词结构来了解如何去完善当前所书写的提示词,生成更加令人满意的效果。 下面再来看生成图片时的提示词描述技巧。首先第一点,提示词描述尽量直观、客观,和写作文、写小说是不同的。在生成图片时,太多的修饰词可能会导致 ai 误判我们的意图。比方说我们上一节课所展示的说长城蜿蜒的像一条巨龙, 我们的目的并非是要生成巨龙,而是在描述长城本身这个建筑的宏伟景观。但很多时候 ai 是 不会了解这样的华丽的词造的。类似的描述还有鲫鱼越出水面飞的很高,就像是长了翅膀一样。 用这样的描述来生成图片,也极有可能会让 ai 认为我们要生成长了翅膀的鲤鱼,而并非在描述鲤鱼飞的很高。可以看到此时生成的结果就当真生成了一条长了翅膀的鲤鱼。因此在描述时要保持直观和客观。第二个技巧,脚本只是参考 画面描述,主要还是要靠自己思考。在很多的 ai 视频生成教程当中,会有一些教程会教大家直接复制粘贴脚本当中的提示词来生成分镜头画面。但事实上,在这些分镜头画面的描述中,会存在很多不合理或者不适合在同一个镜头下生成的内容。 例如我们看第一个镜头陌生有什么样的造型,青石有什么样的造型,同时还描述了陌生身上戴的这块玉玺是长方形的, 有淡白玉色,有简单纹路。但实际上我们都知道,在一个人物的全身,也就是打坐的画面中,人物身上所携带的这块玉茭是基本不可能看清上面有什么样的纹路,甚至看不清它具体是什么形状的。因为在整个画面当中的占比可能非常的小, 所以像这样的画面我们就无法在同一个脚本分镜头中生成,而是至少需要分为两个画面,一个画面是陌生在打坐的画面,另一个画面才是欲绝的近景镜头特写。如果直接复制粘贴这里的提示词生成的画面就会非常的矛盾。所以大家作为导演, 在拿到剧本脚本之后,最好能够先在自己的脑海中形成一个完整的画面,在更多的时候,我们根据自己脑海中所形成的完整画面进行提示词的直观客观描述,这样往往能够生成更好的效果。而第三点就是 ai 目前能力有限, 有时需要适当的修改提示词描述的内容,或者在生成好内容之后,我们对剧本和脚本进行一定的更改。举一个简单的例子,例如像当前故事剧本当中的第一句话,他猛的睁眼,将手中的欲绝置在青石上, 欲绝滚落进西间。如果大家有一定的 ai 视频生成经验的话,会发现这一句话当中所描述的人物动作在 ai 视频片段的生成中其实非常难制作,人物需要先将手中的欲绝抛出,欲绝需要掉落在青石上, 同时在青石上还要进行滚落,滚落到西间见其涟漪。如果是真实拍摄视频,这一串动作并不难做到,但实际上在 ai 生成时,这种涉及到诸多物理碰撞的内容 想要制作成功是一件十分困难的事情。所以这里我们不妨直接让玉玑丢进水中,同样能够表现人物打坐三日无法引气入体、内心烦躁的情形。 当然,在遇到类似的情况时,可以先尝试按照剧本当中可能更复杂,但表现力也更好的画面去生成,如果做不出来的话,再考虑改为更加简单的画面。第四个提示词描述技巧,就是有角色说台词的画面时,尽量使用近景正面镜头。这同样是我们将来在给角色对口型时, 是否成功的给角色对口型进行考量的。在极梦 ai 当中,给角色对口型使用的是数字人功能,他需要我们先上传一段视频或者图片,再添加对应的配音。当我们需要对口型的人物是一个远景人物, 且并非正面朝向镜头时,此时对口型要么会失败,要么效果非常不明显。比如说我们来看这段视频,孤独 使我的内心更加坚强。可以看到,虽说生成的画面,人物的嘴部依然是有动态的,但整体的表现效果会相对一般,人物的身体也伴随着说话出现了不太自然的动态效果。我们再来看一个人物近景特写对口型时的画面,古董 使我的内心更加坚强。可以看到,此时生成的画面,人物的口型和台词就十分匹配,且面部的动态表现比较清晰自然。所以当我们遇到有角色在说台词的画面时,就尽量使用近景和正面的镜头,以获取更好的对口型效果。 我们最后来看图片生成之后的修改技巧。在通过纹身图生成图片时,很多情况下并不能一次性就生成让人满意的效果,但也许生成的图片百分之八十是满意的,剩余的百分之二十相比于重新生成一张进行后期的修改是性价比更高的选择。 有些时候我们需要表达一个很长的镜头,以此来表现画面的时间流逝或者是人物的一连串动作。所以我们首先来看第一点,固定镜头下长时间事物运动的表达技巧。这里就包含很多方面了,比如我们现在想要表达一年四季的变化, 那么在生成好人物盘腿打坐的画面之后,我们就可以直接让 ai 大 语言模型帮助我们固定画面当中的人物造型和构图,但只改变画面当中的四季。 我们首先生成的第一张图片是类似于春季或者夏季,在提示词中,我们要求将上图的季节改为秋季风格,其他部分保持不变,此时就获取了人物在秋天打坐的画面。 同样的道理,我们继续描述将上图的季节改为冬季,其他部分保持不变,那么最终就成功的将图片改为了冬天的季节。有了这些图片之后,我们使用首尾帧生成或者多帧生成的方式,就可以生成一组 人物,从春天到夏天再到秋冬天,一直在这个位置打坐,以此来表现人物十分勤勉,十分有毅力的镜头片段效果。当然,除了描述季节之外, 我们也可以描述将人物修改成某种姿势,在人物的身边添加某些事物,减少某些事物,其他部分保持不变,相信大家这里都能举一反三,我们就不再赘述。 第二个图片修改技巧,就是如何在保持造型和风格一致的条件下修改环境和状态的技巧。其实这一点在大多数情况下不需要我们特意去保持, 因为使用 ai 大 语言模型来生成图片是有上下文关联的功能的。比方说我们在刚刚演示时,提示词中只描述了鲤鱼跃出水面,飞的很高,就像是长了翅膀一样, 本身的意图是想单独生成一条跃出水面的鲤鱼,但得益于 ai 大 语言模型能够关联上下文的能力,他依旧认为我是想要基于上面这张图片来修改新的内容,而且可以看到生成的结果在美术风格上同 同样保持了上图当中的风格,所以很多情况下我们不太需要单独的提及要保持画面的风格。但需要注意的是,在实际的制作过程中,偶尔会出现我们上传了一张参考图,但生成的结果和参考图在造型上美术风格不统一的情况。 就像这里是我之前制作了一个 ai 故事短片,在制作的时候,像这张图片是一个已经制作好的角色,造型,是一个三 d q 版卡通形象,但人物整体还是偏向于写实的特征。在上传了这个参考图提出了相应的修改要求之后,可以看到生成的结果并不能让人满意。 虽说人物在造型的设计上保持了一致,但整个人物的比例和特点都发生了翻天覆地的变化,因此在遇到这种情况时,该怎么解决呢?最好就要更换一个图片生成平台。在使用不同的图片生成平台生成图片时,其实每一家所使用的生成模型都会有所区别, 可能有些模型擅长生成写实的风格,有些模型擅长生成绘画的风格,有些模型这个角度生成不好,有些模型这个风格生成不好,这些都是很常见的情况,所以大家在对图片的内容进行修改时,也不要在一棵树上吊死。 如果时代生成不好,除了用极梦 ai 或者豆包平台之外,也不妨尝试用其他的平台,比如说用可灵 ai, 或者像一些开源的使用 context 的 模型, flex 模型或者 banana 模型的工作流都是可以的。例如现在来到利布,利布 ai, 我 们点击这里的在 comfui 运行, 此时就来到了 comfui 工作流的操作页面。这是一个 context 的 模型的工作流,其基本功能就是参考图生图。在左侧的图像输入窗口, 将刚刚未能在豆包上生成成功的人物造型进行上传,在提示词描述当中描述我们的需求,例如这里我们就输入和在豆包上一样的提示词,根据图片生成人物特写,生气,拍桌子、表情愤怒。而比例方面我们修改为十六比九,然后直接点击开始升图, 可以看到一段时间后,图片就生成好了,整体的生成效果还是非常出色的。我们将在豆包上面生成的人物造型放在旁边,同时将原版的人物造型参考也放在旁边。 可以看到,在对比之下,显然使用 context 的 模型工作流能够生成人物的造型更加统一的画面效果。当然在豆包上大多数情况下是直接可以修改的,只是偶尔会出现这样的问题。 对界时也不妨尝试使用其他方式,在保持人物造型和美术风格的情况下,来修改环境和画面当中事物的状态。最后一点就是灵活的使用参考图生图的功能。要知道参考图生图不光只局限于上传单一的图像参考,目前大部分的图像生成平台都是支持多图参考的。 比如现在我们将陌生的人物形象和零度的人物形象同时上传,在上传好之后,输入提示词,生成人物骑着白鹿在丛林中的画面,然后点击发送,可以看到最终生成的效果。既保留了零度的形象,也保留了陌生的形象,同时也符合了提示词中 描述的人物在丛林中的画面的要求。在很多其他的事物无法生成出来或者生成的结果不符合要求时, 同样可以使用多图参考功能,将指定的物品按照提示词的要求进行结合,灵活的使用参考图升图的能力。最后来简单总结一下这节课我们讲解了图片生成的相关知识,包括前期准备、提示词结构、 提示词描述技巧和图片修改技巧。这些知识能够帮助大家在生成分镜头图片时更容易生成出理想的画面。当然大家在实际操作时遇到任何的问题也非常欢迎在评论区留言,我会尽可能帮助大家解决在操作过程当中遇到的问题, 同时也会分享相关的课程资料。以上就是本期视频的全部内容,对你有帮助也不妨点赞关注、支持一下,我们就下期视频再见。 大家好,在先前的课程中,我们已经讲解了 ai 剧本脚本该如何生成,以及如何根据我们所生成的剧本脚本生成对应的分镜头图片。这节课就到了正式的生成 ai 视频片段的环节了。目前市面上的 ai 视频生成平台有很多,我们该如何选择呢?根据我这些年的使用 经验,综合操作的便利性、生成的效果和平台所提供的功能来看,通常我们制作一个完整的 ai 视频作品,能够用到的平台有三个,分别是可玲、 吉梦和 made journey。 我 们下面就分别对这三个平台进行逐一介绍。首先来讲解吉梦平台的视频生成功能。来到吉梦 ai 的 首页, 可以看到在这个页面的最上方我们就能够找到相关的生成选项。其中默认的这个 agent 模式是允许我们输入任意的要求,当前平台会根据已有的功能来尽量满足在提示词中所输入的要求。 但目前这项功能还不算特别智能,生成的效果有时会不符合我们的想象,所以要专门生成视频的话,我们还是使用专门的生成功能比较好。 击左侧的生成分选项,来到专门的生成页面,然后在左下方将当前的功能切换为视频生成功能。在几乎所有的 ai 视频生成平台中,视频生成都分为两个类型,一个是文声视频,另一个是图声视频。 要强调的是,几乎在所有的情况下,纹身视频都不是一个明智的选择,因为纹身视频在内容上是较为不可控的,无论是画面当中的形象,还是在生成视频时,视频中事物可能发生的变化,以及镜头的运镜都存在相当多的未知数, 所以在几乎所有的情况下,使用图声视频才是明智的,更加高效的选择。当然我们也会简单的讲解一下在纹身视频时有哪些注意事项。既然是纹身视频,我们所描述的内容就要远比图声视频要多,不仅需要描述画面当中镜头的运动方式 和事物的变化,同时也要描述画面本身有什么。所以我们这里来回顾一下生成图片时的提示词基本结构。可以看到需要非常清楚的生成一幅画面就要描述关于画面的诸多方向,所以这里我们首先描述景别,例如近景,一个少女穿着白色毛衣,在白天 走在街道上,冷色调电影感构图。然后就是来书写质量词,例如胶片颗粒质感、 超高清十六 k 等等。在描述好关于图片部分的内容之后,先不要着急生成,我们还需要描述和画面当中的运动以及运镜相关的内容。 首先来描述运镜方面,像人物走路的画面就非常适合使用镜头跟随的运镜,我们就书写镜头跟随人物。而人物方面呢,我们就描述面向镜头向前走。现在生成一个图片时所需要的内容,以及生成一个视频时 需要描述的内容都已经描述好了,就可以回车发送了,可以看到最终整体生成的视频效果还是不错的, 不过像人物的长相,画面的具体内容,街道上有无行人,人物的年龄,这些内容本身我们就没有描述,所以生成的也比较随机。 虽然整体视频生成的质量和动态效果是好的,但在内容上未必都是我们需要的。所以这里再次强调,不建议大家使用文声视频功能, 多数情况下就使用徒生视频,那么今天说到徒生视频,我们下面来看一看徒生视频都有哪些功能机制。大多数的视频生成平台这些功能机制都大同小异, 所以我们就只讲极梦 ai 上的主要功能,大家在使用其他平台时注意举一反三。首先是最为基础的手真,徒生视频功能 也是最常用的一项功能,这项功能需要我们通过戳拽或者点击上传的方式将图片上传到手针图的预备窗口当中。在上传好之后,接下来就是输入提示词描述了。不同于文声视频, 图声视频本身上传的参考图就已经给出了充足的画面信息,因此在图声视频时,我们就只需要描述画面当中事物的运动变化以及运镜即可。 首先来描述运镜,这里我们就描述固定镜头,水在流动,风吹起人物的头发和草地。因为当前的画面我们要展示的是我们在上一期视频中生成的人物在打坐的画面,因此无论是运镜方面还是人物的动态方面,都会相对显得比较静态。 我们需要尽量的让画面当中可动的部分进行一定的运动,将画面当中的水流还有草被风吹动的效果都可以在提示词中提及。在写好提示词后就直接点击生成图生视频时会直接根据图片本身的宽高比 来决定视频生成的宽高比,所以大多数时间就是上传图片,描述运镜和事物的变化,然后点击发送就可以了。趁着生成的这段时间,我们来讲解一下相关的参数设置。 先是视频生成模型,和其他平台一样,在选择视频生成模型时,版本标号越高的模型通常效果就越好,但消耗的点数也会越多,建议大家在使用时都选择版本标号最高的。这里的生成方式在集梦上有首尾帧升视频、智能多帧升视频和参考图升视频三项功能, 而宽高比方面通常选择自动匹配,时间方面有五秒和十秒可选,这里不是很建议大家在非必要的情况下选择生成十秒钟的视频, 因为视频生成的时间越长,画面当中的动态以及各种结构的可控性就会变得不可控,极有可能会生成失败。至于运镜方面,目前极梦 ai 上提供了一些运镜的模板, 这些运镜和我们自己手动输入提示词在效果上是一样的,所以如果不太清楚运镜该怎么描述,可以直接使用模板当中的描述,知道怎么描述的话就直接在提示词里面描述。现在视频已经生成好了,来看一看效果如何吧。可以看到整个视频的动态效果还是不错的,水的流动非常的自然, 风也轻微的吹动了,人物的头发槽也在轻轻的晃动,像这样的视频生成,每次的效果都是有一定随机性的,如果对当前的效果不够满意,可以根据当前的提示词和生成的效果对提示词的部分加以改进,或者适当的修改原图当中的某些内容。当然如果觉得全部都没有问题, 都是因为随机性导致生成的效果不好,也可以直接点击下边的再次生成,这样就不用再编辑,直接会重新生成一条新的视频。 下面再来看首尾真生视频,就是字面意思,我们刚刚已经上传了首帧图,用首帧图生成了一个视频片段,通过首帧图生视频,人物在结尾时是如何表现的,画面中的事物在结尾时是如何发生变化的,这些都是未知数。 但首尾真生视频则不同,我们现在再来上传一张尾真图的图片到预备窗口当中,此次上传的是这张陌生在秋天的环境中打作的图片, 这样一来我们就可以控制生成的视频在伪真实是有怎样的事物变化和画面表现了。提示词我们同样书写固定镜头,水在流动,风吹起人物的头发和草地。这里进一步的我们要增加一个对于运镜的描述,叫延时摄影, 水快速流动,草快速摇晃,通过这样的方式让画面当中的水流和草的晃动能够更加迅速,以此来表现画面当中从夏季 快速到秋季的效果。至于时长方面,我们这里可以赋予它更长的时长,给整个的移轴摄影效果留出充足的时间,当然这里我们就选择五秒钟,其实也是够用的,现在再次点击生成一段时间后,视频就生成好了,来看一看效果如何吧。 可以看到最终生成的效果,虽然在落叶飘落到地面上的效果时还不错,但整个人物后方的水流效果就显得非常假了, 这也是生成的随机性导致的,可以考虑多生成几次来获取更好的效果。我们继续来看极梦 ai 上视频生成的下一个功能就是多帧生成,点击这里的下拉菜单,将首尾帧生成修改为智能多帧,此时就会多出一个图片上传窗口。 而我们要做的事情就是在第三个多帧上传窗口再次追加一张图片,将其拖拽到这个位置,此时可以看到在图片与图片之间有一个间隔的位置,点击这个间隔的有摄像机图标的位置, 会弹出一个文本输入框,这个位置是用来描述图片与图片之间在运镜和事物变化上的描述的。我们上传的第三张图片是人物在动 冬季打作的画面,因此提示词描述基本上和上一张在季节上更替的描述保持不变。当然,因为有了前车之鉴,上一条视频生成的并不是很好,所以在提示词里面我们可以追加一个描述,那就是季节快速更替,同时将水快速流动这个选项进行删除, 让 ai 字型来决定水该如何流动,然后复制下来,点击确定。同样把上一段图片与图片之间衔接的提示词内容替换为当前的内容,点击确定。多帧生成功能。在图片生成时,它的上限不止三张,我们可以继续添加第四张、第五张图片,以此来生成一个连贯的、 时间较长的视频画面,来表现更多更长的画面当中事物的变化动态。例如像先前我就生成过一个使用四张图片合成的多帧生成的视频,就是这个人物在水中游泳的视频。 可以看到整个视频的连贯性,还有人物表情的自然性还是表现的相当不错的。视频的持续时长长达二十秒左右,不过像这样的长度对四张图片在人物长相特征和环境的一致性上要求就比较高了。我们回到最下方,现在图片和提示词都已经描述好了点 生成,看一看效果如何吧。可以看到最终在生成效果上表现的依然在水的动态上,不是很尽人意,这也是当前的视频模型本身的机制导致的。在遇到这种情况时,大家不妨尝试更换视频生成模型,以此来谋求更好的效果。所以我们下面来讲解一下其他的 ai 视频生成平台。 在讲解之前,我们来提一嘴最后的主体参考功能,这项功能允许我们上传画面当中事物的参考图, 如上传一只兔子,上传一个帽子,提示词就书写兔子戴着帽子在做什么事情,这样一来会使得生成的视频内容 在兔子和帽子的造型上保持和上传参考图一致的形象。但这种方法和文声视频类似,虽然一定程度上保持了画面当中所出现事物的造型是符合我们需求的,但依然在其他的方面,比如周围的环境、色调、氛围上是不可 有空的,比不上我们先通过参考图生图的方式,将兔子和帽子生成在同一个画面上,然后在确保画面当中在色调、氛围和周围环境上也是符合我们需求的,再来进行图生视频。 因此这个功能我们就不再赘述,大家感兴趣的话可以上传参考图,配合提示词的描述,生成一段视频试一试。我们下面再来讲解一下关于可灵平台的使用方法。来到可灵 ai 的 首页,需要先说明的是,这些视频生成平台在使用操作和功能上基本上大同小异, 在可灵 ai 平台依然是点击左侧的视频生成选项,可以看到同样分为了文声视频和图声视频,具体的操作也和在极梦 ai 上是一样的,所以我们就不再做过多的演示。唯一多出的一项功能是这里的多模态编辑功能,这项功能能够对视频当中已经出现的事物 进行替换,增加元素或者删除元素。我们就以替换元素为例,这里先前我已经生成过一条视频了,我们可以看一看效果如何。 这条视频当中显示老人在喂狗的画面,其实原视频是展示的老人在喂猫的画面,而参考图是一只狗。那么具体该如何操作能够把视频画面当中的猫替换成狗呢?我们下面来简单演示一下。首先需要将进行多模态编辑的视频通过拖拽或者点击上传的方式 上传到这个位置,在上传好之后,可令 ai 会分析视频当中都有什么事物,如果分析成功,会自动弹出一个窗口,在这个窗口中 我们的鼠标就变成了一个自动选区工具,可以通过点击的方式选中要进行替换的内容。比如点击这只猫的部位,此时猫的身体就变成了绿色,如果某些地方 没有变成绿色,我们就多点击几下,让绿色能够覆盖猫的全身。当然此时的绿色范围只显示当前我们所见的这一帧画面的内容, 其他真的画面是否也把猫给选中了呢?可以点击这里的预览完整选区选项,可以看到此时视频就开始自动播放,如果在整个播放过程中, 几乎猫的全身都是绿色,那么就说明整个猫在将来会被成功的进行替换。确认无误之后,就点击右下方的确定选项,然后在下方我们需要上传一张去替换这个猫的事物。 自己上传一张图片,也可以选择官方所提供的素材。在上传好图片之后,同样会弹出一个窗口,让我们选择参考的是什么?参考的是长相,参考的是主体,或者参考的是服装,通常选择智能参考就可以, 我们点击确认。最后是提示词描述的部分,可以看到这里可怜 ai 已经给出了一个书写的模板,我们直接填空就行了。使用图片中的主体 替换视频中的猫。这里之所以写主体,是因为图片里面这个东西具体是个什么也不太好判断,是一只小黄鸭,戴了个兔耳朵帽子,所以直接描述主体就好了。而视频当中我们要替换的这只猫就很明确了,它就是一只猫,所以这个框里面就写猫, 这就是关于替换元素该如何使用。至于增加元素,我们在上传一条视频后,点击这个视频的位置,并不会弹出窗口,让我们设定在哪个位置来增加元素。 全屏提示词的描述,在上传好主体参考之后,可以看到下方的提示词描述框已经打好了模板,告诉我们基于视频中的原始内容,以自然生动的方式 将图片中的什么,我们就这里写主体融入视频中的什么。这里的这个框是用来描述你要生成的具体位置的,比如猫的旁边,这样一来生成的视频就会在猫的旁边来加上我们所上传的这个事物的造型。 而删除元素的话,和替换元素的操作方法类似,在上传视频之后,会自动弹出一个窗口,或者我们点击已经上传好视频的位置,也会弹出这个窗口,通过选区的方式选重要进行删除的元素,点击 确定。而提示词呢,就描述删除视频当中的什么,这里当然是写猫,这样一来新生成的视频这个猫就会被删除了。这就是关于可令 ai 视频生成功能当中的多模态编辑功能, 具体该如何操作,不过具体的效果大家可以看到,像右侧视频当中的这条狗,在替换之后,在清晰度上是远不如视频当中其他的部分的。因为要想使用多模态编辑功能,我们只能使用可灵一点六模型,而可灵最新的是二点五 turbo 模型, 中间差了很多个版本,所以是否使用这项功能就看大家的取舍了。在更多的时候使用多模态编辑,其实更适合去处理在现实生活中拍摄的视频,而非 ai 生成的视频, 毕竟在处理 ai 生成的视频时,与其在视频上处理,不如在源头,也就是在生成视频时所使用的图片上去处理,要来的更加方便。我们在刚刚可令 ai 和吉梦 ai 的 演示中,或多或少都出现了画面质量不佳,或者生成的动态效果不好的情, 这也是我们此次讲解要讲解多个平台的原因,那就是每个平台的视频生成模型都有各自的优劣,可能在生成某些场景时表现很好,但一旦遇到一些特定的场景,比如像吉梦 ai 遇到流水的场景,就生成的不尽人意。所以下面我们来讲解一下关于 madejurney 如何生成视频。 相信大家平时生成图片都是使用 discord 的, 所以首先我们来到 discord 的, 在任意的图片生成结果的右下方点击这个位置,此时就来到了 madejurney 的 官网, 果是第一次通过这种方式打开 made journey 的 官网,我们需要点击左下方的 sign in, 然后选择用 discord 的 账号来登录一下, 在登录完成之后,点击左侧的 create 选项,这时就来到了生成页面,在这个页面可以生成图片,也可以生成视频,我们这节课就只讲解生成视频相关的功能,点击左侧的图像加选项,在这里可以上传首尾帧图片。上传好之后,我们来了解一下相关的参数设置。 先是最上方的提示词输入,这里的描述方式和先前在其他的视频生成平台一样,主要描述的有两个方面,一个是视频的运镜,另一个是画面当中事物的变化,例如这里我们描述人物,戴上墨镜,在写好之后,记得将提示词翻译成英文。 通常来说,直接上传手帧图描述提示词,然后点击右侧的发送,就可以开始生成视频了。在生成的这段时间,我们再来讲解一下其他的相关功能。可以看到,在上传好手帧图之后,右侧 ending frame 是 上传尾帧图的地方, 它的使用方法和其他的视频生成平台一致,我们就不再重复的演示。但我们可以注意到,在下方有一个 loft 选项,我们将这个选项进行勾选,此时手帧图和尾帧图会自动视为同一张图进行使用这项功能。在勾选之后,我们会生成首尾相接的视频, 这样我们生成的视频就能够无限循环,手帧和尾帧之间能够丝滑的衔接。而最右侧的 motion 选项则是在设置视频生成的,动态的分为低动态和高动态, 选择低动态的话,视频当中物品的运动就会相对柔和缓慢一些,而选择高动态,视频当中事物的变化就会更加激烈,更加迅速。此外,在提示词输入框的最右侧还有一个 settings 选项,在打开这个选项之后, 看到右下方还有进一步的参数设置。首先是视频生成的品质,可以看到这里 sd 指的是标签模式,而 hd 指的是高清模式,对应的大约是一零八零 p 的 分辨率。而下方有单次生成的视频数量,可以看到当前我们所生成的视频一次性会生成四条视频, 而这里在设置数量区域,我们可以选择一次性生成一条或者两条视频,在视频生成好之后,将鼠标旋至在 生成好的部分,这一行就会自动播放预览当前的视频。可以看到在 matejoy 上面生成的视频在整体的质量和人物动态的自然程度上还是相当不错的。我们点击打开任意一条视频,再打开之后, 在右侧会有相应的后续选项可选。我们现在将页面进行汉化,来看一看这些后续选项都有哪些。首先是重新生成选项,在点击之后就会基于当前的提示词和手帧图进行重新生成。 然后是下方的将起始针作为重新生成的参数,或者将提示词作为重新生成的参数。再往下还有自动状态下的低动态和高动态可选。可以看到在这个位置还有一项功能叫扩展视频。 在点击这项功能之后, mate john 你 会将我们当前生成的视频作为一项生成参数。我们可以配合着提示词来描述这项视频在结束之后继续发生什么样的事情。例如当人物戴上墨镜之后,再让人物去吃个汉堡, 或者让人物摘下墨镜来做其他事情都是可以的。这项功能不同于吉梦 ai 的 多帧声视频,它可以基于视频本身配合提示词的描述来延长这个视频的内容。当然,我们也可以在这个位置追加一个结束帧,来告诉 meghan 延长后的视频人物最终是在做什么。 虽然在操作上有所不同,但是在机制上, made journey 的 视频延长功能和吉梦 ai 的 多帧生成功能在底层逻辑上基本是一样的,只是在 made journey 上可能会更麻烦一些,需要先生成一个视频, 再用这个视频加上伪帧图来延长视频。以上就是关于 made journey 的 视频生成功能的具体操作,总结一下,我们这期视频讲解了 ai 视频生成的平台选择纹身视频,以 各个平台的徒生视频功能该如何进行操作。大家日常使用的话,通常选择极梦可灵就可以, 而极梦 ai 在 生成的性价比上也会更高一些,价格大概是可灵 ai 的 三分之一,同时生成的质量也并不比其他平台差。当我们遇到极梦 ai 平台生成不好的视频内容时, 再考虑使用其他平台,看看能否生成令我们更加满意的效果。这也是我们一次性讲解多个平台的操作方法的意义所在。以上就是本期视频的全部内容,如果觉得本期视频的内容对你有帮助,也不妨点赞、关注、支持一下,我们就下期视频再见!

朋友们,我刚刚参加完友赞二零二六年春季发布会,然后他今年的发布会主题叫有效果的 ai。 什么叫有效果的 ai? 用大白话一句话给你讲清楚,就是 ai 现在不再是这种虚头巴脑的一个工具,而他实实在在能帮你解决一些问题,来帮你干活。真正的数字员工出现了, 先回答两个问题,什么是 ai? 什么叫有效果?对商家来说, ai 就是 帮你把重复繁琐低效的事全自动化搞定。有效果不等于概念,不等于 ppt, 是 看得见数据算得清利润,落地即用。这次发布会,友赞直接把 ai 做成了商家的数字员工。有三大核心变化,第一, 招商获客已经彻底变天了, ai 成了新流量的入口。以前招商靠搜索加展会,现在大量加盟商直接在 ai 工具里边问什么是好的加盟品牌。 友赞这次重点推加我推荐官帮你把品牌喂进 ai 大 脑,别人一问, ai 优先推荐你。他的 ceo 今天专门花了一个小时来讲,就是 ai 推荐,正在成为招商的第一渠道。友赞已经帮助很多加盟品牌,比如斑马侠、生鲜调料等等,提升在 ai 平台的可见性,直接带来了转化。 第二,全链路资金自动分账,财务直接解放。加盟最痛的是钱算不清,对账累,跨店主值分账乱有赞。现在全场景自动分账,门店营收、加盟费保证金、处罚金规则设好,自动拆分,抖音、小红书、微信、美团、淘宝,全渠道资金一个后台看明白,最典型的案例就是斑马峡三九铺, 以前财务每个月要花五天时间来进行对账,现在一个小时全搞定,效率直接拉满。第三个 ai 知识运营师帮你把混乱的品牌信息全部统一, 百分之九十。商家现状是,官网写零添加,公众号说用进口添加剂,加盟手册十八万,实际招商十二万。老产品早就已经下架,但市场部还在往外推。 ai 知识运营师帮你把官网公众号、小红书、加盟手册全部梳理较准,统一口径, 一句话,让 ai 对 外说的每一句话都准确、一致、专业。然后就是最重要的一条,有赞的 ai 友好,你直接可以用任何 ai 调用有赞数据,有赞有八千家的开放, a p i 天生开放。现在你用豆包龙虾,你自己的 ai 授权后,直接调用有赞订单、会员、商家数据,比如都导做一里复盘,以前几百家店 excel 加 ppt 做死人,现在一句话 帮我出上个月所有门店的经营复盘, ai 一 键生成 ppt。 最后总结一句啊,有效果的 ai 不是 秀技术,而是帮商家把生意变得更简单,更赚钱。但 整体看完这场发布会之后,其实我的焦虑感又被加重了。现在的 ai 已经进化到在二零二六年以后,如果你还不会用 ai 帮你招商管钱做运营的话,那你真的有可能会被时代甩下。

想在 ai 风口抢占先机吗?今天教你用二十天拿下工信部教考中心颁发的人工智能应用证书,一旦拿下,你就是工信部教考中心认证的 ai 专业人才,薪资方面比头脑会高出一两千,只是基础操作,更关键的是,你还能借助 ai 开展副业,轻松开启稳定副业收入渠道。要注意的是,个人无法直接报考该证书, 需通过正规报考机构申请报名,只要你具备大专以上学历,就可以直接报考高级证书,报考成功后,你将开启线上学习之旅。授课老师是实力强劲的清华博士团队, 课程内容十分丰富,含在 ai 的 发展历程和相关政策法规、扎实的基础理论知识,还会详细介绍 deepsafe, 查看 gpt 等实用的 ai 工具,包括这些工具的本地部署方法,以及在不同行业的具体应用场景等。 学完这些内容,你能从一个 ai 小 白快速进阶成专业的人工智能应用人才。考试全程是线上进行,并且有三次考试机会,只要你跟着课程认真学习,基本都能通过。现在 ai 行业发展势头正猛, 趁现在还有时间,就赶紧去考这个证书,它可是未来五年一定会升值的权威证书。报名通道和流程已经为大家准备好,有需要的话可以开小窗咨询,还能申请团包优惠。

二零二六年教师人工智能应用案例的征集活动已经开始很长一段时间了,他面向全学段的教师设置了教 ai、 用 ai、 创 ai 和互 ai 四类。那四个类型分别都侧重什么呢? 四类的材料与重点方向,我这里给大家列一下。教 ai 针对基础教育类,侧重 ai 通识教学,记住是通识教育哦,注重培养学生的 ai 素养与思维。 u ai 全学段都可以参加,侧重用 ai 工具优化背课、学型分析、课堂互动,提质增效。创 ai 是 职教高教为主,需要自主开发教育的 ai 工具或者系统,解决教学的痛点。互 ai 全学段都可以参加,侧重 ai 安全合规使用, 含数据与事、论理规范、风险防范。那么下面呢,按照官方征集指南,我把四类要提交的具体材料清单和视频以及文档规格一次性地给大家列清楚,大家直,大家直接照着准备即可。 第一,共性材料分为四类,第一个是案例信息表, word 版加 pdf 盖章版。第二是视频通用规格格式, mp 四格式幺零八零 p 十六比九二十五帧时长。教 ai 一 般是小于等于十五分钟,用 ai 创 ai 护 ai 小 于等于八分钟。形式呢,采取 ppt 形式,采取 ppt 录屏加解说,主讲人不需要出镜,不得出现学生正面的肖像。 ai 生成内容需要标注 ai 生成。 第三,然后是需要提供配件,咱们呢,本次都采用的统一的模板,无平台 logo、 二维码外链接以及个人的联系方式。下面我具体说一下每一类都需要提供什么材料。 教 ai, 咱们需要提供的必交材料是案例信息表, word 加 pdf 盖章版教学设计加教学课件加教学实录或者说课视频,完整的课时或者微课程都可以,然后加配套资源,学案、习题、拓展资料等用。 ai 需要提供案例信息表, word 加 pdf 盖章版 教学课件,案例应用视频以及佐证材料创 ai 需要提供案例信息表 word 加 pdf 版, 开发与应用报告演示视频加配套资源包互。 ai 需要提供案例信息表, word 加 pdf 盖章版加教学课件或者培训的 ppt 案例视频,然后还有配套资源需要指导老师可以后台滴滴我哦!

四月份的时候,如果你问任何一个高阶开发者,桌面端该用什么?答案百分之一百是 cloud。 但是为什么到了五月份,大量原本始终的 cloud 的 用户开始疯狂逃离? 答案是令人窒息的账单。表面上看, cloud 更新到四点七之后,解决模糊任务的能力确实变强了,甚至还学会了点儿 gpt 那 种我要稳稳接住你的黑化。但在这背后,他悄悄修改了 tokenizer 的 计费逻辑,不再由用户控制思考深度,而是默认强制思考。 很多用户发现,更新之后的 token 消耗量至少比以前飙升了百分之二十到百分之三十。在传统的对话模式里,这或许还能忍,但在桌面端, agent 需要不断地读取本地文件,检查报错,无限循环执行测试。 一个晚上的全自动 bug 修复跑下来可能什么事都没干成,一觉醒来,几百美金的 token 额度就已经灰飞烟灭,甚至账户直接被刷成负数封禁。 cloud 狂飙的代价是,它正在把桌面 ai 变成一种连中产阶级都用不起的奢侈品。如果说 cloud 是 傲慢,那谷歌的 jammer 在 桌面端的表现只能用惊慌失措来形容。 在很长一段时间里, google 的 动作迟缓得让人难以置信。在这个谁先占领本地桌面谁就赢的关键节点, deepmind 内部似乎陷入了极大的混乱。 jimmy 的 模型表现极度不稳定,上下线差距极大,用很多开发者的话说,感觉就像是对牛弹琴,直接废了。但不可否认,谷歌的底子依然在。为了阻击竞争对手,他们成立了专门的 strike team 死磕 anthropic, 并在违背了多年不碰本地客户端原则的情况下,准备赶在五月二十日 google i o 大 会前极限发布了 mac 版的桌面应用。 谷歌的算盘很清晰,模型层面我暂时没拉开代差,但我要用我手里庞大的 g suite 浏览器和系统级生态强行捆绑你。 而整个五月最让人意外的反转,其实还是 codex 的 反杀。几个月前, codex 在 圈子里的名声并不好,他天天操着一口奇怪的黑话,犹如我不跟你绕,你就是太清醒了。 这种略带江湖气的 ai 语言,让很多严肃的程序员觉得他很不专业。但就是这个像街头混混一样的 codex, 在 五月份彻底掀翻了桌子。他凭什么? 第一,极其暴力的原声计算机控制。它不仅支持浏览器自动化控制,还能直接接管你的电脑操作系统。 很多人戏称它才是真正进化版的太空小龙虾,它会在每天早上你刚睡醒时像个真正的助理一样主动弹出来,告诉你昨天哪些代码跑通了,今天建议怎么改。第二,也是最致命的一击,廉价算力。 这也是为什么大量中国开发者和海外羊毛党集体抛弃 cloud, 转向 codex 的 根本原因。 codex 最聪明的地方在于,它本质上是一个路由器,或者说超级壳子, 它允许用户在后台极度自由地配置第三方 api 接口。在二零二六年的今天,国产大模型在代码生成和多模态理解上的能力已经逼近了美国的一线水平, 更重要的是,它们的价格只有美国巨头的几十分之一。 codex 实际上是借着中国模型的极致供应链优势,在全世界打了一场降维打击的消耗战。你 cloud 确实聪明,但我 codex 挂着国产模型,用只有你十分之一的价格,干成了你百分之九十的活。 在算力成本面前,什么高贵的设计感,什么灭绝师太般的统治力,全都不堪一击。那既然桌面端开打了,既然 agent 这么烧钱,那我到底该怎么用呢?记住一个死理,在桌面自动化时代,永远不要把所有的任务无脑扔给单一的重型模型, 你需要像管理公司财务一样管理你的桌面。 a p i 走向下面,我直接把这套目前硅谷极客圈都在用的三网融合工作流抄给你,建议直接截图或收藏,这能帮你每个月省下至少几百美金的冤枉钱。第一步,零门槛,底层部署, 不要去下载那些花里胡哨的第三方套壳,直接用命令行复制下面三行代码。 jimmy 只要有个公众账号就能白嫖。 codex 需要叉 gpt plus 或 open ai api key, cloud 则最贵,需要 pro 订阅或绑信用卡的 api。 第二步,正确分配工具,装好之后千万别瞎用, 你要学会给它们分配不同的工种。 jammy 去当免费的探路炮灰,他的核心优势是一百万 token 的 免费超大上下文,让他把项目吃透,给出方案,你点头了再动手。 cloud code 可以 当架构师,在多文件的一致性、对边界条件的考虑上, cloud 依然是目前地表最强。 codex 可以 当流水线工人,那些明确的、重复性的需要局换的脏活累活都可以丢给他。但也给个提醒, codex 的 浏览器自动化功能是一个极其危险的吞金兽,一旦它在测试网页时遇到浏览器崩溃,陷入无限重启的死循环,它一个晚上就能烧掉你两百美金,让你的 a p i 账户直接变负数。 所以凡是涉及浏览器的任务,必须一定绝对要设置超时熔断时间。第三步, 把这些工具组合成工作流。早晨掏出 gemini, 把长篇大论的需求文档和乱七八糟的旧代码丢给他,利用免费大模型把思路理清。下午掏出 cloud code, 针对核心模块进行重构,多文件同步修改,确保逻辑严密。下班前就可以让 codex 上场做 review 了。在这场桌面端的大战中,巨头们希望你变成那个无脑续费、任由 agent 烧钱的傻白甜。 但真正的超级个体,是懂得在不同的底层算力之间搭建属于自己的防火墙与调度器。这才是我们今天聊桌面 a p i 的 最终目的。记得关注这里是 ai 商业慢谈,每周分享最新的 ai 资讯和商业理解。

假如你从二零二六年五月二十八号开始学习 ai agent, 要学多久才能学会?接下来告诉你的学习路线,三十天能让你打开新世界的大门,只要你不三天打鱼,两天晒网,跟着这条路线学,就一定能拿到结果。 首先按照这个流程制定学习计划,每天打卡。第一阶段,打牢基础,要先掌握 agent 的 核心理论,弄懂核心部件,弄懂大语言模型,规划模块、 记忆模块和工具这些基础概念。第二阶段是透 agent 的 工作原理和难点,拓展学习力 i ka 等经典 agent 范式。第三阶段,强化训练,了解多智能体写作的逻辑,要知道 pom 调优的技巧。 第四阶段,进行实战,结合前面所说的进行实战,自己动手搭建几个大模型项目,这样就能把技术运用到实际业务中去,升职掌心不是问题。现在你还不知道从哪里开始,我特意整理了这套大模型学习资料,现在免费分享,需要的留下大模型打包带走。 目前这个 agent 智能体应用开发非常火爆啊,在这个很多招聘岗位上哎,都能看到 agent 一 些开发的一些岗位,那我们今天的话就给大家分享一下啊,如何基于这个 loken 快 速的去开发这个 agent 智能体应用啊。啊, 那首先的话我们来讲一下啊,我们要去开发这个 agent 的 应用的话,那首先我们得了解一下这个 agent 它的一那个一些概念啊,那 为什么我们要会要用到这个 agent 呢?啊,因为首先啊,大模型的话,他是没有这个行动能力的啊,大模型就是 你问他什么问题,他给你一个结果,但是你要让他做一个什么事情的话啊?就是这个是不行的啊,因为他目前我们大模型啊,主要是做那个什么呢?叫 a i g c 啊,说白了就是内容生成啊,他就只能给你返回一些文本的一些内容啊。 那这时候的话,我们就要,哎,要有这个,你要做一个系统性的一个工程啊,比如说我们要做一个旅行规划的一个这个哎项目啊,那这个应用的话,就是首先啊他需要知道这个位置信息,然后需要知道最近的一个天气信息, 并且的话,哎它比如说还要帮你预定一些酒店啊,查询一些信息,那这个它是不是得对接一些 api 调用接口才能实现啊?对不对?那么大模型很显然它是没有具备这些能力的啊?这个要具体的一个什么呢? 哎这个叫行动啊,才能去完成这些事情啊。那 a 证它其实就充当了这个这个行动的这么一个角色啊,它 去执行的时候他要需要知道,哎他有哪一些行动,比如说要做计划是吧?你给他啊,比如说问了一个问题啊,帮我规划未来这个三天的一个这个酒店,是吧?就是一些旅行的一些安排,包括一些建议,那他首先得把任务做一些拆分啊,然后的话就是,哎, 你要给他输入一些这个一些数据,对不对?比如说,哎你的计划是几天?然后哎你的一些这个 情况是吧?比如说一些这个年龄啊,是吧?包括这个性别啊,这些东西,你都得告诉他,这样的话他才能帮你去做一些更加细致化的一些这个处理啊, 所以说,哎,我们会给这个 agent 啊,传递一些这个他需要的一些信息啊,然后由 agent 他 去什么呢?做一个行动,哎,他会去调用大模型,把你的一些情况 哎告诉给他,是吧?告诉大模型,让大模型给你一些反馈啊,然后他根据大模型返回的这些结果,再不断的进行一些烂物拆分,再去做执行。比如说 它需要查询天气,做一些日期的规划,对不对?然后它需要查询酒店信息,需要去网上做一些解锁啊,需要给你推荐一些这个当地比较好的一些这个酒店,是吧?那这些东西它都需要去调用 api 去实现啊。所以说啊, agent 它主要是干嘛呢?它要具备一些能力啊, 最基本的就是它需要去具备工具调用的一个能力啊,怎么样去调用这个工具啊?并且的话,哎, 我们要去做一些这个叫剪辑啊,就是你收到这个信息之后,那信息里面,哎哪些东西是比较匹配的啊?比如说你要做一些这个相似度的一些匹配啊, 是吧是吧?那这个里面要有一个解锁器的一个概念啊,他要去搜索一些这个公开的一些信息啊,然后的话我们要去用一些搜索引擎啊,就比如说谷歌搜索啊,维基百科搜索啊,或者其他的那个一些搜索引擎啊,去在线的去查找一些这个酒店的一些信息啊。 然后的话就是,哎还需要什么呢?就是一些记忆功能啊,就是因为 a 证他的一个执行步骤的话,如果任务很多的话,他要执行很多操作,如果说他没有记住你之前的一些交互的一些这个结果的话, 那在后续他帮你去完成任务的时候,这个里面就会出问题啊,就跟你这个请一个助理一样,如果说这个助理做事情的时候老是丢三落四,忘记之前的事情的话,那这个最终的结果啊,大概率是会出问题啊。所以说,哎,这个里面 就要具备一个叫记忆的一个功能啊,那它在整个完成任务的过程中,这个记忆可以实现一个传递跟共享啊啊,然后的话就是,哎,我们这个 agent 里面 如果说执行某些步骤有了问题,是吧?怎么样去做一个调试跟追踪啊?这里的话,我们会用到这个 long smith 啊,等下会给他看一个这样的一个监控啊,就是 整整个一个过程啊。啊,那首先我们要去用这个 long chain 啊,作为一个开发的话,你首先得 long chain 的 一些库啊,包括 long smith, 就是 这个你要让它做监控的话,你得把一些环境变量给配上啊,那这个 long smith 的 话,大家可以去 long smith long smith 的 这个官方后台啊, 这个后台管理里面拿到这个 api 的 key, 并且啊把这个环境变量啊,有一个 trace 的 这个环境变量改成 true 啊,这样的话,哎,它就能监控你的 agent 整个一个执行啊, 大家可以看到这个就是 lms 的 一个界面啊,就是这个就是咱们等一下会调用一些接口啊,这里我们可以看到这个 lms 执行的一些结果啊,就是它是相当于是一个链路跟踪啊, ok, 好。然后,哎,我们要去做 agent 的 话啊,要去做一些工具调用最基本的啊,我们要做一些在线解锁的话,我们要引入一个工具叫这个 terry 啊, terry 是 国外开源的一个啊,不是开源就是商业化的啊, 就是一个这个啊,在线解锁的一个 api 啊,相当于谷歌搜索一样啊,就是它可以去帮你做一些在线的一些搜索, 你可以把这个哎当做一个解锁工具来使用。那这个工具啊,因为它是收费的啊,如果免费版的话,它有一定的使用额度,那大家可以去到这个 tyre 这个官方网站啊,把这个 key 哎给它配置一下,配置到黄金边上里面去,然后我们把这个相关的一些库啊,这个 tyre search result 这么一个库给他导入进来,哎,他就能帮你去解锁这个什么呢?哎,他的一个这个网上的一个结果,比如说我们问他今天上海天气怎么样啊?给他看一下,来,我给他到这个拍唱里面来看一下这个例子啊,看这么一个例子 来看啊,我现在是哎搜索这个维基百科啊,这是维基百科,然后看一下,我看一下上海这个例子,今天上海天气怎么样这个例子,来搜一下 agent 托这个里面啊, 哦,就这个啊,就几行代码,大家看。首先我们要导入啊,导入这个啊, terry 这个解锁啊,解锁工具的这个库啊,你需要把这个库导入进来,然后的话,你要哎用这个 terry 的 这个 search result 的 这个实力啊,然后用这个 search 这个 啊对象去调用它的一个 in word 函数啊,然后把这个提示词给它啊,那这样的话,我们一跑的话, 大家可以看到他这个就开始去抓这个搜索引擎上面的一些数据了啊,大家可以看到,你看他去抓了一个天气的上海的一个网站啊,我们划到后面,你可以看到上海他的一个目前的一个天气啊,当然他是把那个 html 给你抓过来的啊。 啊,这,这个没关系啊,就是反正这个东西会去做一个检测啊,不管他是抓哪个网站的,这个咱们不用关心啊,他反正会给一个结果出来。 ok, 这个就是用 tary 啊,咱们的一个工具做一个解锁啊,好,然后第二个工具咱们叫一个什么呢?叫 retrial 啊,这个一般是用来干嘛的呢?就是啊,说白了就是做 rock 啊, rock 的 那个 r 的 话,其实就是指的是这个 retrial 啊,叫解锁啊, rock, 整个叫解锁啊,这个内容生成增强啊,就是整个解锁知识增强。哎, 这个一般用来干什么呢?就是我们要去,哎,比如说我现在做一个东西啊,就是针对一个什么呢?一个页面地址,比如说维基百科的一个帖子啊,一个这个 文章,是吧?我要做一个问答系统啊,我要针对整个文章提问啊,那你要针对整个文章提问的话,首先你得拿到文章里面的内容,对不对?所以说 我们下面这个例子会用到一个酷,叫 web based load 啊,说白了就是去可以去下载到这个网站内容啊,它里面是一一些 html, 把这个网站内容里面的内容拿到 啊,拿到之后干嘛呢?哎,把它作为一个 log 的 一个内容输出啊,就是我们做 log 的 话,除了我们可以支持本地的 txt 文档啊,包括 pdf 那 些文档以外,我们还可以干嘛呢?用一个这个哎, 网络的啊,用一个页面地址去做 rock, 这个也是可以的啊,因为我们需要拿到最新的一个实时的情况呀,所以说你要针对整篇文章做一个提问,做一个问答系统的话,那你就得实时的去抓取这个页面上的一些内容 啊,这样的话我们就可以针对这个内容干嘛呢?接下来拿到这个内容之后,我们要把它转成向量啊,转到这个向量数据库里面去,然后下次做向量相似度的一个匹配。 向量相似度匹配,就是比如说我有一个这个 x 跟这个 y 坐标啊向量匹配,比如说我这里有一个五 啊,这个六这个坐标对不对?然后这边是一个这个四三这个坐标,那我们去计算这两个坐标它的一个欧式距离啊,或者叫余弦相似度,通过这个给你算出来这两个它是比较匹配的话,就意味着咱们,哎解锁到了相似性的一个内容啊, 比如说我给他看这个例子啊,我给他看一个这个这样的一个例子啊,在这里大家看这个维基百科,我这里提供的一个页面地址的话,其实是一个关于猫的一个维基百科的一个视力啊,大家看这个猫的,你看这么一个视力,就是写猫的一些这个 啊百科是吧?百科知识啊,就是猫的一些这个特性啊,一些图片啊、描述啊,包括历史的一些称呼啊,对不对啊?这猫的一些信息。然后我现在问一个问题啊,就是我想要在这个维基百科整个文章里面, 我想提取我关键的一些内容,比如说我问他猫的特征是什么啊?那这里的话,那我需要关注两个点啊,第一个的, 因为你要去搜索整篇文章里面跟猫的特征有关系的那种内容,是吧?所以说你肯定得干嘛呢?你得有一个啊, webbase load 啊,把这个网站整个内容啊给它拿下来,对不对?拿到这个 load 里面去,然后干嘛呢?把它转成一个 docs 啊?这个 docs 是 longchain 里面提供的一个叫 哎文档的这么一个对象啊,不管你是什么文档, txt 文档还是什么文档也好,最终它会都会变成一个 doc 啊, 然后这里面要通过做一个什么呢? split 分 割文档叫分块啊,因为这个里面大家看啊,这个内容这么多啊,不能一次性加载进去,还要分块,怎么分块呢?按这个大小来分,比如说按一千个字母来分啊,然后还有一个窗口 overlop, 这个参数是干嘛的呢?这个是防止那个文章啊,就是它拆分的时候内容出现丢失,所以说它会帮你做一个重叠啊, 比如说你这个是一到一千个文本啊,这里是一到这个一千啊,一到一千,然后第二块的话就是干嘛呢?如果说两百重叠的话,他会从这个八百零一啊,到这个幺八零零这里啊,他又是一个区间,相当于他每重叠两百个部分 做一个处理。这样的一个好处就是,万一啊,我要是中间内容出现丢失的话,我还有重复的部分,你的上下文你可以接的起来,不然你中间要是丢失一部分的话, 大模型这个时候干嘛呢?他就会出现一些幻觉啊,就是你内容丢失了吗?这里面可能会就会有一些问题,所以说这里非常关键啊,就是这两个参数啊,就一个是创个 size, 按多少次符去拆分,然后一个是按什么呢?这个就重叠啊,好,有了这个之后,我们会把这个什么呢?哎, 把它啊,存储到这个线上数据库里面去啊,这里是啊,将啊, 将这个网页内容啊,网页文本吧,文本存储,哎,转换,转化啊, 转化为向量啊,并什么呢?并存储啊,当然这个存储是存储在内存向量数据库里面啊,他没有把它存到实体文件里面去啊,然后他转向量的话 是通过 open ai 的 这个 inbinys 啊,默认的话是那个 a 打零零二那个模型啊,就是他是用这个模型去做向量的,这个,哎, 转换的,就把文本转换成向量啊,然后接下来干嘛呢?我们要开始用这个 retrial 点 inwork 啊,把这个提示词书里面去,也就是 它会根据你输入这个提示词,在刚刚那个网页内容啊,把它存到向量数据库里面去,解锁这个向量数据库,去找跟这个猫特征这两个这四个字啊,有语义相似性的这个文本啊,来,我们最终来看一下这个效果啊, 然后这里咱们的一个调用,需要注意的是什么呢?这里就要把它封装成一个工具调用啊,大家注意啊,要封装成一个工具调用啊, 大家看,这个是 inwalk 之后的啊,大家看,你看是不是搜索到了,你看猫的感官存在于什么?什么狩猎什么什么的,这是不是把猫的一些什么,你看瞳孔这套特征值啊,一些特征的有关的文本给它输入出来了,对不对啊?给它输入出来了啊, 这个就是叫 re travel 啊, re travel 啊,好,但是这里啊,我们还只是把它干嘛呢?把它封装成一个工具,大家看它是一个 re travel 的 一个工具啊,这个只是我们 agent 需要的工具的一部分啊,这个还没到 agent 调用呢啊,好,那接下来的话我给大家看一下,就是,哎, 工具有了啊,就是我们现在工具有了,接下来你得有什么呢?有一个大圆模型的啊,大圆模型的话我们是用的这个啊, gbt 四这个模型啊,所以说我们要导入这个这个 gbt 模型的一些库啊,比如说啷撑 open ai 这个库,它的目的是为了后面调用大模型啊,这个,这个比较简单啊,好,然后干嘛呢?然后,哎,我们就要开始去傍的这个工具了啊,傍的这个工具了啊, back 完这个工具之后,接下来我们就可以把刚刚提到的那个什么呢,就是那些哎,解锁呀,啊,还有那个天气啊,对不对?把它全部哎。 back 这个大模型之后就可以让大模型做这个 function calling 了啊,也就是让大模型决定你应该调用哪个工具去做内容的一个完善跟能力的一个这个执行啊,好, 那这里的话大家看啊,我们就要开始去真正的去创建一个这样的一个 agent 了啊,到这里 agent 才刚刚开始啊,来,我们来看一下这个例子啊,就 agent 一 般在 long chain 里面是怎么样去创建一个 agent 的 呢? 来,大家看啊,那创建 agent 的 话,首先你得干嘛呢?你得引路啊,引路相关的一些库啊,前面就是我们刚刚说的啊,那些什么维基百科什么的,是吧?那些调用啊,然后下面的话,就是我们把,你看把 terry 这个解锁的话也会整合进来啊。 好,创建 agent 其实非常简单,我们需要导入一个什么呢?导入一个叫 create a tall calling agent 啊,这个是 long chain 里面提供的一个库啊,用这个函数的话,哎,它 干嘛呢?你要传入几个参数啊?首先你要把大模型给它传进去啊,然后工具工具集合啊,大家看这里是个 tos, 叫工具集合,然后还有个 permit 你 要传进去啊,我先来说这个大模型,大模型的话就是我们还是用 gbd 四啊,用这个恰的 open ai 这个库啊, 定义成一个大模型的一个调用的这么一个实力啊。好,然后工具列表,工具列表这里啊,我说一下,就是 第一个工具叫 search 啊,就是我们去解锁啊,比如说去搜索天气啊,或者怎么样我们需要用的这个工具。第二个工具的话就是我们要去干嘛呢?去搜索维基百科啊,就是你当你 agent 你 问一个问题的时候,哎,这个问题里面如果说需要他去解锁这个维基百科的话, 他就会去调用这个工具啊,所以说为什么要传一个工具列表啊?目的就是为了让 agent 执行的时候,他可以动态的去选择用哪个工具, 那他他怎么知道用哪个工具呢?大模型告诉他的啊,大模型告诉给他的,因为你把这些工具的一些描述以及你要问的一个问题都告诉大模型了,大模型因为他可以做语义化理解,所以说他知道应该去调用哪个工具 啊?那注意这一点啊,就是这个是大模型来决定的啊,因为大模型他知道这个语义,你把这个提示是给他了啊。大模型告诉你应该调用哪个工具的时候, 具体调用工具的话是由 agent 去调用的啊,这也需要注意啊,这个工具不是大模型去调用的,大模型只是告诉告诉你应该调用哪个工具,但是具体调用工具的逻辑是由 agent 去驱动的啊, ok, 这比较关键好吧,所以要这是重点啊。 好,然后的话再说这个题词模板,这个题词模板跟我们之前的写的不一样,这个是如果说你要做 agent 要用的话,你得干嘛呢?你得用用一个专用的一个这个 agent 啊,专用的 agent, 这个咱们这里啊加载这个 agent, 它的加载方式不太一样, 它是用一个叫 hop 点 for, 这个是干嘛的呢?这个是 long chain 里面的一个叫提示词仓库啊,就是官方啊,就是它可以什么呢?有一个提示词仓库,你可以不用自己写提示词,你直接用官方的这个提示词模板就可以了啊, 但是你需要写一个名称,就跟咱们拉那个 get 代码一样啊,或者叫拉那个那个叫仓库一样啊,就是你要写一个仓库的名称啊,一般这个名称就是那个 整个组织的名称,然后这个的话是一个项目的一个名称啊,通过这两个东西你就可以拿到那个 t s 模板啊,其实这个东西是在那个网站上可以搜到的啊,大家看啊,这个是浪秤官方的那个 hop 啊,就是 t s 模板,那个仓库在这里大家可以看到啊, 就是这个提示词里面啊,大家可以看到这个里面,哎,它就有什么呢?有很多的这个提示词模板啊,在这个仓库下面啊,比如说我们大家自己看到啊,你看这个其实就是一个提示词模板啊,这个跟我们平常提示词模板啊, 有一个比较大的一个差异,是什么呢?它有一个 place holder 啊,就是前面那几个啊,都比较类似啊,就比如说第一个是系统的定义嘛,是吧?它是一个什么什么一个助手啊。第二个的话叫 place holder, 叫什么呢?叫 chad history 啊,也就是 agent 这个模板的 差异化的地方在哪里呢?他要有聊天历史记录啊,因为 agent 他 去执行过程中,他一定要知道上下文的记录,不然的话他中间某个步骤就会出问题,所以说他必须要有恰的 history 这个提示词模板,它要传递这个参数啊,好。然后还有这个 human 啊,就是用户提示啊,就是我们 agent 呢,它要执行一个什么任务,你得把提示词给他啊,这个也非常关键。然后还有一个也比较关键啊,叫 agent 这个 scrafter pad 啊,这个是干嘛的呢?这个是 agent 他 整个执行过程的一个这个他需要的这么一个指令啊,就 agent 他 执行的一些情况的一些描述啊,他也需要这个,哎,这个相当于干嘛呢?就是 agent 他 执行的时候, 他要知道自己的一些当前的一些执行情况,所以说他不断地传递自己的一些状态啊,这样的话,哎,他就可以干嘛呢?在执行过程中可以准确地做下一步的一些规划。 ok, 所以 说这个是官方提供的一个提示模板啊,提示模板我们通过这个指定啊,这个地址之后,大家在这里可以看到啊,就是这个地方 你就可以拿到这么一个提示模板啊。好,有了这个提示模板之后,接下来干嘛呢?接下来这个 a 证呢,他就可以执行了啊,执行了,来,我们来看跑一下啊。哦,这里到下面大家看啊,有了这个 a 证的之后,这个 a 证呢,还没有正式执行呢, 要执行的话,你需要还要导了一个库,叫 agent execute, 这个才是真正执行的啊,有了这个之后,大家看啊, agent execute, 你 把 agent 传给他,还要把工具也要给他啊,不,工具给他,然后这个 agent 才能真正执行起来啊, 大家看这里执行完之后啊,其实这个结果啊,这个结果,这个就啊出来了啊,当然这个只是我们还在讲创建这个 agent 啊,执行的话,我们接下来往下说啊,好, 倒直行的话,其实就很简单了啊,就是你直接用 agent execute 调这个 in went, 这个啊, inwalk 这么一个函数就可以了,然后你把提示词传进去,它就可以干活了啊, 那我们看这个例子啊,就是这个 agent 托啊,这个 wrong 啊,好,然后其实就是调一个方法啊,叫这个 inwalk。 大家看啊, 这里我特地问了两个问题啊,一个是问这个猫的特征,那这个问题我们刚刚其实已经调用过一个工具了啊,就是那个维基百科啊,就是那个 wiki 啊,我们要去搜 啊,所以说我里面我故意问两个问题,就是让他去同时调用两个工具,这个他是一定要调维基百科那个才能知道的啊?有猫的特征嘛,对不对?然后今天上海天气怎么样? 这个一定是要调那个解锁引擎的啊,因为搜索引擎可以搜实时的,如果说你今上的天气,你去搜维基百科肯定搜不出来的。所以说这个为什么要让大模型去识别呢?因为大模型知道维基百科是干嘛的,他也知道那个 terry 搜索引擎是干嘛的, 当你问这个两个问题的时候,它就能帮你匹配到对应的这个工具去做一个调用。 ok, 好, 这里非常关键啊,就是这个地方啊,大家一定要知道啊,就是这个是哎,大模型去做判断的啊,来,我们来跑一下, 这稍微有点慢啊,这个 a 正的直行的时候。 好,大家如果要领取我们这个课上的一个资料的话啊,可以在评论区回复这个六六六去领取啊。好,大家看啊,这是 agent 执行的一个日记啊,我们看一下它输出了啥啊? 好,大家,我们可以看得到啊,就是在这个里面啊,大家看,你看我们去 搜索猫的特征的时候,是不是调用了一个 wiki 的 一个 search 啊,对不对?这个工具的话是不是我们自己定义的啊?你看这个 name 叫 wiki search, 在 这个里面,它首先要去调用这个维基百科的这个是吧?然后你看它把一堆东西抓出来,抓出来之后,哎,然后干嘛呢? 然后,哎,接下来到了第二个任务啊,就 a 阵呢,它会做任务拆分的,它不是说你这个一句合成一句话,直接调用维基百科, 或者调用那个什么 terry 解锁了,他,不是的,他一定是要把任务做拆分的啊,这一步大家要知道啊,就 agent 他 去执行任务的时候,他跟大模型不一样,你大模型一句话丢给他,大模型把你当做一句话给你做做处理了, 那 agent 他 识别到你这个东西之后,他会干一个什么事情呢?就是一个 task 啊,叫做分配啊,比如说任务一,任务二,然后把任务这两个结果都跑完之后,再给你一个汇总啊,他执行任务的 啊,这个规则一定是这样的,他说先规划再执行啊,所以这个也是为什么叫智能体嘛,智能规划嘛,是吧?他会先把你做任务做拆分啊,拆分完之后,然后分别再用去调用这个结果啊,大家看这个上海天气怎么样?他用调用的一个结果出来是吧?然后最终 大家看啊,最终是不是帮咱们做一个汇总了啊?任务完成了吧,你看猫的特征是不是给我总结出来了啊? 然后上海的天气大家看啊,根据天气网的信息,上海的天气为阴天,温度在十二到十五度之间啊,是不是这个上海天气的结果也出来了啊?所以说 a 政策,他的整个一个执行逻辑就是一定要先做任务拆分,把任务规划规划完之后啊,分布去执行,执行完有结果之后再做结果集合, 大家记住这句话就可以了, ok, 这个就是 agent 的 一个核心啊,好,然后还有一块叫什么叫记忆啊?就是 agent 这个里面有一个非常关键的一个点什么呢? 你如果没有加任何记忆的话,它是没有状态的啊,就是你不知道它之前执行的一个什么过程啊?那你要给它加记忆的话,哎,你在调用的时候传录一个叫什么呢?叫这个 chat history 啊, chat history 就 完事了啊。传录这个之后,哎, 你比如说你可以做一个,哎什么命名的一个定义,比如说你是谁?是不是?哎,你可以干嘛做一个什么事情?那这里的话大家可以看到啊,我们来看这个例子啊,看这个例子来, 比如说你告诉他是谁啊?比如说我注意改一下啊,比如说我叫这个,哎,我的名字是 jack 啊,比如说,你好, jack 啊,你好, jack 来大家看啊,就是我,哎, a 证的执行的时候干嘛呢?哎,我一开始给他做了一个定性啊,就告诉他我的名字是 jack 啊, ai 也给我返回了一个什么 jack, 你 好,欢迎。就是我,一开始 就是咱们做一个开场白啊,就是你让这个 a 整数调用的时候,一开始做一个消息记录的一个。说实话啊,让他给你问答的时候就知道你是谁啊,做一个开场白的一个说明啊,然后你问他我的名字是谁的时候啊,他就能记起来你是谁啊? 这个就叫做给 a 证的添加这个记忆功能啊,这个一般场景就是用来做一些开场白,比如说我们这个 a 证的这东西它是用来干嘛的?然后,哎,你可以问一下几个问题来做一个验证,是吧?啊?那这个东西的话,就是 啊,一般是用来做这个开场白啊,就是你做一个出售化的一个消息啊,这个有点慢啊,再重新跑一下 啊,网络稍微有点慢,我们再跑一下啊,再看一看, 哎,这个结果还是,哎,大家看出来了啊,你看我给他发了这个消息之后,大家看一下这个响应啊, 看一下这个 content, 你 看你的名字是这个 jack, 是 我刚刚刚开始加进去的,对不对啊?可见的话,这个你给他加记忆的话,哎,就是在这个 inwalk 这个函数这里啊,大家把这个 chat history 传进去就可以了啊,其实也非常简单啊,比较好理解啊, 好,然后,哎,如果说我们要自动跟踪这消息的话,我们可以干嘛呢?将其包装在一个 runnablewith message history 里面啊?大家看到啊,就说你的 agent 如果干嘛呢?要区分这个一些 session id 啊,就是我们每一次聊天你需要 精确到这个 section 啊,按 section id 去做一个区分的话,这里大家就要需要注意了啊,就是这个里面就涉及到一个消息存储的一个问题了啊,我们可以看到啊, 在这里大家看啊,就说,哎,你因为我们每一个用户来聊的话,每一个 agent 执行它是有个绘画隔离的,你不能所有的请求都共享一个绘画啊,比如说我新开一个窗口,这个去保啊,比如说这个 c 城,一,我去保 agent 啊, agent 一, 如果说是 session, 二,我希望跑这个 agent 任务,二啊,就是我要做绘画隔离啊,那这个一般怎么实现呢?我们要去用官方的这个叫 random with message history 这么一个类啊,在这里大家看啊,这个里面就是你 agent 执行的时候,你要把刚刚我们提到的那个什么呢 agent 啊,就是我们创建的这个 agent 啊,这个 execute 我 们最开始就直接引 word 调用了,那你如果说要带历史记录啊,带这种 session 绘画的这种方式的话,你需要 把它,哎放到什么呢?一个 runnable with message history 这么一个对象里面去啊,这个对象里面去,这个对象里面你要传入这个什么呢? agent execute 啊,然后这里咱们要有一个函数啊,叫 get session history 啊, get session history 然后干嘛呢?哎,自己大家看啊,在这里 有一个这个 store 啊,我们要根据这个 session id 去取啊,但是如果说历史里面没有这个 session store 的 话, 哎,那接下来一个什么区别就在于什么呢?我们要把里面去创建一个恰当的 message, 说白了就要做消息的始化嘛,当后面有消息之后,哎,因为你我们是继承了这个什么呢? 这个 longchain 内置的一个叫 bestchat message history, 它会把这个消息记录塞到这个里面去,所以下次有这个聊聊历史的时候,我们就可以通过这个 store session 把你的消息给它取出来,并且干嘛呢?把它传送到整个 agent 执行的内容里面去啊,就把 chat history 往下传啊, 所以大家可以看到啊,你看这个里面啊, jack, 比如说我的名字叫 jack 啊, 大家可以看到啊,如果说,你看我现在是是是一个啊,我给大家做一个测试啊,比如说我现在是同一个 session id 啊, agent, 我 执行两次嘛,我看一下第一次的这个响应啊, 比如说我问他我叫什么名字啊?这里我给他打印一下,打印一下啊,在同一个 session id 的 情况下,我看一下这个 response 是 个什么响应, 然后我再看一下,我把 c 声 id 改成四五六,大家看一下它能不能记住我叫什么名字啊?就我相当直行三段啊,我看第一次它是不是能记得起来,对不对啊?然后到第二次我换一个 c 声 id, 是 不是做了,已经做了绘画隔离了啊?来,我们跑一下, 这稍微等一下,可能有点慢啊,这个网络原因 好,大家看啊,你看我的名字是 jack, 你 看第一次说出我叫什么名字哎,你看他知道我的名字叫 jack, 那 还记得住是吧?因为是同一个这个 c 社绘画嘛,所以他能记得住啊, 然后那下面我把 c 社 id 改成四五六了,大家看,对不起,我无法获取你的个人信息,包括你的名字啊,因为他没有历史记录啊,这个绘画历史流失了,你看这个 jack 的 history, 他 就啊, 我是 jack 的 这个信息告诉了这个,哎,整个 agent, 所以 说他就知道啊。 ok, 那 以上的话就是关于这个 long chain 啊,去开发一个 agent 智能体的一个全流程啊,最关键的内容就是,大家要知道啊,就是 整个 agent, 它的一个核心逻辑是什么呢?就是它是有几块驱动的啊,第一块叫这个工具啊,就是因为 我们要做一些天气是吧?做一些旅行规划,它需要天气,它需要一些检测实时的信息啊,就是你必须要有个工具列表啊,供这个大模型帮你去匹配它对应的工具,然后有 agent 去调用啊,这是第一块,然后第二块的话是提示词这一块啊, agent 所有的调用逻辑其实都是基于提示词的啊, 但是它跟普通的咱们去调用有点有一个很大的一个区别,在什么呢?它会先做任务规划啊,也就是你问他这个问题 啊,他没办法一次性给你答出来的时候,他就直接干嘛呢?就会把任务做拆分。比如说我们刚刚那个问题,我们问的是多个问题啊,问的是多个问题,那这个多个问题的话,他就要干嘛呢?哎,首先他要帮你做一个任务拆分啊,比如说问了猫的特征跟今天上海天气怎么样, 哎,他要把这个任务给他拆出来啊,拆出来哎,用这个猫的特征,他就掉那个 terry 解锁啊, 所以说他会先做一个任务拆分,做完拆分之后把每一步拆分的这个结果,哎,单单步的去执行,比如说那个调用工具 有结果了啊,另外一个工具也有结果了,最后把两个工具的结果做一下归并啊,再调用大模型做一个总结。那你就看到一个这个问题的一个答案了啊,这是 agent 的 一个核心逻辑啊。 ok, 好, 以上就是关于 long 开发 agent 智能体的一个分享啊,如果大家有帮助的话,欢迎一键三连。

不会吧,二零二六还有人手搓视频?今天教你豆包加急梦加剪映,一晚上搞定一部漫剧日入八百,现在毫无保留的分享出来,新手直接抄作业。第一步,确定编辑剧本。第二步,确认分界第三步,用文声图第四步,用图声视 频第五步,视频剪辑和配音第六步,检查视频与发布,完整的内容加视频都已经打包好了,感兴趣的关注!主播不迷路!

给你们看个超变态的 ai 工具,不限次数生成的最新版 ai 视频整合包,这个大版本的更新解决了 ai 视频的所有问题,全程没有审核压力,这种情节类电影级 ai 视频随便制作。 喂老公干嘛?老婆在哪呢?在健身房,晚点回去。纯中文界面,不懂英文?没关系,无需联网,更加不用魔法。 更加惊喜的是整合包内置的八十家视频工作流,包含市面上所有爆款视频制作,不管是动作迁移还是变装视频,通通一键搞定。整合包是什么味道呢?六七八,尝尝咸淡。接着教程开始, 大家好,我是杰克,我们一起来学习如何搭建纹身图,工作流以及具体参数都有哪些。那么这个工作流我们上节课 也稍微了解了一下,不过还没细说,现在我们就来看一下这其中都会涉及到哪些参数,以及是如何控制 我们生成的图像的。首先我们看到最左边的这个节点叫做 checkpoint 加载器,那么它是放置大模型的地方,大模型我们可以非常简单的理解为它就好像一位厨师,那么有的厨师做的是中华料理,有的厨师做的是东南亚菜系, 有的厨师做的是日料。不管之后这些参数再怎么调,主体基调都是和我们的大模型息息相关的。那么我们点开来之后可以看到,有的大模型是真实系,有的大模型是动漫系,有的大模型是全能系。各有所长,当然除了这几种大模型之外,还有千千万万的大模型。 我们待会会提到这边,我们就先试验一下,比方说咱们先来一个真实系的大模型,我们待会会提到这边,我们就先看到最终的生成图像,很明显是 解释风格,那么如果我们来到 checkpoint, 把大模型替换成一个动漫类的大模型,随后再一次点击执行,那么此时我们能够明显地感觉到最终的画面呈现出了一种动漫的色彩。 咱们讲完了大模型,就顺着 checkpoint 加载器的输出往后看,那它一共有三个输出,分别是模型输出、 clip 输出以及 ve 输出。 咱们先从它的模型输出讲起,顺着这条线咱们往后看,可以发现,哎,这个模型输出啊,连接到了 k and r 曲线,那么这个节点我们可以看到它属于整套工作流的核心节点,咱们可以把它简单的理解为中央处理器,它就是整个工作流的 核心大脑在这个节点里会进行各式各样的运算,然后再通过解码输出成我们的最终图像。接着我们再看 copy 加载器的 clip 输出,那这 clip 输出连接在了两个节点上,分别是这两个, copy 文本编码器。好,那现在问题又来了, 啥是 copy 啊?要解决这个问题,我们也可以顺着文本编码器的条件输出,哎,我们不难发现,它也是连在了 k 彩样器上,那分别一个连接到了正面条件,而另一个文本编码器连接在了负面条件上。 如果说有学过 vip 的 小伙伴应该就知道上边的这个啊,我们称它为正面提示词文本框,而下面的这个就是负责输入负面提示词的文本框,因为它连接的是负面条件嘛。那么什么是正面条件呢?很简单,就是我们想要啥,咱们就输入啥,比方说我现在想 生成一个女孩,那么就输入 one go, 比如这个女孩在森林里,那么咱们就在 one go 的 后面加一个逗号,紧接着输入 森林的英文,也就是 forest。 当然语言这一块有任何不懂的小伙伴,我们都可以打开翻译器,比方说像这一个有道翻译啊, 挺便捷的,我觉得非常适合康复以外。比方说我们想让它翻译一个随手幅,那么就可以直接把这个英文给复制一下,接着再粘贴回我们的正面提示词文本框,注意词汇与词汇之间要添加逗号。 ok, 现在我们编辑好提示词,大体就是 一个女孩穿着水手服在森林里,咱们点击执行,可以看到最终图像也是成功生成了, 并且完全符合我们的提示词意思。但是我们可以发现啊,这张图片有非常多的瑕疵,比方说他的手或者说他的面部非常的粗糙,确实太多细节了,想要完善这一点,我们会在之后的图 图片高清修复中一起去学习该如何解决这一系列问题。那接下来我们回到刚才的话题,在我们知道了正面提示词之后,咱们就来聊一聊负面提示词, 那这一个也很简单,就是我们不想要什么,咱们就输入什么,比如说我们现在啊把正面提示词给输入花园,哎,一座花园,咱们先点击直行来看一下一座花园它能长什么样,我们可以看到图中的花非常的多哎, 当然我们也可以多生几张,我们可以看到基本上每一张花园关键词所对应的图像花朵都是非常多的,如果我们想让这些花朵的比重 下降的话,那么咱们就在负面提示词这边输入花朵,也就是 flower, 代表着我们不想让画面出现花朵,输入完之后点击执行,现在可以明显的感觉到图片中花朵的比重大大减少了, 我们可以多跑几次,是吧?能够明显的感觉到花朵占比没这么多,但是还是存在,这也正如我刚才所说,负面提示词它根本的原理,我们可以理解为降低提示词的权重,也就是花朵在这一整幅画面中的比重,但并不是完全消失啊, 如果说想要做到完全消失,那么我们可能得提高关键词的权重。怎么提高呢?看到文本编码器,比如说我现在想提高这个花朵的权重,也就是我想更进一步的降低图片中花朵的元素, 那么我们把光标放在提示词上,然后按 ctrl 加上键,哎,我们可以看到数字是不是变成了一点一,哎,继续按上,然后就变成了一点一五,一点二,一点二五, 那么这个一点二五这个值,这个数字越高代表着权重越高,大家只要记得快捷键是 ctrl 加上键,或者 ctrl 加下,那么就是降低权重嘛,我们可以试一下,对吧? ctrl 接下,我们现在看到后面的数字一直在减小,代表着权重在降低, 那比如说我现在啊把这个权重给调成一点六,接着我们再跑一次,能够明显的感觉到花朵的元素占比 非常非常小,已经几乎消失不见了,那么如果我们把这个花朵,嗯, ctrl 下,哎,我们降低它的权重,比如说降低到零点五吧。此时我们再点击生成, 我们可以看到画面中又出现了花朵的元素,那这就是正负面提示词以及权重的使用方法,没听懂的小伙伴可以回去多看几遍。接下来看到下边有一个叫做空蕾特的东西, 哎,啥是雷特呢?我们看看他的参数自然就明白。可以看到他一共有三个参数,分别是宽度,高度还有批次大小。很明显 他是一个控制我们图片比例以及分辨率的地方,比方说高度我们设置为七百六十八,相当于此时的宽高比二比三,点击执行。哎,那么最终图像也是瞬间就变成了竖屏比例 么?这就是空格忍的作用。还有个 p 次大小,则是控制单次任务会出多少张图片,比方我们把 p 次设置成四,点击执行,那么此时可以看到保存图像这边多了一个交叉按钮,点击一下我们就可以发现哦,一次性啊生成了四张图片。 接下来我们看到 k 传感器,那么刚才我也说了,它就好像整个工作流的核心大脑,负责处理一切事物, 其中它也是有非常多的输入以及参数。首先看到随机种,我们可以把它理解为图片的身份证号,那么相同的参数以及相同的随机种出图会保持一 致。同学可能还不太理解,我们这边先把 pc 大 小设置为一,随后点击执行,哎,我们第一次升图是长这个样子,接着我们再点击执行,可以看到图片 立马换了个样,细心的小伙伴可以发现呢,这两张图片每次生成的时候,随机种也不一样,但是其他参数我们变了吗?比方说关键词 我们有改变吗?模型有改变吗?或者宽高有改变吗?很明显没有。那这就是随机种子的作用,能让我们相同参数生成各式各样的图片,同时只要我们约束随机种,我们也能保持出图的一致。比如说我们看到运行后,操作 a 把它设置为固定,那么代表着我们生成完这张图片之后啊,随机种子会保持不变。那么既然随机种保持不变, 此时我们再点击执行,可以发现工作流直接不动了,那么因为啊,我们的所有参数都没有发生变化,代表着如果我们能跑起来, 那么最终结果也还是这张图片,所以说康复以为会直接不动。接下来我们看到步数,那么这个值,我们可以把它想象成毛巾擦拭一块脏玻璃的次数,哎,很迷是吧?我们的 stable diffusion 生图过程啊,其实是不断地为一张噪声图像降噪,降噪,最终生成而成,那么步数也就是降噪的次数。当步数过低时,可能这块脏玻璃还没有擦多少下,上面全是灰尘或者说扭曲的色块。我们一起来直观的 看一下。比方把步数设置为三,接着点击执行,可以看到这段画面,啥玩意啊,根本看不清。而此时我们把步数设置为七,然后点击执行,可以发现,哎,画面稍微清晰了一点,但是好像 细节没这么多。大家想象一下,我们为一块脏玻璃,如果说只擦七下跟擦一百下,那呈现的效果肯定是不一样的,比如我们此时啊,把步数设置为四十, 这个时候脏玻璃上的灰尘基本上都被擦干净了吗?可以看到细节就多了很多,图片的质量也相应的有所提高,但并不是步数越高就越好。哎, 什么意思呢?一块玻璃啊,擦一百下跟擦两百下有区别吗?区别不大,因为当我们擦到一百下的时候,可能玻璃上的灰尘都被擦光了,继续擦下去只是在浪费自己的力气。 我们可以实验一下,把步数从刚才的四十设置为八十,接着点击执行,我们一起来看一下两者之间的差距会有多大。我们可以发现深图时间其实是多了一倍,因为八十是四十的两倍嘛, 而我们最终图像的变化连百分之五都不到,所以就显得非常没有必要。因此一般情况下,我们的步数设置在二十到三十之间即可,所以我们这边可以取个中指,二十五 下边有个叫做 c f g 值的东西,又是一个参数,那么它也很好理解, c f g 值越高,代表着我们最终生成图像和关键词越相符。咱 们也可以理解为 c f g 就是 对关键词的约束力,当我们的 c f g 为一时,就代表着我们约束力非常的弱。咱们的最终图像啊,就好像脱缰的野马,将和我们的关键词没多少关系,不信的话 点击执行。一起来看一下,我们能看到这生成的是一坨啥呀?所以一般情况下, c l g 保持在五到八之间即可,我这边设置为六点五,那么接下来有一个叫彩样器以及调度器的东西,这两个可以简单的理解为图片的降噪方式,图片的生成方式, 我们彩样器一般选择的是 d p n p p r m, 而调度器我们一般选择 carras, 点击执行可以来看一下生成效果。那么最后还有一个降噪值, 有关这个值的解释我们会放在下节课图生图中再详细讲到,那么我们终于把 k 采集器的所有参数都讲完了,现在一起来看看它的 laten 输出。那这个东西是什么?不太懂 哎,我们看到它后边连接着一个叫做 veen 解码的,而这个 veen 解码的作用就是让我们的 laten 图像能够转变为最终的像素空间图像。我们可以简单地把这个 laten 或者说 laten 图像 做一盘刚炒出来的菜,但这菜还没有摆盘,看着乱糟糟的嘛,不忍直视。而后边经过微议解码之后,哎,这一个服务员把这一盘不忍直视的菜 优雅的进行摆盘设计,最终端在我们面前的就是这一个像素空间的图像,也就是被优雅进行摆放过后的菜品。而其实像这个 laten 以及 laten 空间我们是看不见的,而咱们平时能看得见的所有图像,包括你所看的本视频 都属于像素空间。那么关于这一点咱们了解一下就好,还是来说一下 ve 解码的运用吧,我们能够明显的感觉到,咱们刚才啊生成的这些话,感觉是不是都灰蒙蒙的,不太对劲啊, 没感觉到也没关系,总之啊,他们其实都有点灰,比方说我现在把种子纸给稍微修改一下,然后点击执行,看一下新生成的这幅画,哎,是不是能够感觉到色彩没这么鲜艳饱满了?那这和 ve 有 关,不同的 ve 会带来不同的解码效果。想要改善这个 蒙蒙的现象,我们可以把这个 v a 节点线给断开,然后在 v a 解码的这个 ve 咱们点住,拖出来选择 ve 加载器。那之后我们在这个 ve 名称点击一下,可以看到目前一共有三种 ve, 当然有更多的我们可以自行安装,我们要生成的是动漫类图像,所以选择的是安尼美 ve, 现在我们再点击执行,哎,图片是不是立马变亮了,立马变得鲜活了,那这就是 v e 解码的作用。好的,那么以上就是关于本期纹身图的具体参数以及工作流讲解,下节课我们将进一步探讨图深图,并用图深图简单的做一个风格转变,那 我们就下期再见,拜拜!

尊敬的各位评委老师们,大家好!今天我分享的案例是部编版小学语文五年级下册景阳冈 ai 穿越景阳冈沉浸式读名著。第二个环节是数字人对话, 让课堂生动丰富。我借助 ai 数字人模拟武松沉浸式对话互动, 学生可以和数字人武松对话, ai 及时互动,趣味应答,打破师生单项讲解模式,让学生主动开口,主动思考,真正成为课堂的主人。 同学们大家好,我是武松,我刚刚打赢了一只老虎,你们知不知道老虎有哪三招?我又是怎么应对的? 先用豆包生成景阳冈武松人物形象图片,再把图片导图到小云雀 ai 输入让数字人说的话,最后选择音色,就可以生成数字人武松。 第三个环节是智能闯关游戏,巩固生词基础。针对本科生字、多音字、古典白话词语,我设计 ai 智能闯关。第一关基础认读,让学生脱选正确读音。 第二关词语解析,理解赦酒、访文、请物、字物等难点词语,枯燥的识字便趣味有戏。贴合小学生的认知特点,高校夯实字词基础。 课前,我用 deepseek 整理出景阳冈课本中的生字和生词,做好准备工作,再使用飞向老师输入想要设计的游戏类型以及考察内容,一键生成智能闯关游戏,帮助学生巩固字词基础。 下面是应用方法总结。在景阳冈教学中,我借助 ai 开展动画情景导入、 ai 数字人引导、 智能助教、闯关游戏等,帮助学生趣味掌握词语,将打虎场景可量化呈现。一托智能互动,突破古典文本学习难点, 及时测评,自此掌握情况,深化人物的品读,拓展名著的视野,有效提升课堂效率与学生自主学习能力。