直接来看生成式人工智能这玩意儿到底是个啥?它现在都干了些啥大事?又有哪些坑等着我们去填? 今天咱们就从这几个方面来聊聊,先搞明白它是个啥,然后看看它在全世界都跑到了哪些地方,接着扒一扒它背后的技术和遇到的麻烦事儿,再展望一下未来它会怎么变?最后总结一下,准备好了吗? let's dive in! 好!第一部分,咱们得把基础打牢。啥叫生成式人工智能?别急,这就来 看这张图,深蓝立方体 ai 两个字,科技感拉满!这就是我们说的生成式 ai。 简单说,它不是像传统 ai 那 样告诉你对错、做决策,而是能凭空创造新东西。 比如你给他描述一个场景,他就能画出来,你让他写个故事,他就能写出来。从最早的那些只能生成简单模式的模型,到现在像 gpt 通、一千问这些大模型, 不仅能写文章、写代码,还能生成图像、视频,甚至理解你的指令去创作特定风格的作品,简直是开了挂一样,这背后是技术的飞跃啊! 那这玩意儿有啥用呢?价值大不大?当然大,你看它能把那些重复性的、机械性的创作工作给包圆了,比如写报告、做 ppt、 出稿,甚至设计一些简单的 logo, 效率嗖嗖的往上涨。 更重要的是,它能帮你突破灵感瓶颈,想不出东西的时候, ai 给你来点启发,说不定就有新思路了。而且它还能根据你的需求定制个性化的内容,这在以前想都不敢想。 所以它不只是个工具,更是个创意伙伴,能渗透到各行各业,从客服、聊天、机器人,到帮你写代码,再到设计师的得力助手,潜力无限。 光说理论不过瘾,咱们得看看实际效果。接下来就带大家看看,这深层次 ai 在 全球范围内到底在哪些行业落地生根、开花结果了。 先说说客户服务这块,以前打客服电话是不是经常感觉像在跟机器对话,枯燥又低效?现在不一样了,你看阿拉斯加航空,他们搞了个自然语言搜索,你可以直接用大白话问我要去纽约,帮我查个航班系统,就能理解并帮你搞定预定多智能。 还有麦当劳也在用 ai 来加速产品创新,更快地推出新口味、新菜品。再比如员工福利这块, benny house 这家公司用上了 vertex ai, 把员工的数据管理的明明白白, hr 团队做决策也更高效,员工的福利体验也更好了。总之, ai 正在让服务更人性化、更懂你。 再来看看企业内部,员工们是不是也经常被各种繁琐的工作压得喘不过气? ai 也能来帮忙,比如 base impact 这家公司,他们用 ai 辅助他们的数字案例经理,结果呢, 员工的工作时间减少了二十五小时,这效率提升可不是一点半点。还有,程序员朋友们写代码改 bug 是 不是很头疼? larry merlin 这家公司就用 vertex ai 搞了个工具,能把代码变更的招标自动生成,大大缩短了代码审批的时间,开发团队协助起来也顺畅多了。 你看, ai 不 仅能对外服务,对内也能提高效率,让员工从重复劳动中解放出来,专注更有价值的事情。接下来是重头戏,创意产业设计师、艺术家们,你们的春天来了吗? 阿里推出的 quan image 模型厉害了,它能生成印刷级别的高质量图像,而且你还能圈出图片里的一小块,让它改一下颜色或者形状, 整个画面的风格、光线、透视都能保持一致,简直是像素级的精修。这对于需要高度定制化内容的品牌来说太友好了。 比如运动品牌铺面印度,他们就用 ai 来自定义产品照片,结果点击率提升了百分之十。这意味着什么? 意味着创意内容可以像流水线一样高效生产,还能高度个性化满足不同市场的需求,这绝对是创意产业的一场革命。 看了这么多应用,咱们也得稍微深入一点,看看这背后的技术是怎么突破的,又有哪些挑战需要我们去面对,毕竟光会用还不行。得知道他为啥这么牛,以及他还有哪些短板。 技术突破方面,最亮眼的就是多模态生成了,以前 ai 可能只会写文字,或者只会画画,现在呢?它能同时理解文字、图像、声音等多种信息,并且把它们融合起来进行创作。 比如刚才提到的 queen image, 它就能很好地理解中文提示词,生成符合中文语境的图像,解决了以前很多模型在处理中文时水土不服的问题。 而且它还具备高精度的局部编辑能力,就像 ps 一 样,你可以精确地修改图片的某个部分,而不用担心整体风格跑偏。这背后是强大的中文图文域训练和增强型 click 编码器在支撑, 这使得 ai 在 创意工作流中能够承担起更精细的任务。当然,硬币总有两面, ai 能生成内容。那怎么区分哪些是 ai 写的,哪些是真人写的呢?这就涉及到 ai 内容检测的问题了。 现在业界也在努力发展各种检测技术,比如可以通过分析文本的流畅度、个性化程度来判断,过于完美或者缺乏个性的文本可能就是 ai 生成的。 还有更直接的方法就是在生成的内容里嵌入水印,就像给商品贴上防伪标签一样。 当然,最前沿的还是用深度学习模型来识别 ai 生成内容的特征。不过目前来看,单一的检测方法都很难长期有效,因为 ai 也在不断进化。 未来的趋势肯定是多种方法结合,不仅看内容本身,还要分析使用、行为等多方面信息,构建一个更综合、更智能的检测系统。 了解了现状和挑战,咱们再来展望一下未来生成式 ai 会把我们带向何方?他又将如何改变我们的创作方式和思维方式?这可是个激动人心的话题。 未来的一个重要趋势可能是创作范式的转变。以前我们常说内容为王, 作者、设计师绞尽脑汁去打磨每一个细节,但有了强大的 ai, 我 们或许可以换个思路,我们不再仅仅是一个内容生产者,而是变成一个框架建筑师。 我们专注于搭建逻辑脉络,蓄势结构,设定好世界观和规则,然后让 ai 去填充具体的细节,生成画面,谱写音乐。这样一来,我们就能腾出手来去思考更宏大的创意,去探索跨维度的沉浸式体验。 创作者的角色更像是一个造物主设计,一个由 ai 驱动的、充满无限可能的平行世界。 具体到写作领域,人机写作会是主流模式。记住这个逻辑,人定方向, ai 执行人优化。 ai 确实能帮你快速生成大量文本,但它无法替代你独特的观点、深刻的洞察和个人风格。 你的任务是设定好主题和基调,告诉 ai 你 要什么样的内容,然后利用 ai 生成的初稿进行筛选、修改、润色,最终产出属于你自己的作品。 选择合适的工具也很关键,比如国内的豆包在中文理解和生成上很给力。 同意,千问写长文比较稳。国际上的 claus 三点七在某些任务上表现非常精准,根据自己的需求选择合适的 ai 伙伴,才能真正实现效率的提升。最后咱们来个小节, 生成式 ai 现在已经不是实验室里的概念了,它实实在在的渗透到了各行各业,从客服到设计,从编程到营销,技术上取得了巨大突破,但也伴随着论语、安全等方面的挑战。 目前人机写作是最重要的应用模式,展望未来,跨维度的沉浸式体验会越来越普及,而我们作为创作者,将更多的扮演结构设计师和创意提示工程师的角色,通过巧妙的设计和精准的指令,驾驭 ai 的 力量, 创造出前所未有的个性化内容和服务。这不仅仅是技术的进步,更是人类创造力的一次解放和升华。关于生成式 ai 的 应用与发展,今天就先聊到这里,希望这些内容能给大家带来一些启发和思考,谢谢大家!
粉丝1962获赞5759

最近康复 ui 终于推出了官方一键安装包,点击下载即可完成以往一系列繁杂的本地部署环节, 这对于苹果用户以及新手小白无疑是一个巨大的便利,那么今天我们就来看看他到底该如何安装并且使用吧。首先我们在浏览器里搜索康复 ui 官网,咱们便可来到这个界面,那么我们可以看到 网页里包含着有关康复 ui 各式各样的新鲜事,比如说这个软件到底是做什么的,还有用康复 ui 构建的一系列作品,同时该网页甚至还提供了康复 ui 官方团队的岗位信息,相当于公开招聘。 ok, 现在回到最上边,我们点击黄色的下载按钮, 随后便可来到这个界面。注意这边一共有两个版本,分别是 windows 版本,还有苹果版本,又或者我们可以点击 get up 安装,不过该方法较为繁琐,咱们一般不做选择,因为大部分小伙伴用的应该都是 windows 系统,那我这边就用 windows 来做个示范,点击下载 windows 版,下载好之后,我们可以看到这个界面, 那么这一个白色的咨询框意思是如果你电脑没有 get 的 话,我们需要手动安装,如果大家之前安装过 get, 咱们就点击 skip 跳过即可。 那我这边先来演示一下,如果电脑没有 git 该如何安装,那当然是点击第一个选项,打开 git 的 下载页面。随后我们可以看到在下载的下方一共有三个选项,分别是 苹果、 windows 以及 linux。 如果是苹果用户,那么就点击该选项,随后再按照该页面的指示进行下载即可。那么对于 windows 用户,我们可以点击该选项,随后再点击这里,即可完成 下载。在 get 部署完毕后,回到刚才的康复 y 界面,点击开始使用,那么这里又出现了一个选项,分别是自动安装与手动安装。如果大家用的是 n 卡,也就是 英伟达显卡,那么选择自动安装,也就是该选项即可。如果说大家是 a 卡或者其他类型显卡,则是点击手动安装, ok, 那 么因为 up 主是 n 卡,所以说选择该选项,接着点击下一个。 接下来我们来到了安装路径选项,那么在这里我们尽量不要安在 c 盘,因为康复 y 到了后期,咱们可能会使用各式各样的大模型以及相关节点,整体文件大小可能会飙升到数百 g b, 甚至一提 b, 那 么我这边选择一个 e 盘,接着点击下一步,这一步也很重要,如果说大家之前安装过康复 y, 我 们可以在这选择以往安装的路径,随后完成大模型 以及节点的迁移。如果说之前从未使用过 kufu y, 那 也没关系,直接点击下一步。这里一般情况下我们均保持默认,点击安装即可。 紧接着 kufu y 官方包就会自动的帮我们布置,比如说拍手环境,拍 touch 环境、库达等等等等。那么经过二三十分钟的下载过程,我们便来到了这个界面,它就是 kufu y 官方版的默认界面。 我们可以看到这边呢准备了非常多的工作流,我们可以把它们理解为模板,那总共大概有几十甚至上百种,基本覆盖了市面上主流的案例 以及大模型,同时还有 ai 视频甚至 ai 音乐相关工作流。 ok, 那 么我们先回到默认的工作区域,这一块和我们以往使用的康复与 y 基本没区别。 如果说对于运行加载栏位置过下的话,我们可以拖动该栏目,随后来到最上边松开鼠标。哎,那么它将被我们固定在左上角这个熟悉的位置。 如果小伙伴们是第一次接触康复 e y, 那 也没有关系,接下来我将带领大家一步一步去了解如何使用康复 e y 这一款当今市面上最为权威,最有深度且兼容性最强的 绘画应用。首先一起来了解一下工作区都有哪些部分,那么我们可以在左上角这里点开工作流,随后我们可以点击一下新建,哎, 那么我们可以看到这里啊变成了两个,大家可以理解为咱们刚才新建的是项目。 ok, 回到刚才的工作流,我们还可以点击浏览模板,在这里又回到了之前向大家展示的默认模板界面。如果说大家是初学者,那么我们还是从最基础的开始学起,点击 图像生成就是这个紫色的小瓶子,那么在我们第一次加载该工作流的时候可能会出现这个报错,大家遇到了千万别慌,并且也没必要慌。他的意思是在我们运行的时候啊,缺少了以下模型, 我们只需要点击这个蓝色的下载按钮即可,又或者压根不用管。为什么这么说,我们先点击拷差,随后啊来到去换一个加载器。在这里我们将选择接下来会用到的大模型。刚才的报错意思就是指这一个模块 缺少了模型,如果说我们有其他模型放置在这个节点中,那么刚才的报错同样也能够解决,我们慢慢来,刚才我是不是提到了个概念 叫做节点,那么这一个我们可以称为节点,这一个也是节点,这一个也是这一个,这一个,这一个,这一个他们都是节点,而节点与节点之间可以看到 是通过线进行连接,哎,有黄的线,蓝的线,粉的线,还有红的线,当然还有其他的各式各样。那么这些节点呢,就是 通过刚才所谓的线连接成了一整个,我们称为工作流。至于如何让这工作流跑起来,我们仅需点击这个蓝色的运行按钮即可, 咱们一起来试试。现在我们可以发现出现了这个报错,而这个报错也是非常多新手小白会遇到的, 他的意思其实和刚刚所见的报错完全一致,大家记清楚如何解决之后,可以举一反三,自行解决接下来可能会遇到的类似问题。那么我们可以看到,首先在工作流中有一个节点爆红了,哎,这个节点他是不是 现在被红色的框框给框起来,这个标志代表着工作流在这个位置遇到了阻碍,进行不下去了。那好,我们重新看一下刚才报错的英文都代表了什么? 点击运行可以看到,首先呢,这边交代了 check point loader simple, 意思是在这一个 check point 简易加载器中出现了报错,那这个简易加载器 也就是刚才我们所说的该节点嘛?好,继续往后看。 value not in least, 意思是在属性中缺少了某些值,那么这个值是什么呢?这个值啊,就是这个什么 v 一 杠五,吧啦吧啦吧啦吧啦,哎, 他是一个大模型的名字,那好,该如何解决?方法很简单,一就是像刚才我所说的,点击之前出现的蓝色按钮。第二,我们可以主动的把大模型给放置在这个文件夹内,至于大模型如何获取, 小伙伴们可以评论私信,稍后我发你。又或者我们可以在 liblib ai 这种 ai 网站上自行下载,比如这边我刚刚把一个大模型放到这个路径后,刷新一下该界面,这边的话我们可以选择不再显示此消息,因为它是一款默认模型, 效果其实很差劲。接着关闭,然后来到 jupiter 加载器,点击一下,哎,我们就可以看到刚才放进来的模型,这边我们就可以选择,那好,现在解决了大模型的问题,再次点击运行,来看一下此时啊,咱们的工作流能不能跑起来。 ok, 那 么这张图像就是我们用康复以外生成的第一张图像,别看它非常的简陋,甚至是混乱,但它只是个开始, 后续我们会一步一步的精进,逐渐学习更为强大,更有效率,更有深度的模型以及工作流,还有商业案例。 而同时刚才我们所加载的这整套工作流,他有个名字叫做纹身图,也就是文字生成图片。那好,纹身图,纹身图 个文字从哪来?咱们来看到这里有两个文本编码器,咱们先简略的带大家理解一下,下一期我再进一步的详细讲讲文声图具体参数以及背后的逻辑 来看到这边上边的文本编码器,它的条件这根线连到了哪?是不是连到了正面条件,那么我们就称这个文本框为正面提示词文本框,也就是我们想要什么就在这边 输入什么,比如说此时我们生成一个女孩, one girl, 点击运行,哎,可以看到最终图像立马变成了一个女生的形象。那好,上边的文本编码器我们理解了,咱们来看一下下边的, 下边的顺着条件输出往后看,连到了一个叫做负面条件的输入中,那么这一个文本编码器我们就称为负向提示词 文本框,我们将在这边输入负面条件,又或者被称为反面条件,那这个负面条件的意思和正面条件相反,我们不需要什么,就在这边输入什么。咱 们来举个例子,比如说啊,现在我在正面提示词输入一座花园 one garden, 点击运行,可以看到图中有许多的花朵,有蓝的,粉的, 死的,哎,我们可以再跑一次是吧,花园中怎么能少的了花朵呢?但是如果说我们就不想要花朵行不行?可以,我们在负面提示词这边输入 flower, 也就是花朵,点击运行,此时我们就可以看到,哎,最终生成了图像,有关花朵的比重好像大大减少了,不信的话可以多跑几张,明显变少了吧,这张也是。那么小伙伴们是不是已经理解了正负面提示词的具体意思? 不理解没关系,我们下节课再讲。那好,如果说啊,我们想保存咱们刚才编辑的工作流,怎么操作?回到刚才左上角的工作流,随后点击保存,给他按个名字,比如说 文生图确认,接下来我们就可以在这个文件夹样式的按钮内看到刚才或者说之前所保存的 所有工作流。那么我们该如何使用他人的工作流呢?比如说某天啊,我在网上看到一个大佬开发的,比如说模特换装,人物写真,高清修复, 老照片还原,像这些工作流我们该如何直接套用?同样的很简单,我们仅需把工作流的文件拖过来,在这个工作区域内松开鼠标, 那别人的工作流就会呈现在咱们的电脑上。至于这边出现的报错,意思是所有的这一系列节点呢?咱们电脑没有需要安装,那如何安装?当然就是点击这一个 安装所有缺失节点怎么操作?大家跟着我来。第一种方法可以点击这个 open manager, 接着就可以来到这个界面,然后我们就可以在这个缺失选项卡内安装本套工作流中我们不具备的节点。又或者我们可以直接哎先回到这个工作区域, 然后在上方看到没有有一个 manager 按钮,点击一下,接着再点击这个按钮安装缺失节点。同样的也是可以 刚才所建的模块一样来补充咱们的节点库。注意啊,这一个和刚才所建的其实功能是完全一致的,只是展示的界面不同而已。 ok, 那 比如说啊,我们先回到刚才的纹身图工作流,这套工作流的保存方法 咱是知道了,那他如何导出呢?如何在其他电脑上也能使用呢?来我们这边也是点击工作流, 最后点击导出,注意不是下面的导出, a p i 是 这一个导出,点击一下,再点击确认,最终我们就可以得到一个像这样的追悼文件。好的,咱们再来讲最后一点,当我们想加载节点的时候,只需要 双击界面,随后再输入节点的名字即可,比如说加载图像直接点击,那么这一个节点就会出现在咱们的工作区域中。至于如何删除,我们可以直接点击这个红色的垃圾桶按钮, 我们也可以点击键盘上的 delete 键两种方法。那么有的小伙伴可能会说, up 主,为什么我的界面是英文的,好认真听。我们可以在左下角的设置 这个小齿轮按钮内找到区域设置。这里有个语言选项啊,展开来里面我们可以看到有英文,中文,日本语,韩语、法语等等等等啊,选择我们想要的即可。 ok, 那 本节课设计的知识也是比较多,咱们就先到这里吧,下节课我们再详细的聊一聊纹身图到底是如何使用的,那我们就下期再见,拜拜。 哈喽,大家好,这节课我们一起来学习图生图工作流的搭建,以及它的背后运行逻辑。首先我们还是来到 comf u i 的 默认工作流, 那接下来该如何去搭建最基本的图生图?首先我们看到 comlater 怎么把它呀给删去,然后在这 k 采集器的 laten 输入 拖出来,然后选择 ve 编码,随后呢我们看一下这 ve 编码,它一共有两个输入,分别是图像以及 ve 模型。 那我们来看看 v a e 连哪呀?哎,那么这一整套工作流里面是不是只有 click point 有 v a e 的 输出,所以我们连到这 那接着这个图像我们拖出来加载一个加载图像节点。好的,那么至此咱们的图生图工作流就这么完成了,其实和最基本的纹身图非常相近,只不过多了一个 图像输入。那接下来我们来看一下它具体该怎么使用吧。比方说我这边上传一张金发双胞胎为少女,接着我们把正向提示词给稍微编写一下,记得先写质量词汇,比方说杰作高质量,然后再写主体,主体的话我们就来一个 one girl 吧,一个女孩,好的,就写这么多 副象提示词,我们还是来一个 is a negative 这一个副象提示词组包。咱们把大模型先换成一个动漫类大模型, 选择动漫 prime mix, 当然其他的也行。接着我们直接点击生成,我们可以看到咱们这张图像吧,你说它和我们的上传图片有什么关系?其实 近乎于没有关系,对吧?那么这是怎么一回事呢?这边我们就需要看到可以采氧器内的降噪值, 这个降噪值啊就控制着原始噪声添加的比例,比方说现在降噪值为一吧,相当于什么呢?我们输入的这张图像,它上边会布满了降噪值, 那大家可以想想,这和我们输入一张纯噪声图像有什么区别吗?完全没区别。好,那反之如果我们降噪值为零的话,会发生什么现象?咱们先跑一次。哎,现在可以看到,此时啊, 咱们的生成图像和原图是完全一致的,那么这是因为对于我们输入的图像因为降噪只为零的缘故,导致一个噪点都没添加,那大家可以想想我们 diffusion 模型,对吧?咱们 stefusion 运行的原理就是给图像不断的降噪,从而生成新的内容, 但现在我们一个灶点都没有,咱们从哪去降噪啊?对吧?所以说自然而然的就和我们原图完全一样了。但如果说我们把这个降噪值给设置成零点五的话,我们来看一下会发生什么样的神奇变化,哎,此时发现了没有?他 和我们的原图怎么样啊?是不是非常的近似,对吧?比方说像这个金色双马尾以及他的红色蝴蝶结,那么这就是降噪值所带来的影响。 ok, 现在我把随机种给固定一下,然后换一组种子值,我们再跑一次试试。 ok, 那 么我们第二次升图还是和原图有非常多的相似之处,对吧?比方说整个人物的姿势 以及他的发型、发色还有服装。而我们在正常的升图流程中,降噪值为零点三五到零点六之间,咱们生成的图像就会和原图 较为近似,而如果设置的是零点六甚至是零点七五级以上,那么我们就将赋予 ai 更多的想象空间以及自由发挥空间,对吧?比方说我们把降噪值设置成零点七,然后再次升图, 咱们可以看到最终图像和原图是越来越不近似的。不过我们可能会发现一个小问题啊,这个 是题外化,什么问题呢?大家发现没有,我们的生图怎么感觉总是灰蒙蒙的?比方说我现在在换一组种子值再次生成,哎,对吧?感觉到这个色彩不是很鲜艳,怎么回事? 这其实和我们的 ve 有 关,上节课我们提到了 ve, 一 般是由咱们大模型所提供,但有时候吧,大模型它匹配的 ve 啊,不是特别好,还不如一些社区玩家所发布的 ve, 比方说像这个 primex 吧,我用的这款大模型,它自带的 ve 表现出的色彩不是那么的理想,那怎么办?我们先把 ve 解码以及 ve 编码的连线给断开,然后我们在随便一个 ve 解码或 ve 编码都行 ve 节点中 拖出来加载一个 ve 模型加载器。哎,那么现在我们可以看到这个加载器里面,我们可以自由的选择不同的 ve 模型,那这边因为我们生成的是动漫类图片嘛,所以选择这个 anime ve 动漫 ve, 接着再把它和 ve 解码与 ve 编码相连,此时我们再跑一下,大家可以发现是不是图片瞬间就变得限量了?好,那么解决完这个小问题之后, 我们继续来看一下降照值。有的小伙伴可能会有点疑惑,哎呀,这个降噪值,它究竟是怎么做到让生成图片与原图近似或不近似呢? ok, 那 么我们来看下这一张图生图的完整逻辑。在我们图生图工作流中,不同于纹身图的是,它一共输入了两种信息,一种呢就是 图片的信息,一种呢就是文本的信息。刚才我们不是边写着提示词吗?对吧?而在我们上节课所讲的文生图中,只有一种文本编码信息。 ok, 那 么问题就来了, 如何把咱们的图片信息给编码成异于电脑处理的相关信息流呢?这边我们用到的就是 ve 嘛,我们可以看到这个绿色的三角形啊,意思是 ve 编码器,它的作用是可以把我们输入的图片给降为成 浅空间图像,而这一些浅空间图像不同于像素空间图像,他们是看不见的,同时呢,尺寸也会更小,更益于电脑去处理,那之后 v e 编码器会把这一些编码之后的浅空间图像 给发送到 k 彩样器,在 k 彩样器中,我们来看看它会干嘛呀?它会添加噪音,对吧? at noise。 而这一个添加噪声到底该添加多少呢?这边就是我们降噪值所 控制的了,正如我刚才所说,如果我们降噪值为一,就相当于为我们输入的这张浅空间图像直接 噪声加满,对吧,整张都是咱们所添加的噪声,这也意味着在这种情况下,和一张纯照相图片没有任何区别,同时如果噪声值为零点五吧, 可能就会,哎,添加噪声的幅度就不会很大,哎,对吧,零零星星的。好的,在添加完噪声之后啊,我们来看一看,这个 later 图像就会被发送到咱们的 unit 模型中 进行降噪嘛,那么这等同于纹身图的什么呢?空阶输入呗,对不对?只不过此时的空阶是有内容的,而不是一个完全空白的阶图像,也就是前空间图像,咱们上节课所运用到工作流的空阶,意思就是,哎,直接输入一张没有任何内容的前空间图像, 不过呢,尺寸是我们自己定嘛,对吧?好的,那我们来继续看这个图生图。工作流,一张有内容的浅空间图像被发送往了 unit 模型中进行降噪,还需要什么元素啊?当然就是我们的特 征项链嘛,这个 test embedding 也会参一脚,嘿,来指导咱们这个图像的生成,来指导降噪的走向,对吧?比方说,我想生成的是一个紫色头发的女孩,那么他就会结合着我们 输入的请空间图像一起来完成降噪,不断的去往这个紫发女孩的方向去靠, ok, 那 之后也是就进入到了我们上节课所介绍的降噪啊迭代流程。 那经过咱们采用步数的次数迭代降噪之后,咱们的 u 点模型啊,就会把处理完的请空间图像发往 v a e 解码器,因为我们是看不见浅空间图像的嘛,所以它必须要有个转换接头来把浅空间变成像素空间图像。那之后咱们的 v e 解码器就会把之前的所有信息内容解码成 最终生成的 ai 图像。我知道啊,这么听起来可能有点晕,咱们结合着康复 u i 工作流一起来看一看,比方说像这一套简单的工作流吧,咱们的图片书是啥? 当然就是加载图像的这张金发双马尾了,对吧?而咱们的文本输入呢,就是咱们的正负相提示词,这两个啊,他们会经过 clip 模型给编码层蕴含着很多信息的特征向量,对吧?这个小盒子会被发送往 k 采集器,哎,被发往了 k 采集器, 同时呢,这个小盒子将结合着我们这个原始图像经过 v e 编码之后,再加上噪声的图像,哎,对吧?比方说零点七哎,加了一些噪声,然后一同在 k 采暖器内进行降噪。最后我们可以看到 k 采暖器有一个 layton 输出,那么这个 layton 输出 会把我们之前的锐腾图像,也就是前空间图像发送到微解码器,从而完成前空间到像素空间的转换。 ok, 比方说吧,我们现在关键词加一个粉色头发 pink hair, 然后把降噪改成零点六五, 步数设置为二十五步, c f g 值为六点五。然后彩样器和调度器我们上节课也介绍过,咱们一般彩样用的是 d p n 加加二 m 也是 d p n p p 二 m, 调度器一般用的是 carras。 然后点击执行,我们可以看到啊,大家发现了吗? 图片是不是尽量的往这个粉色头发女孩方向去靠,对吧?咱们再把这个降噪值往下调, 比方说零点五,接着再次跑图,咱们就可以发现,因为降噪值较低的缘故,咱 们的生成图片就会和原图更为近似的,所以改动的幅度不会过大。但是,哎,咱们细心观察还是可以发现,像这张图片,他的头发确实蒙上了一层粉色, 甚至是他的眼睛也变成粉色了,对吧?那么这就是降噪值结合着文本与图像输入共同造就的结果。 ok, 那 接下来我们就把以上的理论知识给转换成一个有趣的动漫转真人小案例。 怎么做呢?大家可以想一想,咱们降噪值是不是可以控制生成图像与原图的近视程度, 而我们的最终图片生成的整体风格是由什么决定的呀?一共有两种,第一种是提示词,而第二种是最为关键的大模型,要注意大模型的影响可比提示词要多得多,所以我们这边直接把 大模型给选择一个写实大模型,然后我们在关键词的结尾加上一个写实风格 realistic l, 接着把 v a e 加载器的 v a e 给替换一下,换成这个 s d 叉 l v a e, 随后开始生成。 ok, 我 们可以看到啊,图片的风格是发生了一些转变,但是程度还不够,并且我们得把刚才的这个粉色头发关键词给删去,不然会影响输出效果。那既然这个风格转变程度不够的话,我们就提高降噪值嘛,让 ai 去发挥更多的想象力。 咱们直接先设置为一个零点六五吧,然后 ctrl 加 enter 快 速生成。 ok, 那 么现在感觉又有点太过了对吧,它和原图相似度太低了,那么我们就继续去调整咱们的降噪值, 直到为一个较为合适的数值为止。 ok, 就 这样我们成功把这张动漫图片通过简单的图升图降噪的方式, 就变成了一张写实风格图片。那么这个方法也可以算是最简单最容易的一种风格转换方法。后续我们会学习更多进阶内容,让图片变得更为可控。 比方说像咱们生成图片的姿势啊,面部表情啊,它的线条,背景,深度关系等等,这些都是可以通过后续的 control 内来进行控制的。 好的,那么以上就是关于本期的图生图教学,我们下节课一起来看一下咱们之前所用到的这一些模型去哪找,以及 ai g c 的 相关网站都有哪些?好,那么我们就下期再见吧,拜拜! 哈喽,大家好,欢迎来到本期的康复 ui 教学,那么这节课是第二节,咱们一起来学习康复 ui 最基本的框架以及最基础的生图工作流。 在开始之前,关于如何安装康复 ui 这一点咱们提一下,至于现在网上已经有非常多的安装教程,那我这边也就不再过多赘述了,咱们待会直接切入主题。 不过呢,想要本套课程安装不了,小伙伴可以在评论区内获取。 ok, 在 咱们安装并打开康复 ui 之后,我相信大家跟我看到的都是一样,哎,都是这个默认的工作流界面, 咱们现在滑动鼠标的滚轮哎,就可以发现,咱可以利用滚轮进行放大或缩小,对吧?接着现在我们按住鼠标滚轮,哎,按下去我们就可以发现了, 咱们是不是可以拖动屏幕了。好,那么恭喜你掌握了两种最基本的操作方式。接着咱们看到这工作流,它是不是由一个一个的节点构成的? 它是节点了,这一个咱们称为节点,那这一个呢?我们也称为节点,这一个也是节点,这一个也是,对吧?而节点与节点之间它能通过线连接,咱们细心观察可以发现,哎,这个粉色的按钮要连哪啊? 连的是另外一个节点的粉色按钮。继续看,比方说像这个什么 ve 结码的 这个图像啊,蓝色按钮,那它连接的也是,哎,这个保存图像的蓝色按钮。好的,那么现在我们最基本的 节点与节点之间是如何连接的?稍微参透了一点点,再继续深入之前,我们先看到右上角有一个直行点击一下,那么这个东西就好像咱们的升图按钮,点击了之后 等待个几秒到数十秒啊,这个等待时间就会有小伙伴们的设备来决定,我们可以看到现在生成了一张图像,对吧?那么生成这张图像的速度和大家的显卡性能有关,我这边还是比较推荐大家, 至少要三零六零级以上啊。当然如果说你没有这么好的硬件设备,我们也可以用云端嘛,对吧?比方说现在什么 libai, 什么端脑之类的, 有很多可以在线生图的平台,那这个我们放在第五节课中会提到。接着我们重新回到这张图片,咱们可以看到啊,它是一个装着星云,装着 紫色森林的瓶子,以及它的背景是树林,对吧?问题来了,凭什么它生成的内容是这一些,而不是一头大象护着做一只小猫呢?那这边呢,咱们就要看到正向提示词, 啥是正向提示词啊?细心观察可以发现这边有一个正面条件,那正面条件这根线连出去的这个框框,诶,这个叫做什么? c l i p 文本编码器,咱们称之为颗粒文本编码器, 那么在这边输入的内容就被称为正向提示词,内容也就是我们想要什么就在这边输入什么。咱们可以来做个简单的小实验,大家看我们把这些词汇啊 给删去,然后输入一座花园。注意啊,这边一定要输入的是英文,如果是中文的话,那么电脑将无法识别,从而生成错乱的图片。好 在我们输入完一座花园之后就点击执行,现在我们可以看到生成的图像是不是成功变成了花园呢?简直是像魔法一般神奇。 当然现在我们称之为魔法,是因为不懂背后的运行逻辑吗?等到我们学完第三第四节课,也就是 ai 生成背后的运行原理之后,我们就知道这一切不是魔法,而是 科学的捷径。好的,那么在我们说完正向提述词之后,我们来说一说他的对家,叫做反向提述词,也称为负向提述词。想想在哪输入啊?看到正面条件的下面有一个负面条件, 当然就是在这所连线的框框,也就是这个 clip 文本编码器输入咱们的副象提示词。 ok, 那 么新的问题又来了,正向提示词非常好理解嘛,咱们刚才这个就是想要什么就输入什么, 那副象提示词呢?该怎么理解?哎,其实和刚刚说的相反,就是我们不想要什么,就在副象提示词文本框内输入什么。 哎呀,堡主,我还是不懂啊。好,我这边来举个小例子,比方咱们看到刚才生成这张图像吧,怎么样啊?是不是有非常多的花? 哎,有粉的、红的、紫的,各式各样。那如果我们现在不想要图片中的花占比这么多的话,那么我们就在复相提示词中输入花朵,那花朵怎么拼啊?就 flower 吗?当然做,小伙伴们在语言上遇到任何问题,我们都可以用翻译吗?对吧?比方这个 有刀翻译我就挺喜欢的,非常便捷啊。 ok, 这边是纯推荐,还不是广告?好,我们接下来就点击执行。哎,现在咱们发现了没有, 图片中花朵的元素是不是降低了很多?比方我们再次点击执行来看一下,对吧?经过两次实验,图片中的花朵确实是比例明显变少了,但是并不是说完全消除, 那这也正如我刚才所说,负面提示词啊,他所做的更多是消除我们输入的东西在画面中的比例,哎,在画面中的权重 是吧?但是完全根除的话,这需要其他操作,我们接下来的课程中会提到, ok, 那 么现在学习完正负相提示词, 我们再来看一下连接正负相提示词的这一个叫 k 彩样器,那么他呀,我们可以理解成就好像人体的大脑,他控制的整个工作流, 哎,不难发现,基本上所有的节点都会集到了 k 彩样器里,然后这些所有的数据啊,参数啊汇聚到这之后,经过 k 彩样器内部的运算,然后最终才得出了我们的 ai 图像。 至于背后的生图逻辑,哎,我们下一节第三节在纹身图以及背后的运行原理中会详细展开,那么这边我们先大概了解一下就好。接着我们来看到这个 k 采阳器啊, 它有个叫做 layton 的 东西啊,这个 layton 我 们顺着粉色的线往下看,连到了一个叫空 layton 的 节点,大家看看这空 layton 它是干啥用的呀?我相信关于这个名词不能说百分百吧,百分之九十九的小伙伴应该都是非常的困惑的。好,那么我们在学习一个新东西的时候,我们可以看一下它的参数, 咱们一起来研究一下。首先它共有三个参数嘛,分别是宽度,高度,还有皮尺大小,对吧?那现在是不是豁然开朗,这个节点呢, 就是控制我们最终生成图像尺寸呢,比例啊,图片整体像素的一个节点,比如我们把这宽度给改成七百六十八,相当于此时的宽高比为二比三嘛, 然后咱们点击直行怎么样啊?最终升图是不是非常简单的就被修改成了竖屏比例,那么同样的比方,我们把这个宽度给改成七百六十八,然后把高度改成五百一十二, 此时咱们再点击执行,就可以看到图片也是非常顺利的变成了横屏比例。而关于最后一个参数,也就是空内存的 p 次大小这一个,我们是不是还有点疑虑?好, 那么咱们就来尝试一下嘛,比方把它给改成个四吧,具体会发生什么我们待会才知道,咱们只管点击执行就好。 ok, 我 们来看一下发生了什么变化吗?咱们看到这个保存图像节点的右下方出现了一个四分之一,对吧? 并且这边有个交叉按钮,咱们点击一下,哦,发现原来呀,刚才的批次大小代表着一次性出多少张图片,对吧? 像刚才我们设置成四,那么此时呢,也就是一次性出了四张图片。比方说我们在需要进行大批量生图的时候,或者说在测试某一个参数的影响,那么我们就可以把这个空内存的批次给调高一些。不过如果说批次大小过高,比方说三十、四十甚至是一百, 那么就有可能会出现报显存的情况,如果大家不幸遇到了报显存,那么我们重启一下 comfuly 就 好。好的,我们来看一下,现在啊,咱们已经把正向提示词还有反向提示词的文本编码器都讲了嘛,以及 k 太阳器 coin 也讲了,还有哪个没讲呢? 那就是 checkpoint 加载器嘛,咱们把目光看到这可以发现啊,它是不是有点像一切的源头, 非常多的线都连到了这个节点上,这代表着他有非常重要的地位。也确实我们在这个朋友加载器里面加载的就是大模型啊,我相信这个名词大家或多或少都听说过。那么啥是大模型呢? 咱们可以这么简单的去理解,大模型可以控制整体的出图基调,比方说有的大模型是真实系,有的大模型是动漫系。 咱们现在把大模型给换成一个动漫类大模型,接着什么参数都不用调,直接点击执行 来看一下,单单修改一个大模型,会对我们最终出图效果发生什么样的变化。好的,现在我们不难发现,图片呢,是不是整体风格都变成了偏动漫或者说非写实的风格? 那么我们现在重新看到大模型,咱现在再换一个真实的大模型吧,然后再点击执行,是不是感觉到画风一转呢,瞬间变成了写实风格。 ok, 这又是大模型的威力,非要比喻的话,可以把它想象成人体的意识, 啥意思呢?如果我整天哎只想着色色的事情,那么我最终出图啊,咱们最终的成品必然也是和色色有关。 那如果说我整天想的是非常正能量,积极向上的事情,那咱们的最终成品也必然会 啊,你懂吧? ok, 之后我们来看到这个 v e 解码,他呀,就好像一个转换接头,可以把咱们的 latent 图像变成像素空间图像。那具体是啥意思,我们放在下节课去讲。 接下来,比方说啊,我们不小心把这个 v e 解码给删去了,哎,对吧?删去了之后我们该如何去添加呢?一共有多种方法,一个就是摁 ctrl z, 那 么就可以回到上一步的操作。好的,现在我们再把它给删去。还有种方法就是我们在 k 采集器的后边 later, 哎,咱们把它给拖出来,然后松开鼠标,看到这个 v a e d code 怎么样啊?它是不是又重新出现了?接着我们只需要把它的图像与原来的保存图像相连,然后这个 v a e 又是个新名词,把这个 v a e 连接在哪,咱们可以找一找,哪有红色的输出呢?那就是 check point 加载器嘛。 我知道小伙伴们现在可能有非常多困惑,但是都不用着急,因为我们本节课主要教的是基础的操作嘛,至于接下来的比方说参数啊,或者说他们背后的逻辑,我们会在后边揭晓。好的,那么刚才我们讲完了第二种添加这个 ve 解码的方法, 那么还有第三种方法是啥呢?我们可以双击界面,哎,此时啊出现了一个搜索节点栏,那么我们可以在这边输入,想要查找节点的名字,那咱们就搜 v a e 解码,可以看到这边也是有非常多的选项,对吧?咱们选择第一个啊, 可以看到 v a e 解码,点击一下,它就这么出现在了我们画面之中,接下来也是与其他节点相连,即可恢复成原来的样子。 好的,那么第三种方法讲完了之后啊,我们来看一下第四种方法,我们同样的把鼠标放在空白处,按一下右键,接着看到这一个添加节点按钮,点击一下, 随后我们找到 later, 同样的点击一下后,就可以发现咱们的 v a e 解码在这边出现了,对吧?接下来只需要再次点击,那么它就重新出现在了工作流之中。不过我们也能发现这第四种方法非常的繁琐,一般情况下我们都是直接搜索即可。 当然啊,其实还有第五种方法啊,我这边也说了,因为这节课是基础操作课嘛,咱们就把这些最基础的给讲透,我们把目光看到左边有一个像字典一样的东西啊,点击一下,那么这个东西啊,它是 存放所有节点的地方,我们同样的可以在这边搜索节点,输入 ve, 然后就可以看到各个节点包里面和 ve, 也就是咱们相关输入的词汇有关的节点, 那么我们也不难发现 ve 节点码在最上边,对吧?同样的点击一下,就可以看到它又再次出现在了工作流之中。那么以上啊,就是五种常见的加载节点的方式, 正如我刚才所说,咱们平时啊最方便最实用的方法就直接双击界面,然后搜索 ve 即可,这是一种。还有一种就是直接来到,比方说像这个内存吧,拖出来可以看到在这个默认的加载节点里面有 ve 解码的话, 哎,点击一下,那么它是不是也非常快速的就被加载出来了?那么以上两种方法是最常用的,大家稍微记一下即可。 好,既然我们看到了左边,我们就继续顺着左边来看一下这些东西都代表了什么吧。那首先上面这一个像时钟一样的点击一下,可以发现了咱们之前生成的队列, 也就是咱们所执行的任务都在这边出现了。比方啊,像这一个下面有个四的角标,代表着一次性出了四张图,对吧?咱们可以点击一下,这一次任务所生成的四张图就会被展开。好,我们在队列的返回按钮点击一下,咱们就可以回到刚才的队列预览界面。那接着 我们来看一下这个小小的立方体啊,它代表什么?这一个是我们存放模型的地方,比方说像什么大模型啊, lora 呀,什么 ctrl 内模型都可以在这边显示。那具体像我刚才说那些名词,他们代表了什么, 也是在之后的课程中咱们会逐一揭晓。那顺着这个立方体往下看,有个文件夹对吧?那这个文件夹就是我们存放工作流的地方。这边又要隐身出个问题了, 比如说吧,我们现在这一套工作流想把它给保存下来,怎么保存呢?我们同样的也是看到左上角有一个工作流,点击一下,随后咱们可以点击保存后的另存为, 咱们先点一下保存吧,接着编辑一下工作的名字,比方说第二节课点击确认怎么样啊?咱们刚才保存的工作流是不是就到了?这,对吧?下次想要调用的时候,我们只需要双击或者说哎,把它给拖出来,拖到空白处,就可以重新加载咱们保存的工作流。 好的,我们顺着文件夹往下看,有一个月亮按钮,点击一下,那么整体的风格就会变白,变得明亮,对吧?再点击一下又会回到刚才的深色风格。 ok, 那 现在重要的来了,看到这个齿轮,也就是设置嘛,我们可以在这边来调整咱们的界面语言, 我们看到这个 comfy 的 区域设置,在这里就可以调整相关语言了,当然你想要英语或中文,或者说什么其他语言都行,那我这边也是选择了中文。好的,接下来我们看到 这个 comfy 下面的画面,点击一下,随后我们看到连线渲染样式,那这边我们可以选择曲线或者说其他的线型, 比方说直线吧,咱们点击一下,接着就可以看到辞职啊,怎么样?界面的所有连线都变成了直线,对吧?直来直去的, 那这一个就根据大家的个人喜好来进行调整了吗? ok, 我 们重新回到刚才的画面,那我这边也是先保持直线吧,我觉得直线会更为直观一点, 更方便大家去辨认哪一个节点连接的哪个地方。 ok, 接下来我们看到画面下边的外观,那么在这边我们可以调整色彩主题, 也就是美化咱们的界面吧,那么我相信大家刚和我进来的时候都是这个 duck, 也就是默认选项, 我们可以调成明亮的风格,也可以调成这个蓝色调或者黑色调。 ok, 我 还是调回默认模式,接着可以看到下面有一个节点不透明度,那这个参数比较重要,因为啊, 比方说我们看到这套工作流吧,如果我们把 v e 结吗不小心放在了这个 k 采暖器的后面,我们就压根看不见了,对吧?而节点一多,就有可能会出现这种节点之间相互遮挡的情况,从而增加我们构建工作流的难度, 那么我们就可以回到刚才的节点不透明度,把它给设置成零点四,当然更低也行,那么此时我们就可以看到,哎,可以透过 k 采集器看到下边的 ve 解码节点了,对吧?这样我们在构建工作流的时候会更加的 轻松愉快。 ok, 咱们再讲一个小知识点,比方说吧,像我们刚才是不是新添了这一堆节点了,咱现在不想要了怎么办?我们当然可以一个一个节点的这样去删除, 我们也可以摁住 ctrl 键,然后再摁住鼠标左键,哎,这样子就可以框选节点,接着再摁键盘上的 delete 键,就可以做到区选删除。 而同时比方说我们现在驱选这一套工作流,我想同时拖动这么多节点的话,直接摁住鼠标左键就可以进行整体拖动了。而如果说我们想升图的时候,我们除了直接点击执行, 我们也可以摁 ctrl 加 enter 键,这样就可以做到快捷的图片生成。好的,那么以上啊,就是关于本期的全部内容了,知识点比较琐,也比较杂,可能需要吸收一段时间,那么我们就在下节课纹身图以及深层原理,再见吧,拜拜!

三个月零基础也能拿下大模型,这不是鸡汤,是可执行的路径。第一个月,打地基,别怕枯燥编程语言,零基础的先搞定 python 基础语法,再去学神经网络、 nlp 提示词工程和 transformers 这些。第二个月,干掉两个真本事,一、 r a g 解锁增强生成,不是知识库,加大模型就叫 r a g, 你 要能用向量数据库召回相关文档,再让 l l m 生成答案。二、 agent 智能体, 不是 ai 聊天机器人,是能规划调用工具,反思迭代的一整套系统,别用现成的工具自己搭。技术不是看出来的,是调错重跑,改 prompt 换模型练出来的。第三个月,实战为王,项目说话,微调 fine tuning, 用 laura 或 qlr 在 自己的数据上微调一个七 b 模型,练练手。部署 deployment, 用 fast api 封装模型, docker 打包部署到阿里云 ecs 或 hackinface spaces, 让别人能调用 api, 最后完成两个真实项目。智能客服系统以及企业级知识库都得会。企业招人不看你学了多少,就看你能不能上线一个能用的系统。说了这么多,也该搬出我的箱底了。 二零二六年 ai 大 模型学习路线加 l 零 l 五阶段所对应的学习素材、资源、笔记等等,我都开放了共享模式,只要你说需要,我就双手奉上。三个月,足够你从看教程的人变成被别人找上门要教程的人。

用 deepsea 一 分钟生成五十条原创视频。用 deepsea 一 分钟生成五十条原创视频。 接下来我就手把手的带大家去实操一遍,如果说担心看一遍记不住整个流程的家人们,那就把这条视频保存下来,等到你想做的时候,可以一边看一边操作。废话不多说,直接来到今天的实操环节。首先呢,打开手机上的 deepsea, 然后在这里输入指令,下达要求,可以采用打字的方式,也可以采用语音输入的方式。在这里为了方便快捷,我就采用语音输入的方式。 请帮我生成三段提示词。第一段是熊妈妈带着小熊在菜市场买菜的提示词,第二段是熊妈妈在厨房忙碌的做菜的提示词。第三段是熊妈妈带着小熊在吃饭的提示词。 点击说完了检查一下,如果说没有错别字的话,点击发送。现在 deepsea 正在努力的思考当中,去帮我们生成我们所需要的提示词。 好,很快的, deepsea 已经帮我们把三段提示词生成好了。首先呢,我们把第一段长按,点击选择文本, 好给它复制下来,点击复制。然后再打开手机上的小梦,点击想象,点击视频生成,再点击视频生成。在这里把刚才复制的提示词去给它粘贴上来,点击下方的生成 好。不用等它生成完毕,我们再打开 deepsea, 再把第二段 提示词去给它复制下来。好,再打开手机上的小梦,再次地点击视频生成,把提示词给它粘贴上来,点击生成 好。第二段呢,正在生成当中,正在造梦中,不用等它生成完毕,再打开手机上的 deepsea, 再把第三段的提示词去给它复制下来, 好,再打开手机上的小梦,重复以上的操作,粘贴 生成。现在呢正在努力的帮我们生成当中,需要耐心的等待,一到两分钟的时间,很快的三段视频已经帮我们生成好了,我们点进来, 点击下方的保存,点击保存到本地,保存成功之后,点击返回,再把第二段再给他保存下来,以此类推,再把第三段呢也给他保存下来好,都保存下来之后呢,再打开手机上的剪辑软件,点击开始创作, 把保存下来的三段视频呢,按照顺序依次的点高清点添加,给他添加进来好,添加进来之后,我现在呢是无水印保存的,如果说平时呢,在这个右下角这里会有平台的水印存在,那么应该怎么办呢?我们点一下这个视频,可以呢去给他放大, 稍微放大一点点,不影响我们整个画面的质感和效果,但是现在我是无水印的,就不需要去给他放大。接下来呢,找到下面工具栏里面的音频,点击音效,给他添加上场景的音效好。第一段呢是在菜市场买菜,我们就选择一个 菜市场好,就选择第一个点击使用,然后在第一段结束的这个地方把多余的音效去给他删除好,再给他添加第二段的音效。 做饭的声音好,我们选择这个煮东西的咕嘟声,点击使用好,再在第二段结束的这个地方再给他点击分割,把多余的音效的音频条去给他删除,再点击音效,把第三段的在吃饭的 就选择吃饭的声音,好,点击使用,然后在视频的结尾处再点击分割,把多余的音效的音频条去给它删除。然后呢,再选中两段视频相接触的地方,这里有一个白色的小方块,我们给他选择第一个叠化, 给他加一个转场,为了让我们的视频呢,与视频之间衔接的更加的流畅,过渡的更加的自然,给他选到零点四,点击全剧应用 好,打对勾。好,这样呢,这个视频呢就做好了,稍后呢我会把这段视频导出来,给大家看一下最终的效果怎么样。 像我这样给 deepsea 下达指令,生成原创视频的方法是不是很简单,你学会了吗?像这样的方法,哪怕是你一天生成个三条,五条,甚至三十条,五十条,一百条,两百条都不在话下,如果说你学会了的话,赶紧按照我的操作方法去试一下吧。 如果大家觉得我这期的视频分享的还不错,或者是说呢,你也对短视频剪辑感兴趣,也想学习更多的剪辑技巧和剪辑方法,可以在我的评论区呢,留言六字,我会持续的给大家分享我用 ai 制作视频的技巧和经验,我们下期再见。

大家好,我是百川,我们今天来学习的名词是 l l m, 我 们会从员工责任到大元模型的发展,再到我们工作原理以及我们的发展里程,再就是未来展望,会从这四个角度去了解这个 l l m。 那 首先我们现在对它进行一个认识啊,它的全称呢?是 logitech model, 是 取得三个单词的缩写, 它是一个什么东西呢?它其实就是一个能够去理解人类,人类一个人工智能系统,它可以理解为是一个超级厉害的一个猿大脑,通过学习我们海量的文本资料,能够去回答你的问题,写作文,翻译,以及说做一些创作的事情。那么简单来讲呢,大猿模型就是通过阅读大量的资料去学会说话的一个 ai, 我们学习很多的内容,然后,哎我有了输出这些语言的一些能力,那它的作用呢?是能够去模仿人类的语言能力,帮助我们去完成更多与语言相关的一些内容,记住是和语言相关的单个位置哈。那么大元模型的发展呢?可以分为以下这几个阶段啊, 我们人工智能的起源跟大元模型,它其实会有一些分割的点,所以第一个是关于人工智能,人工智能其实在图灵测试在一九五零年所提出的一个概念,然后在后面一九六零年呢,我们就可以做了一个简单的对话, 然后再有之后就是我们一个传统的记忆学习,然后我们通过数据的方法来训练大量的数据。那这个时候呢,其实我们的数据其实依然都是建立在一个叫语言模型,它不能叫做大语言模型,那在什么时候我们有了这个大语言模型这个概念呢?其实在传输了之后的一个架构诞生, 我们就有了这个大语言模型的概念。那么为什么传输方面的话,我们在之后再单独来进行讲解?那么我们唯一需要知道的,为什么从这个之后我们就有了这个大语言模型? 因为我们在之前做一些传统,就我们积极学习和深度学习训练的时候,别人说我们常见的像 r n、 n 这样一个训练,它其实会有些问题,就别人说我们会有一些它的训练是一个并行的,就我们需要,就我们之前有个段子,就是先干你的,再干你的,然后再干你的, 对吧?那么这里的话会导致一个问题,就是效率非常低,就是我需要做了一个事情之后,做第一件事情,再做第二件事情,再做第三件事情,再做第四件事情,效率是比较慢的。然后呢还有问题就是一旦我的处理的文本过长的话,它会丢失文本的语义。就比方说我一句话里面有一百个字母, 从第一个制服到第一百个制服,他可能做到第一百个制服的时候,我就不知道第一个制服是什么东西了,就是会有羽翼丢失这两个问题啊。那么有了 chanel 这个概念之后呢?这个价格之后,我们其实就是解决的这个第一个我们能够去并行计算, 然后在 chanel 里面他其实会有一个非常典型的叫自助预机制,然后有了这个自助预机制之后呢,就哪怕你的文本再长,我也能知道以前的羽翼是什么概念,那么有了 chanel 之后,那也就说我们在训练数据的时候,我 不再是说我的数据只能是短小精悍的这种,那我可以是非常长的文字数据,那么有了这个生成方法,那么我们就有了一个大的概念,我们训练数据可以越来越多,越来越大,我的数据一旦过多的话,就是我们会现在看到训练模型的这种指数,是这个数据啊,是呈指数增长的,比方说我们动不动几百亿的数据,几千亿的数据, 所以说在后面可能会数据会再次进行一个指数的增长。就比方说我们之前会看到模型会有这种三 c i b 啊,或者说八 b 啊,或者说我们对应的什么几千 b 啊,那么这种的话,你的训练的数据越长就是我们全方面的原因,你的数据量非常大,那么在这种数据量非常大的情况下呢,我们就有的概率就大 大元模型,你可以有大量的数据,那这个其实就是我们所讲的叫大元模型。那么这个时候呢,其实我们在呃二零二,二零二零年的时候,我们 openai 呢,就是发布了一个一千七百五十亿的一个模型,叫 g p t 三,好, 那么在二二年呢,我们开始慢慢的火爆起来,然后再是变得多模态,再就是我们 ai 的 一个民族化,就是我们日常生活中呢,就是能走进千家万户了,我们大家都能够去用这个大元模型。那么大元模型我需要大家现在理解的一个概念呢,就是他的出现呢,其实在之前就有,之前叫做语言模型,那么在川藏方木诞生之后呢,我们的 有病形的操作,以及说也有自助的机制,我们能够去理解很长的语,那么我们就可以通过堆这种数量的情况,让这个模型越来越聪明。好,那这个就是我们的这个大约模型,那么大约模型它是如何工作的呢?其实说白了其实还是基于这个穿风的架构, 穿风的架构它里面的自助意识,也不是说我们最开始就提这个没有这个东西,而是说之前有,但是我们,嗯后面把这个自助的机制往上提全了,这点感觉哈,那么它的过程是什么呢?首先第一个我们需要海量的数据, 怎么去工作的哈?然后我们需要去预处理,或者说标记我们的文本,然后我们需要通过这些数据呢去训练自己的模型,然后通过训练的模型呢,我们可以通过你输入的文本去预测下一个词,然后深层对应的回应,那这个其实就是大模型所做的事情。首先第一个是训练模型, 然后训练模型的话我需要通过海量的数据来进行训练,训练完之后呢,这个模型就有了预测,比方说我输一个你,他会预测下一个字,说好, 打比方讲我做一个很简单的改过啊,比方说好的概率的是百分之九十八,或者说,哎,你是谁?是这个值的 这个概率是百分之八十八,那么我们就会根据概率性的问题呢,给你做一个填词的操作,那这个其实就是我们大元模型一个工作的阶段,那么其实核心呢?其实还是在这个全方面的价格,它能够去同时关注你的句子,有个多个部分, 就是我们可以关注它的语义,可以关注它很多的含义,能够理解词之间的一个复杂的关系,就很就像我们人类在阅读我们整体的句子一样,就是我们有了个自主意识。那么大元工作原理其实就是做一个预设的功能, 就是这样一个作用哈,就在穿风那个基础之上做一个训练模型。好,那么大元模型目前的一个实际应用哪些呢? 目前用到大模型的是非常多啊,你小到我们现在的自媒体,小到我们的日常办公,再到我们现在自媒体啊,内容创作啊,还有像我们的医疗助手啊,智能客服啊,语音翻译啊,像你都用的游戏助手啊,这 种 ai 搜索,或者说这个教育的辅助,以及说我们内容创作,我们现在这个大模型呢是覆盖到各行各业,所以我们在之后你会发现,嗯, 尤其在今年的二六年,我们 ai 是 一个呈井喷式的。好,那么这个就是我们在 ai 之后的应用。然后还有一个呢,其实是我们对于大模型之后的一个展望,以及说我们大元模型的一个对比。所以目前的话,这个我拿的数据呢是二零二三年的,虽然说现在是二六年了, 我展示数据还依然是二三年的,就是根据你模型不同呢,他其实所做的事情也会有区别。然后还有一个就是我们对应的在之后的一个展望,然后我们是希望之后大模型能够去做到什么那个地步呢?第一个是能够更小更快的一个模型啊, 这个是我对于大模型之后他可能去发展一些方向,就是我们现在的大模型它其实追求的一些数量上的一些问题啊,就是我们现在数据量越来越大, 几千亿或者说几百亿的数据。然后第二个呢,可能会是一个多模态的发展,因为我们现在单说大元模型的话,它只是对你的语言语言进行处理,但这个的话其实目前很多的模型都是支持这种多模态的形式。然后再就是针对于 各个行业,就是我们众生的,就我们之前考虑是一个广度问题,那么现在我们可能考虑更多的是一个深度问题。比方说,哎,我们在之后专对于这个医学领域,或者说我们对应的这个代码领域,或者说我们的这种法律领域,然后再往后面呢可能会与现实进行交互,但这个其实就是我们在做大圆模型的一个发展的主题方向。好。

各位老师好,今天用几分钟和大家聊聊我最近学习的教师生成是人工智能应用的核心干货,内容很多,不讲虚的, 就三点关键。第一,想明白, ai 不是 来取代我们的,是来升级我们的。国家把教学数字化定位战略引擎, ai 就是 在里面的关键工具。但指引说得很清楚,教师永远是教学设计的主导者、专业判断的守门人、 育人价值的引领者。 ai 的 角色是协同者,帮助我们处理重复劳动。比如说生成教育呃,教案的初稿批改基础作业分析学习数据,把我们从繁琐事务中解放出来,我们的角色正从知识传授者向 ai 协同者和高阶思维培养者转变。 第二,用到位,瞄准、提质和公平。抓住几个关键场景, ai 用的好,直接解决教学痛点。核心是四个字,因材施教。课 前用 ai 快 速背课,生成个性化资源。但它只是初稿,我们必须审核调整,融入我们的教学逻辑。 课中利用 ai 进行实时的学情分析,比如分析课堂互动数据,及时发现共性难点,动态调整教学节奏和策略。课后基于 ai 的 学情诊断,设计分层作业,提供个性化反馈,形成诊断、干预、评估的精准教学闭环。 这对于资源薄弱地区的意义是更大的, ai 能快速生成优质资源,助力教育公平。第三,划红线,守住逻理底线。安全规范是前提, 技术必须向善。指引里明确禁止的行为清单,核心就三条。第一个内容安全。所有 ai 生成的内容必须经过人工审核,确保科学性、准确性,并符合立德树人的导向。第二个,数据隐私,严禁上传学生个人信息和敏感数据,到公共平台 使用,必须要脱敏并且获得授权。第三呢,学术诚信,要禁止使用 ai 代写论文、申报书等学术成果,凡是用了 ai 辅助的内容,必须明确标注。 最后,行动建议很简单,第一个,先选对工具,选那些目标匹配安全可控、操作便捷的教育专用工具。 第二个,从小处试点,从一个教学环节开始,比如说用 ai 辅助作文,灵感激发,或者做一次智能学情分析。第三个,保持主导权。始终记得我们是教育设计者, ai 式辅助,用它来放大我们的专业智慧,而不是被它牵着走。 总结一下,拥抱变化,明确角色,用好工具,精准教学,守住底线,安全第一。希望我的分享能够为你探索 ai 教学有所帮助,我们一起从会用走向善用,谢谢大家!

一天来学习 ai 中的一个小知识,今天我们学习的是 ai 中的 token, 首先我们会给大家去了解什么是 token 以及 token 的 类型,再有就是 token 它是怎么样的一个处理方式,以及 token 的 重要性, 以及我们在之后怎么去通过这个托管做一些实际的安定。那首先第一个什么是托管呢?托管,其实大家在学习 ai, 或者说我们在接触 ai 的 时候,会听到非常多的一个词,托管它其实是我们在 ai 理解文本的一个最基本的单位,什么意思呢?就好比说我们正常的 小朋友在学习一个新的事物的时候,我们其实也是会把对应的先认识词,再认识一句话,比方说我们会先 主持再造句,那么其实 ai 其实也是这样的,我们其实在 ai 里面,它也是以单独的词为一个单位,让 ai 去进行理解。那么什么是托管呢?托管其实说白了就是会把一句话 拆分成一个对应的词,对应的内容。就比方说我们会把人工智能这两个东西拆分成人工和智能, 那么在 ai 里面, token 它是用来用来切分文本后的最小的单位啊,有点类似于像乐高里面的积木,我们需要一块一块给它拼起来啊。那比方说我爱人工智能这一句话呢,我们会把对应的 token 进行划分,我喜欢人工智能,那么会按照这种方式把它拆分成对应的 token 内容,也就是说 token 就是 我们一句话里面的最小的单位。 好,那不同的中文呢?分割成会有不同的托克,然后通常词组会当做是一个词整体啊,而生僻字呢会被拆成多个字母,那这个其实就是我们所讲的托克,那么托克呢,其实也会有不同的类型啊,目前主要的 token 呢会分成三种。首先第一个叫做普通 token, 就 我们日常见到的猫啊,狗啊,电脑啊这种,其实都是普通 token 信息。然后还有一种就是特殊的 token, 就是 我们在大模型里面它代表了一些特殊的含义,就比如说 end 呀,或者说开始啊, start 呀,呃,这个掩码这一些,那么这个是在大模型里面有特殊的含义。 然后其次会有个叫子时托管,就是我们会把对应的内容,把不常见的词拆分成更小的单位,比方说我们的量子计算会拆分成量子和计算两个词啊,那这个就是我们在之后你的词的划分,就我们托管的一些类型有哪一些啊?然后我们托管是怎么去处理的呢?怎么去 把对应的托管转换成对应的数据了?首先第一个我们在使用大模型的时候,你会先输入文本内容,那么这个文本内容呢,我们会先对它进行一个分词,所谓的分词其实我们有很多的技术手段,比方说我们在之前会有 n、 l、 p, 或者说我们的 r、 n、 n, 那 么这种的话其实都是会把对应的一句话拆分成最小的一些单位,然后我们会把对应的单位呢给它进行一个编码,会把对应的数据进行一个 这个转换成一组数字,然后再会把这个数据呢转换成一组向量,那这个向量呢,其实说白了就是用来表示这个词, 它在这个向量数据库里面,或者说我们在一个维度空间里面,它能表示这个含义,因为我们这个词它具体要表示的是要大模型去理解它的意思是什么 点。就比方说,哎,今天他大概的意思,因为大模型他是没有办法去理解你的。今天天气真好这一句话到底是什么含义的?那么我们会把这个词拆分成最小单位,比方说我们在一个艾维空间里面啊,比方说在某一个点,在这一块有今天、 明天、昨天、后天,有这样一个词的含义,然后天气真好这一刻,比方说真好,在这里有真好, 增开心、增快乐,那么我们会把这些内容转换成项链之后,在这个项项链数据库里面,就在一个维度的数据里面进行表示,那会发现 正好这个词它旁边都是一个开心的语句,那么我们就能理解它的一个含义。所以说我们需要把对应的数据转换成项链,或转换成一个维度空间的内容啊。那这个呢,就是我们在 token 之后的一个处理的过程。那么 token 那 为什么会有这个东西呢?它在我们整个 ai 里面是非常非常重要的。 首先它有哪一些限制的点呢?我们会从四个角度啊,会对托管进行一个理解。第一个是我们大模型或者说 ai 的 模型呢,会有托管的限制数量,比方说像我们的呃 gpt 四的话,它是限制成八到三十二 k 的 一个托管就是我们个数。 好,那么这个含义会有什么东西呢?因为我们有一些东西,如果说你像大模型提的问题非常长非常长一串的数据,它有可能会接受不了, 对吧?那么我们会限制它的一个长度,那通过什么来限制呢?通过你的托管,然后还会影响你的响应的一些速度啊,因为我们托管的话,你如果说数据越多,那么我耗费的资源,我要计算的内容就会越多,所以我们要通过一个东西来评判。然后再有就是我们要 有一些商用的 ai 的 话,我们是需要去进行计费的,那我们怎么去计费?你当前这一个对话消耗了是多少的金额呢?我们其实是通过托管来给你进行一个计量单位, 还有会影响我们的准确性,那如果说你的内容单数越多的话,就是你理解起来相对来说可能没有那么精准。好,那这个就是托管为什么在 a a 里面如此重要的原因啊?它有很多角度都是需要依赖于这种最小单元来进行一个 呃,维护的好,那么在托管里面它是工作的方式呢?其实就是首先第一个会把对应的文本进行拆分,拆分完之后呢?拆分完之后,比方说一句话, 我喜欢人工智能,他会拆分成五个托肯,但这个也是按照五个托肯来进行计费啊。那这个就是我们按照比方说,哎,中北京是中国的首都,那么我们同样的会把它拆分成九个托肯,但这要注意啊,因为我们在 嗯用的模型其实非常不一样的,我们会用国内的模型和国外的模型,像国外的 g、 p、 t 啊,国内的千万啊,这种模型你每一个模型用来拆分的角度其实是不一样的,比方说我们现在是用这个大 模型技术日新月异,比方说这个模型用的是这种拆分的方式,那有没有可能其他的模型大模型是连在一起的,那算作是一个托肯?也有可能, 比如说我们每个模型不同,它用来分持托肯,对托肯的定义其实也会不一样。好,那这个就是我们在大模型里面托肯它的一个含义,以及说作用是什么。

一款软件彻底玩转所有 ai 功能,官方正版还免费?这还不够呦!我已经帮你把它内置的五十六个 ai 功能全调通了,全程不用你动手,你只需要三步就搞定一下载,二键压缩三双击打开,不用装插件,不用配环境,连模型我都帮你提前放好了,直接就能用!哪怕你完全不懂 ai 是 啥也没关系,照样能轻松玩起来。想画图点一下就行, 想做视频再点一下就好,想创作音乐还是点一下的事, 就算要搞三 d 建模,也只是点一下的功夫呀!这可不是什么野鸡淘客网站,而是全球公认功能最全面、生态最丰富、还最贴近生产力的免费开源 ai 软件 comui 哦! 你用它就能玩遍所有叫得上名的、国内最新最前沿的 ai 功能!或许呢,你早就听过它的名字,但今天真的绝对只能重新认识它,因为它变了,变得比以前有好多了,它就是 comui! 官方五月份新推出的全新版本,变动大到超出预期,其中有三点尤其好,咱们中国用户朋友特别贴心!首先,全中文官方界面, 大家注意哦,这可不是第三方翻译插件,是官方正版原生又支持中文的,比第三方插件权威多了,性能还稳,可能性也更高。连做翻译插件的大佬都直呼有救了,中文不好的朋友,入门的第一道坎,官方直接就帮你摆平了,是不是超省心?第二 呢,内置了五十六个开箱即用的模板,完全不用学新版 comfyui, 官方直接筛选了五十六个在 ai 史上留下过浓墨重彩的经典 ai 功能,做成模板放进了工作流域栏那里了,从 ai 绘画的纹身图 声图扩图、高清放大,局部重绘区域,控制好 ai 视频的文声视频、图声视频、首尾声、过度动画,甚至连 三 d 建模、音乐音效创作都有,真的应有尽有。这些全是 comfy ui 官方精选的,新手入门常先快速掌握时下最流行的 ai 技术,你以为这就完了?第三呀,我还帮你解决了新手最头疼的三座大山!没魔法,找不到模型报错了,搞不定! 我耗时两个多星期翻遍了全网,还通宵下载模型调试报错,终于把这五十六个工作流的所有节点全调通了,模型也全装好,地图也全内置了,你拿到手之后,不用魔法上网,不用安装调试,选择自己感兴趣的模板,点一下运行直接就能用。对零基础的 ai 小 白,咱宠粉可是认真的 还没完哦!这次 comfyui 还有个重大功能,升级官方签约 api。 简单说,你只需要注册一个 comfyui 官方账号,再充点值,就能在 comfyui 里直接调用所有付费 api 了。而且 comfyui 还承诺所有 api 费用和 openai 云、 journey 等各大官方平台的报价完全一致,没有任何中间商赚差价,用起来特别方便,一点不麻烦。 时间有限,更多细节我就不展开说了。本期软件的下载链接我放在评论区了,绝无套路,点进去就能下,要是实在找不到的话,就在评论区发。六六六六,我看到了就直接发给你。 ok, 大家好,欢迎来到我的 comforu i 系列课程的第一课。那我们都知道现在随着 ai 绘画的发展,对吧? comforu i 也是逐渐被推到了大众的视野,并且它也是许多许多大公司小公司所要求的必备技能之一,就是你要会 ai 绘画,那么你就必须会 comforu i, 不 然我就不要打。那么我们说到学习 comforu i 最基础最 基础的功能呢?那么肯定就要提到我们的纹身图了,对吧?当然还有其他两个是图身图和局部重绘,我们需要知道的一件事是,我们任何的复杂的工作流都是在纹身图图和局部重绘 之上去进行搭建的,也就是说这三个最基础的工作流就是我们所有复杂工作的逆袭。所以我们话不多说,直接来开始学习我们 complay 里面的纹身图工作流,那么我们看这个纹身图工作流可以看到它主要包含了几部分,我们来数一下,第一部分就是我们的 play 的 文本编码器,第三部分就是我们的 k 弹器,那么第四部分呢?就是空软腾,第五部分 e a d 解码,对吧?第六部分就是我们的保存 图像,也就是我们输出图像的地方,那么我们一个一个一个部分的来看,我们先看我们的图层加载器,我们图层加载器的作用就在于它可以加载我们的大模型啊,大模型? 那么大模型是一个什么样的东西?我们任何的 ai 绘画都是需要大模型去驱动的。我们举个例子,如果说我们把这一整套工作油比做一个人的话,那么我们的大模型就相当于我们人的脑子,对吧?我们需要这个脑子才可以去控制我们人的行为,也是控制这个工作进行 运作。那么既然说到人脑,其实我们知道在现实生活中,每个人的人脑他都是不一样的,也就是说我们的大模型其实也是不一样的,有些大模型呢,可以绘画真人风格,有一些大模型呢,又可以绘画室内的装修风格,这个就是我们大模型的作用,它总管着我们的一个 风格的一个绘画方向,比如说我在这里选择一款动漫大模型啊,或者说真人大模型,我们选择这个,呃,麦菊 v 七模型,大家可以看到哎,我们把它选择一下这个切克尔切,大家还可以看到它有三个点,对吧?它有三个点,一个是模型点,一个是 kiv 点,一个是 ve 点,那么我们从下往上看,这个 ve 点的作用是什么呢? 说到这个 v e, 我 们就不得不提到我们大模型的一个训练了,在训练大模型的时候,是不是要先准备一个炉子,然后往这个炉子里面去丢入一些图片,比如说动物的图片,人物的图片,或者说花花草草的图片。对,我们把它丢进去,但是你丢入这些图片的时候呢?我们需要知道的时候,我们必须给这个图片进行打标,打标是什么意思?就是我们得把这个图片里面有个内容通过文字的形式 它呈现出来,比如说一只小狗,那么这个小狗的外貌怎么样的?我说它的场景里面有些什么内容,都得用一个文本的形式把它呈现出来,然后把这张图像和文本一起打包投进这个炉子里面。当我们投入了照片和打标的这个文本够多的时候,哎,那么 这个大模型它就会自己去学习这里面的一些内容,学习完之后它就变成了我们这一个具有偏强性的大模型了,我们也可以把这个大模型完全只投入动漫的啊,这个图片,那么它就会变成动漫大模型,或者说我们只投真 真实的图片,那么它就变成真实的大模型,那么这个就是我们大模型的一个训练的一个过程。那么我们刚刚说我们投入去的图片它是什么图片?是不是只有我们人类才能看得懂的图片?那么既然是我们人类能看得懂图片,那么计算机能不能看懂?那当然是看不懂的。我们这个 ai 绘画的过程,其实它就是在计算机里面去进行操作的,对不对?所以说我们任何的数据最后都会变成计算机的信息, 所以我们需要把人类能够看得懂的语言变成计算机能够看懂的语言,所以我们就需要这个 b、 a、 e 去对我们这个模型里面的图片进行作用。我们把里面所有的图片编码成为计算机的语言之后,我们就再把这些语言进行分配传输,然后最后由这些语言进行重组,变 一下类,又看的一个图片,对吧?所以我们的 u e 把里面的图片进行一个解析,解析完之后它变成了许多许多的信息,然后通过我们这一个模型点,要传到 k 长器,看到没有?我们可以把这个先断开,然后把它连上,对吧?要传到 k 长器,然后可以看到它有 delete 点,这个 delete 点其实是我们的,我们可以说它是条件点,你也可以把它当做文本点,当然了文本点它可能不太正确,我们要把它叫做条件点,对吧?条件分成了很多种, 后面说到了 ctrl 键,它也是调进点的一部分。但是我们这里姑且先把它当做是一个文本点,它这个文本点它可以读取我们所有照片,刚刚说的打标里面的图片的一个文字信息,读取到之后把它继续往下传,传到我们的可列本文本编码器。那么我们的可列文本编码器的作用是什么呢? 当我们去用急梦或者可林的时候,你会发现我们在输入一串文字之后啊,它会生成一个图片,对吧?那么这个可列文本编码器也就是我们输入文字的地方,比如说我在这里输入 a k, 我 在这里输入一只猫,啊,输入一只猫之后,然后点击执行,我们看一下, 我们可以看到它是不是生成了一只猫出来。那么这个可列文本编码器它为什么叫做编码器呢?也是一样的,我们输入了 a cap 是 人类的语言,对吧?我们需要把它进行编码,编码成为计算机的语言,那么计算机才能够读得 懂。那么有同学会问,为什么我这里的可列文本编码器它有两个,那是因为我们 comforui 或者说 stable fusion 的 一个特殊性,它会给我们用户配置一个负面条件,也就是说上面这个我们可以把它叫正面条件,也就是说通过这一个文本我们可以输入我们想要的东西,那么负面条件我们自然也就输入我们不想要东西, 然后这个可利用我们的编码器呢,就是来输入我们的正负面条件了。我们再来看一下我们的 k 传感器,我们会发现 k 传感器它是最后的一个信息处理中心,有没有发现 什么叫做信息处理中心呢?我们会发现我们的通过这个正面条件和负面条件输入了这个我们想要的东西之后,哎,把它编码成为计算机的语言,他会传到 k 传感器里面,对吧?我们大模型里面被编码完的图像信息也会传到我们的 k 传感器里面,然后我们 k 传感器里面现在有几份信息,是不是有两份?第一份信息是我们的这个正负面条件的文本信息在里面,那么通过我们的 文本信息跟图像信息进行比对之后,那么我们的 ai 就 知道我们要生成什么样的东西,比如说这里面我们刚刚说到图片可能会训练一些人,一些猫,一些狗进去,对吧?那么我们如何精准的让它生成猫,那么 就通过信息比对了,通过跟我们文本的信息比对,把它比完之后,它自然就会出现猫的图片。 ok, 我 们继续往下看,这个空扔腾的作用是什么?空扔腾的作用其实它就相当于一个白色的发布,我们都知道我们 在进行绘画的时候需要一张白色的纸,对吧?那么我们的 ai 也是需要一张白色的纸的,那么这张白色的纸就叫做空灵感,这张空灵感的宽高我们是可以去设置的,我们可以看一下,它可以设置成为五幺二乘五幺二,对不对?五幺二乘五幺二,你也可以设置成七六八乘七六八,那么它的画布就更大一点,当然你也可以设置成五幺二乘七六八,也就是说它会变成一个竖平的一个画布,那么它画出来的东西它自然也就竖平的,我们可以看一下, 哎,是不是竖屏了,对吧?你也可以把它变成横屏的,也是可以的。然后这里还有个 p 次大小,我们可以把它画成二,那么它一次性就会画两张图片出来。好,我们可以看到是不是一次性画两张图片出来,所以这个 p 次大小主要是拿来管理我们的。呃,图片的出的张张数的就是,如果你是二,它就出现两张,如果是三,那就是三张,这样子,以此类推过去。 好,我们再来看一下 k 长器里面的一些参数。第一个是这个随机种,这个随机种是什么东西呢?其实它就是我们这一个图像的身份证,我们的这一个图像。哎,每一张图像生成出来,它都会有一个不同的随机种的数字代码,我们可以看一下,比如说我又生成了一张,可以看到随机种是改变的,对吧?所以说一个随机种一般来说是对应一张 图片的,那么我们后面看一下运行后操作这一个栏目,它是拿来干嘛的?我们可以点开,它里面有固定增加、减少随机,对吧?如果我们填满我们这个随机种,它是不进行改变的,有没有发现? 好?我们再点多几次,你会发现他没反应了,我们点击直行的时候,他已经没反应了,对吧?为什么没反应?就是因为我们把他的随机种固定了,那么这个随机种他就是对着我们这一张图像的,对吧?所以他不会进行改变,他也不会进行再一次的跑图,因为这张图片他已经怎么样生成完成了,对吧?我们也可以 选择增加和减少,那如果你选择了增加的话,你会发现后面这个数值他会加一,变成了九,看到没有?好,再点一下,现在变成了七十,对吧?好,第七十呢?会发现他出现了人,我们可以继续往后跑, 可以看一下他又加了一,他又变成不一样了,还是那那句话,他就是一个随机中对应的一张图片。当然了,这这个随机中的增加减少你可以自己去调,我们一般把它调为随机啊和固定,我们用的是最多的,然后是步数,步数就是说我们画这张图像的用了几步,比如说我们人类去画一张图像,可能我们需要画五十下才能把这张图像画出来,对吧?按道理来说,我们这个步数越高,那么我们画的图像所具有 的细节也就越多。当然了,这也并不是完全的,如果说我给他一百步,但是我画的图像所具有的细节也就越多,当然了,这也并不是说你步数越高越好, 那么这个步数的高低主要看我们的大模型的选择,比如说我选择一点五的大模型,那么我自然这里的步数我选择二十步,它就是可以的。如果说我选择 plus 模型,对吧? plus 模型训练参数很多嘛,那么我步数选择十步,那么我也可以画出一个很好的照片,对吧?那么这个步数就看大家自己去调了,我们一般来说最好就是不超过五十 步,为什么?因为如果说你超过了五十步,其实呢,它没有什么太大的效果,甚至说会让你的图片进行一个崩坏,对吧?而且会更加耗费你电脑的一个配置的显存,所以说我们一般定为二十步就好了。然后这个 cfg 的 话, cfg 是 什么意思?它的全称叫做,呃,条件引导,也就是说这个 cfg 越高,它跟我们这个哎提示词越贴近,如果我把 cfg 改为零,大家可以看一下,我们去跑一下,哎,可以发现它出现了一个什么女生,对吧?跟猫有没有任何关系?没有任何的关系,如果我们调成了一, 可以再盘一下,好,这里出现一只猫啊,但这只猫它怎么样?太过于抽象了,对吧?就说呃一这个参数,对于我们一点五的模型来说,它太低了,它贴合不了我们这个正面提示所想要的一个内容,所以,呃,一般来说我们这个一点五的这个模型,一点五大模型,我们一般这里我们选择的是呃七左右,七到八左右就会出现一个比较好的,比较好的图像 可以看到。然后另外一点呢,我们需要知道的是, cfg 其实对我们画面的饱和度有一定的控制,如果说你的 cfg 太高的话,对于这个模型来说,那么它可能会出现过拟合法的一个效果,比如说把这里调成二十,看下会有什么效果 好,可以看到它锐化是不是特别的严重,以及饱和度非常的高,对吧?如果说你用的不是一点五的吗?大模型用的是叉 l 的 大模型或者 plus 模型的话,你会发现一个很严重的问题,就是它的锐化太高了啊,或者饱和度太过于严重,那么出现的画面也就会变得很抽象,对吧?所以 我们的这一个一点五的大模型,我们一般调为是八,如果是叉 l 的 大模型的话,我们一般是五到六之间的, plus 一 般我们把它调为一,也就会发现有一个规律,大家有没有发现,你越强的大模型, g f g 相对来说就越低,对吧?然后采暖器和调入器我们可以看一下, 采暖器和吊炉器不同的选择呢?对,我们图像的深层也是不一样的,不一样的采暖器啊,它出图的质量也就不一样,那么我这里呢,主要就是用的最多的就是 d p o m, d p o m 是 一个效果比较好的一个采暖器,或者说 d p m 也不错,这两个都不错啊,这我推荐你们直接使用,就不过多的讲解,因为就容易比较麻烦。然后吊炉器呢,我们一般选择 k 字开头的啊,这也是一个比较好的吊炉器,大家测试出来的一个比较好的,我们可以看一下, 嗯,可以看到效果是不是更好,比起刚刚的这个 ur 的 时候, ur 的 这一个彩样器呢,它其实更适合于生成动漫的那个风格,但是我们选择的是真实大模型嘛,对,真实大模型,所以我们这里用 d p m 和 k 这个彩样器出来的出路效果就非常的不错,我们可以看一下, 哎,对吧?是不是更加的真实,感觉好,最后就是一个 v e 解码,那么我们在这里 k 彩样器刚刚说我们会进行一个信息比对,对不对?那么信息比对完了之后, 我们是不是需要把计算机的信息给它释放出来,变成我们人类能够看得懂的语言才可以,对吧?那么这个 v a e 解码就是能够把我们计算机的信息给它释放出来了,然后把转换成我们人类可以看到的语言。所以说我们最前面这个 v a e, 我 们可以把它叫什么 v a e 编码啊? v a e 编码,通过这个 v a e 可以 编码我们语言大模型里面有的图像,对人类看得懂图像信息,把它变成计算机的语言,然后变成计算机的语言之后呢,通过在 k 程序里面进 行一个信息比对完之后,然后让计算机知道我们想要什么样的内容收集出来,收集出来之后通过 v a e 解码,怎么样 把它解码成为我们人类看得懂的图像信息,就完成了我们一整个纹身图的一个工作流。好,哈喽大家好,欢迎来到本期的康复 ui 教学,那么这节课是第二节,咱们一起来学习康复 ui 最基本的框架以及最基础的生图工作流。 在开始之前,关于如何安装康复 ui 这一点咱们提一下,既然现在网上已经有非常多的安装教程,那我这边也就不再过多赘述了,咱们待会直接切入主题, 如果呢,想要本套课程安装包的小伙伴可以在评论区内获取。 ok, 在 咱们安装并打开 comfuse 之后,我相信大家跟我看到的都是一样,哎,都是这个默认的工作流界面,咱们现在滑动鼠标的滚轮,哎,就可以发现,咱可以利用滚轮进行放大和缩小,对吧?接着现在我们按住鼠标滚轮,哎,按下去我们就可以发现了,咱 们是不是可以拖动屏幕了。好,那么恭喜你掌握了两种最基本的操作方式。接着咱们看到这工作流它是不是由一个一个的节点构成的? 是节点了,这一个咱们称为节点,那这一个呢?我们也称为节点,这一个也是节点,这个也是,对吧?而节点与节点之间它能通过线连接,咱们细心观察可以发现,哎,这个粉色的按钮要连哪啊?连的是另外一个节点的粉色按钮。继 续看,比方说像这个什么 v a e 解码的这个图像啊,蓝色按钮,那它连接的也是,哎,这个保存图像的蓝色按钮。 好的,那么现在我们最基本的节点与节点之间是如何连接的?稍微参透了一点点,再继续深入之前,我们先看到右上角有一个直行点击一下,那么这个东西就好像咱们的升图按钮,点击了之后等待个几秒到数十秒啊,这个等待时间就会有小伙伴们的设备来决定,我们可以看到现在生成了一张图像, 对吧?那么生成这张图像的速度和大家的显卡性能有关,我这边还是比较推荐大家,至少要三零六零级以上。当然如果说你没有这么好的硬件设备,我们也可以用云端嘛,对吧? 比方说现在什么里不里啊,什么端脑之类的,有很多可以在线生图的平台,那这个我们放在第五节课中会提到。接着我们重新回到这张图片,咱们可以看到它是一个装着星云,装着紫 色森林的瓶子,以及它的背景是树林,对吧?问题来了,凭什么它生成内容是这一些,而不是一头大象和一只小猫呢?那这边呢,咱们就要看到正向提示词, 啥是正向提示词啊?细心观察可以发现这边有一个正面条件,那正面条件这根线连出去的这个框框,哎,这个叫做什么? c l i p 文本编码器,咱们称之为可以文本编码器,那么在这边输入的内容 就被称为正向提示词,内容也就是我们想要什么就在这边输入什么。咱们可以来做个简单的小实验,大家看我们把这些词汇啊 删去,然后输入一座花园。注意啊,这边一定要输入的是英文,如果是中文的话,那么电脑将无法识别,从而生成错乱的图片。好,那么在我们输入完一座花园之后,就点击执行,现在我们可以看到生成的图像是不是成功变成了花园呢? 简直是像魔法一般神奇。当然现在我们称之为魔法,是因为不懂背后的运行逻辑吗?等到我们学完第三第四节课,也就是 ai 生图背后的运行原理之后,我们就知道这一切不是魔法,而是 科学的捷径。好的,那么在我们说完正向提示词之后,我们来说一说他的对家,叫做反向提示词,也称为负向提示词,想想在哪输入吧,看到正面条件的下面有一个负面条件,那么当然就是在这所连线的框框, 也就是这个 clip 文本编码器输入咱们的负向提示词。 ok, 那 么新的问题又来了,正向提示词非常好理解嘛,咱们刚才这个就是想要什么就输入什么, 那副象提示词呢?该怎么理解?哎,其实和刚刚说的相反,就是我们不想要什么,就在副象提示词文本框内输入什么。哎呀,堡主,我还是不懂啊。好,我这边来举个小例子, 比方咱们看到刚才生成这张图像吧,怎么样啊?是不是有非常多的花?哎,有粉的、红的、紫的,各式各样。那如果我们现在不想要图片中的花占比这么多的话,那么我们就在副象提示词中 输入花朵,那花朵怎么拼啊?就 flower 嘛。当然如果小伙伴们在圆上遇到任何问题,我们都可以用翻译嘛,对吧?比方这个有道翻译我就挺喜欢的,非常便捷。 ok, 这边是纯推荐,还不是广告?好,我们接下来就点击执行。哎,现在咱们发现了没有, 图片中花朵的元素是不是降低了很多?比方我们再次点击执行来看一下,对吧?经过两次实验,图片中的花朵确实是比例明显变少了,但是并不是说完全消除。 那这也正如我刚才所说,负面提示词啊,他所做的更多是消除我们输入的东西在画面中的比例,而在画面中的权重,是吧?但是完全根除的话,这需要其他操作,我们接下来的课程中会提到。 ok, 那 么现在学习完正负向提示词, 我们再来看一下连接正负向提示词的这个叫 k 采氧器,那么他呀,我们可以理解成就好像人体的大脑,他控制的整个工作流,哎,不难发现,基本上所有的节点都会集到了 k 采氧器里, 然后这些所有的数据啊,参数啊汇聚到这之后,经过 k 彩样器内部的运算,然后最终才得出了我们的 ai 图像。至于背后的生图逻辑,还有我们下一节第三节在纹身图以及背后的运行原理中会详细展开,那么这边我们先大概了解一下就好。接着我们来看到这个 k 彩样器啊, 它有个叫做 layton 的 东西啊,这个 layton 我 们顺着粉色的线往下看,连到了一个叫空 layton 的 节点,大家看看这空 layton 它是干啥用的呀? 相信关于这个名词不能说百分百吧,百分之九十九的小伙伴应该都是非常的困惑的。好,那么我们在学习一个新东西的时候,我们可以看一下它的参数,咱们一起来研究一下。首先它共有三个参数嘛,分别是宽度,高度,还有皮尺大小,对吧?那现在是不是豁然开朗,这个节点呢, 就是控制我们最终生成图像尺寸呢,比例啊,图片整体像素的一个节点,比如我们把这宽度给改成七百六十八,相当于此时的宽高比为二比三嘛,然后咱们点击直行 样啊,最终生图是不是非常简单的就被修改成了竖屏比例,那么同样的比方,我们把这个宽度给改成七百六十八,然后把高度改成五百一十二,此时咱们再点击直行就可以看到图片也是非常顺利的变成了横屏比例。 关于最后一个参数,也就是空内存的 p 四大小,这一个我们是不是还有点疑虑?好,那么咱们就来尝试一下吧,比方把它给改成个四吧,具体会发生什么我们待会才知道,咱们只管点击直行就好。 ok, 我 们来看一下发生了什么变化吗?咱们看到这个保存图像节点的右下方出现了一个四分之一,对吧?哎,并且这边有个敲叉按钮,咱们点击一下,哦,发现 原来呀,刚才的 p 四大小代表着一次性出多少张图片,对吧?像刚才我们折成四,那么此时呢,也就是一次性出了四张图片,比方说我们在需要进行大批量生图的时候,或者说在测试某一个参数的影响,那么我们就可以把这个空内存的 p 四给调高一些。不过如果说 p 四大小过高,比方说三十、四十甚至是一百,那么就有可能会出现爆显存的情况, 如果大家不幸遇到了保险层,那么我们重启一下,康复以外就好。好了,我们来看一下,现在啊,咱们已经把正向提示词还有反向提示词的文本编码器都讲了嘛,以及 k 太阳器空雷特也讲了,还有哪个没讲呢? 那就是 checkpoint 加载器嘛,咱们把目光看到这可以发现啊,它是不是有点像一切的源头,非常多的线都连到了这个节点上,就代表着它有非常重要的地位。也确实,我们在 checkpoint 加载器里面加载的就是大模型,我相信这个名词大家或多或少都听说过,那么啥是大模型呢? 咱们可以这么简单的去理解,大模型可以控制整体的出图基调,比方说有的大模型是全能系,有的大模型是真实系,有的大模型是动漫系。 咱们现在把大模型给换成一个动漫类大模型,接着什么参数都不用调,直接点击执行。来看一下单单修改一个大模型,会对我们最终出效果发生什么样的变化。好的,现在我们不难发现,图片呢,是不是整体风格都变成了偏动漫或者说非写实的风格? 那么我们现在重新看到大模型,咱们现在再换一个真实的大模型吧,然后再点击执行,就是感觉到画风一转的瞬间变成了写实风格。 ok, 这就是大模型的威力,非要比喻的话,可以把它想象成人体的意识, 啥意思呢?如果我整天只想着色色的事情,那么我最终出图啊,咱们最终的成品必然也是和色色有关。那如果说我整天想的是非常正能量,积极向上的事情, 那咱们的最终成品也必然会啊,你懂吧? ok, 之后我们来看到这个 v e 解码,它呀,就好像一个转换接头,可以把咱们的 latent 图像变成像素空间图像,那具体是啥意思,我们放在下节课去讲。 接下来,比方说啊,我们不小心把这个 v e 解码给删去了,哎,对吧?删去了之后我们该如何去添加呢?一共有多种方法,一个就是摁 ctrl z, 哎,那么就可以回到上一步的操作。好的,现在我们再把它给删去。 还有一种方法就是我们在 k 采集器的后边 laten, 哎,咱们把它给拖出来,然后松开鼠标,看到这个 v a e d code 怎么样啊?它是不是又重新出现了?接着我们只需要把它的图像与 原来的保存图像相连,然后这个 v e 又是个新名词,把这个 v e 连接在哪,咱们可以找一找,哪有红色的输出呢?那就是去碰接在一起嘛。我知道小伙伴们现在可能有非常多困惑,但是都不用着急,因为我们本节课主要教的是基础的操作嘛,至于接下来的,比方说参数啊,或者说他们背后的逻辑,我们会在后边揭晓。好的,那么刚才我们讲完了第二种添加这个 v e 解码的方法, 那么还有第三种方法是啥呢?我们可以双击界面,哎,此时啊,出现了一个搜索节点栏,那么我们可以在这边输入,想要查找节点的名字,那咱们就搜 v a e 结吗?可以看到这边也是有非常多的选项,对吧?咱们选择第一个啊,可以看到 v a e 结吗?点击一下, 他就这么出现在了我们画面之中,接下来也是与其他节点相连即可恢复成原来的样子。好的,那么第三种方法讲完了之后啊,我们来看一下第四种方法, 我们同样的把鼠标放在空白处,摁一下右键,接着看到这一个添加节点按钮,点击一下,随后我们找到 laten, 同样的点击一下后,就可以发现咱们的 v a e 解码在这边出现了,对吧?接下来只需要再次点击,那么它就重新出现在了工作流之中。不过我们也能发现这第四种方法非常的繁琐,一般情况下我们都是直接搜索即可。 当然啊,其实还有第五种方法啊,我这边也说了,因为这节课是基础操作课嘛,咱们就把这些最基础的给讲透,我们把目光看到左边有一个像字典一样的东西啊,点击一下,那么这个东西啊,它是存放所有节点的地方,我们同样的可以在这边搜索节点, 输入 v a e, 然后就可以看到各个节点包里面和 v a e, 也就是咱们相关输入的词汇有关的节点,那么我们也不难发现 v a e 节点码在最上边,对吧?同样的点击一下,就可以看到它又再次出现在了工作流之中。那么以上啊,就是五种常见的加载节点的方式, 正如我刚才所说,咱们平时啊最方便最实用的方法就直接双击界面,然后搜索 v a e 即可,这是一种,还有一种就是直接来到比方说像这个内存吧,拖出来可以看到在这个默认的加载节点里面有 v a e 解码的话, 哎,点击一下,那么它是不是也非常快速的就被加载出来了?那么以上两种方法是最常用的,大家稍微记一下即可。好,既然我们看到左边,我们就继续顺着左边来看一下,可以发现了咱们之前生成的队列,哎, 也就是咱们所执行的任务都在这边出现了,比方啊,像这一个下面有个四的脚标,代表着一次性出了四张图,对吧?咱们可以点击一下,这一次任务所生成的四张图就会被展开。好,我们在队列的返回按钮 点击一下,咱们就可以回到刚才的队列预览界面。那接着我们来看一下这个小小的立方体啊,它代表什么?这个是我们存放模型的地方,比方说像什么大模型啊, laura 啊,什么 ctrl 键都可以在这边显示。那具体像我刚才说那些名词,他们代表了什么, 是在之后的课程中,咱们会逐一揭晓。那顺着这个立方体往下看,有个文件夹,对吧?那这个文件夹就是我们存放工作流的地方。这边又要隐身出个问题了,比如说吧,我们现在这一套工作流想把它给保存下来,怎么保存呢?我们同样的也是看到左上角有一个工作流,点击一下,随后咱们可以点击保存后的另存文, 咱们先点下保存吧,接着编辑一下工作的名字,比方说第二节课点击确认怎么样啊?咱们刚才保存的工作流是不是就到了这,对吧?下次想要调用的时候,我们只需要双击或者说哎把它给拖出来,拖到空白处,就可以重新加载咱们保存的工作流。 好的,我们顺着文件夹往下看,有一个月亮按钮,点击一下,那么整体的风格就会变白,变得明亮,对吧?再点击一下,又会回到刚才的深色风格。 那现在重要的来了,看到这个齿轮,也就是设置嘛,我们可以在这边来调整咱们的界面语言,我们看到这个 comfy 的 区域设置,在这里就可以调整相关语言了,当然你想要英语或中文,或者说什么其他语言都行,那我这边也是选择了中文。好了,接下来我们看到这个 comfy 下面的画面,点击一下,随后我们看到连线渲染样式,那这边我们可以选择曲线或者说其他的线型,比方说直线吧,咱们点击一下,接着就可以看到垂直啊 界面的所有连线都变成了直线,对吧?直来直去的,那这一个就根据大家的个人喜好来进行调整了吧。 ok, 我 们重新回到刚才的画面,那我这边也是先保持直线吧, 我觉得直线会更为直观一点,更方便大家去辨认哪一个节点连接的哪个地方。 ok, 接下来我们看到画面下边的外观,那么这边我们可以调整色彩主题,也就是美化咱们的界面吧,那么我相信大家刚和我进来的时候都是这个 duck, 也就是默认选项, 我们可以调成明亮的风格,也可以调成这个蓝色调或者黑色调。 ok, 我 还是调回默认模式,接着可以看到下面有一个节点不透明度,那这个参数比较重要,因为啊,比方说我们看到这套工作流吧,如果我们把 v e 解码不小心放在了这个可以采暖器的后面,我们就压根看不见了,对吧?而节点一多,就有可能会出现这种节点之间相互遮挡的情况, 增加我们构建工作流的难度,那么我们就可以回到刚才的节点不透明度,把它给设置成零点四,当然更低也行,那么此时我们就可以看到,哎,可以透过 k 采集器看到下面的 v e 解码节点了,对吧?这样我们在构建工作流的时候会更加的 轻松愉快。 ok, 咱们再讲一个小知识点,比方说吧,像我们刚才是不是新添了这一堆节点呢?咱现在不想要了怎么办?我们当然可以一个一个节点的这样去删除, 我们也可以摁住 ctrl 键,然后再摁住鼠标左键哎,这样子就可以框选节点,接着再摁键盘上的 delete 键,就可以做到驱选删除。 同时比方说我们现在驱选这一套工作流,我想同时拖动这么多节点的话,直接摁住鼠标左键就可以进行整体拖动了。而如果说我们想升图的时候,我们除了直接点击执行,我们也可以摁 ctrl 加 enter 键,这样就可以做到快捷的图片生成。 大家好,欢迎来到本期的 kufui 教学那最后我们一起来学习一下纹身图以及它背后的生图逻辑。首先我们来到 kufui 的 界面,那么映入眼的就是我们上节课的默认工作流, 咱们之前啊就是已经了解了这套工作流里面每一个节点的大概只能究竟是啥,那么接下来我们就一起看看他们究竟是如何完成他们这些只能的。比方说像这个 click 文本编码器,它是怎么做到把这个文字哎,最终可以通过 k 太阳器转换成相应图片。 ok, 首先我们看到这张它呀是 ai 生图的最基本框架,从左边开始看起,分别有 prompt 以及 negative。 prompt 啥意思呢?正向提示词以及负向提示词嘛。接着这两个东西会被传入到 ai 模型中,也就是 ai model, 在 这里经过运算,最终生成了咱们想要的图像,好完结哈,那这个确实是大体上正确的,非常笼统的概括咱们 ai 生图的逻辑, 接下来我们就从这个正负向提词词看起吧。回到刚才的工作流,咱们可以看到正负向提词词书在哪呢? clip 文本编码器嘛?而这个文本编码器的 clip 它到底是什么意思?为了能够弄清楚这一点,我们再来看看这张图, 在这张图里我们可以看到有一堆英文啊, ok, 不 用害怕,我们一起来看看它们代表的是什么意思。好吧,首先我们看到左上角这边啊,有咱们稍微熟悉一点的东西,啥呢?可以看到分别有什么 mountain, landscape, 什么 integral, goldfish, 那 这些东西不就是我们的正向,第一个就是与山有关的景观, 第二个就是宇航员骑着一匹马嘛。接着我们顺着后面的箭头,看到他们被送往了哪呢?他们被送往了一个叫做 transformer 的 东西, 而这个 transformer 它出自于二零一七年的一篇论文 attention is all you need。 那 么这篇论文也是 ai 史上重要的里程碑。不过我们这边先不展开来讲,回到刚才的图片,具体它是干啥用的呢?这个 transformer。 在弄懂这个之前,我们可以来看看 transform 后面这个箭头输出了个啥,输出了一堆数字,还有中括号,对吧?那这些哎,咱们看到他们呢,代表的是叫做特征向量,所以我们 transform 的 作用就是把我们输入的文本 通过特定的方式给转变成了这个特征向量。有小伙伴可能会说啊,这一步有什么意义吗?当然有,咱们计算机啊,在处理文本的时候 其实是比较费劲的,就好比我现在让你翻译一大段英文,就好比我现在对你说,哎,你长得真的是跟一个姓彭于晏的人很像哦,他的名字叫彭于晏。对哦,没错,你长得和彭于晏很像。或者我直接说,哇,你长得真帅,我问你哪一个更简洁明了,更容易让你 一瞬间就懂?那肯定是第二句话嘛,直接夸你帅。虽然可能第一句话听起来更好听,但是对于电脑也是这样的,你是觉得让电脑去识别并处理一段英文信息的数字容易,那毋庸置疑,绝对是处理数字对电脑来说更容易一些。 那么我们这个 transformer 在 其中就扮演着类似于转换器一样的作用,它识别文本,并把它们转换成特征向量,这就是它最重要的作用。而在这一套流程中,这些哎,就是属于 clip 模型所包含的内容。 好,接下来我们回到刚才的图片,还记得刚才的流程吧,咱们在文本编码器内输入完文字后,会由 transformer 转换成什么呢?转换成特征向量,而特征向量就好像一个包含着非常多信息的浓缩小盒子啊,它就像一个小压缩包呢,它被传入到了这一个 k 采集器里, 最终在 k 太阳器内进行相关计算。那具体的流程我们待会也会提到。好的,我们回到刚才这张图片,那么之前讲了上半部分叫做文本编码,目前呢就是把我们的文本转化成特征向量,也就是把它给简化,那下半部分叫做图像编码。哎, 咱们看到左下角是不是有一堆图片呢?那这些图片呢?咱们称他们为训练级,大家可以想想看,咱们康复一个工作流中哪里会包含着训练级呢? 那必然就是咱们大模型了嘛, future model, 扩散模型,比方说有大模型是二次元风格,那必然它的训练级大部分内容都是用的二次元图片来进行训练。如果说大模型是写实风格,那必然它的训练级中包含着大量的真实性图片。好的, 接下来我们顺着这个训练级,哎,往后看,可以看到它一共连了两个箭头,对吧?分别是什么? v i t 和 risknet, 那 这两个呢?并不是同时进行的。注意,这边代表的意思是,有的 clip 模型用的是 risknet, 但是不管 clip 包含的是 ip 或者 recent, 他 们的目的都只有一个,就是为了把我们的训练级干嘛呀?转化成特征向量,哎,和刚才的文本编码是不是有点像?目的呢,都是为了简化咱们的信息,让信息更好的去进行处理匹配嘛。好,那么现在问题又来了,为什么可以补模型要做两个部分呢?对吧?上边的处理完文本之后,那下边的这个图像哎,该怎么进行配合啊? ok, 接下来我们来讲一下这个文本编码和图像编码是怎么进行配合的,比方说我现在画一个 x y 轴,好吧,然后这个位置代表的就是与猫有关的特征,但是我们还是不知道为什么有了这些特征项链之后,就可以让 ai 知道猫是猫,狗是狗啊,在这个位置代表的是人。 事实啊,如果我想生成一张猫粮的图片,对吧?那么这个猫粮的位置应该在哪呢?大家可以思考一下,那必然就是在这个猫与人之间的范围,对吧?我们可以想象一下,比方这个猫的影响范围是这么大,然后这个人呢?影响范围是这么大,那么我们的目标也就是猫粮,那必然就是在他们这两个的交集范围内,对吧? 刚才我们的图片编码作用就是铆定这个猫,还有人他们在特征向量中的位置,从而让文本编码器编码之后的特征向量套用到图片编码之后特征向量的框架内。 ok, 我 们还是回到这张图片,现在一起来总结一下。咱们的 clip 模型一共包含着就是这一部分的内容, 那肯定有一个 transform 模型以及 v i t 或者 reset 模型啊,这两个是二者。其一, a clip 模型的主要智能就是为了干嘛?识别文字,让文字转化成特征向量,对吧? 方便咱们电脑去理解,同时呢,他又用图像编码,哎,干嘛呀?制定了一个有关特征向量的框架,让电脑知道猫是猫,狗是狗。我知道,这么说可能还是有些小伙伴比较萌,那么我们还是回到刚才的工作流, ok, 咱们来看一下。首先呢,咱们的训练级也就是大模型嘛,包含在这个 point 内,那 point 会干嘛呀?看着这个 clip 连线,哎,它会经过 clip, 然后制定好一个框架,对吧?制定好坐标轴之后,我们输入的文本就会经过 clip 模型变为特征向量,对吧? 特征向量就会套用在咱们的这个 x y 轴上,而这一切套用的过程是在背后的 k 采集器内发生的。 ok, 在 我们讲完了理论知识之后,我们来看一下实际操作吧, 讲解难度低些的,我们把目光锁定在 k 采集器上,可以看到它有非常多的参数啊,比方说什么随机种运行后操作,什么步数? c、 f、 g 的 采集器降噪哎,一共有七种参数。那首先我们从随机种讲起,这一个它就好像图片的身份证号哎,比方说我现在把这个随机种 给输一串数字吧,六六六。接着这个运行后操作。什么意思?就是我们每次升图之后啊,这个随机种是固定呢?还是变化,是增加还是减小?那这边我们把它给设置成固定好,接下来我们点击一下执行。 ok, 我 们可以看到现在这张图片是长这个样子的,那如果说我们在不改变随机种以及其他任何参数情况下,再次点击执行的话,大家可以发现工作流会压根不动,因为呢,他们所生成图片是完全一样的。那至于这个随机种是如何做到这一点,像一个身份证一样, 图片进行绑定,我们稍后会讲。接着我们看到下面的步数,那这个步数它代表的就是降噪的次数,叠带一共分了多少步嘛?大家可以想象一下我们这个 stefan fusion 它的生图的过程啊,就好像给一块脏玻璃用抹布进行擦拭,当然你擦拭的越多,那么图片也会越清晰,细节也会越多,对吧? 那这边我们步数设置成二十,就相当于给这块很脏的玻璃擦了二十下。那如果说我们把步数给设置成五的话,我们来看一下是不是细节明显比刚才少了很多,那如果说我们更低哎, 把这个步数设置成二的话,咱们再次点击执行,咱们可以看到图片是不是一片模糊啊?反之同理,如果我们步数设置成四十,那么此时啊,咱们这一块玻璃就会被擦的非常干净,对吧?我们可以看到那细节纹理都会多非常多, 当然过高的步数都总是好的,大家可以想象一下,咱们一块玻璃,你说擦一百次跟擦两百次有很大区别吗?没有啊,基本上所有的灰尘都被擦干净了吧。咱们康斐乐也一样,步数一般到了四十步往上就不会有过多的变化,比方我们现在看一下,把步数设置成六十步吧,来 点击生图怎么样?是不是和刚才几乎没有区别,但是却增加了百分之五十的生图时间,对吧?因为他多了二十步嘛,我们原来是四十步,步数越多,那么生图时间也会越久,而我们一般生图把步数设置在二十到三十步之间即可。我这边就设置个二十五步,下面的 c f 居址又是个新东西嘛,它的作用主要是为了控制咱们最终图像与 提示词的匹配程度,那比方说咱们 c f 居址越高,则代表着咱们最终生成的图像与关键词也就越匹配,哎, 意思也就越相近。那如果说我们 c f 居值过低的话,就会让 ai 有 更多的自由发挥空间,意思也就是与关键词匹配程度也会下降。比方我们把这个 c f 居值设置成四,来点击升图,咱们可以发现最终图像怎么样啊?感觉整体色调变灰了,对吧?那这也是 c f 居值过低带来的负面影响。 由于我这边因为输入的元素不是很多,当我们输入提示词,比方说二十个三十个的时候,那么 c f 值的表现会更为明显,那此时如果我们继续把 c f 值降低,比方说设置成一,我们来看一下会带来什么样不好的后果。大家可以看到整体图像变得更灰了, 对吧?并且图像多多少少都会有一些变形,当然我们 c f 值过高也会有不好的影响,比方我们设置成十五吧,点击执行,大家可以看到这张图的出图质量怎么样,很糟糕哎, 感觉它清晰度远远比 c f g 值为七为八的时候要低得多,我们可以对比一下,咱们把此时的 c f g 值设置为 七,也就是一个正常值,再次点击执行,那么现在,哎,咱们的这个紫色星云屏又恢复了原有的清晰度,对吧?而我们的正常的升图过程中, c f g 值一般设置为五到八即可,大家可以稍微记一下。 ok, 接下来我们看到采样器的调度器,那么这边我们一般选择的是采样器,点开来看到 d p m p p 二 m 或者 d p m p p 二 m s d e 这两款彩样器是大家测试下来相对而言效果比较好的,咱们直接无脑选即可。除了遇到某一些特别说明的大模型啊,就说我这款大模型只能用优乐彩样器,用某某调度器,确实是有这样大模型,但是我们一般情况下还是用 d p m p p 二 m, 好 吧,那调度器的话,我们一般选择的是这个叫做 paris, 至于下面的这个降噪,我们放在下一节课图声图中会涉及到咱们之后再讲,那么现在我相信大家应该就有些疑问了,比方说这个采集器跟调度器,他们到底是干啥用的呀?还有为什么这个随机总可以像身份证号一样控制咱们的图像呢? 为了解答这些问题,我们再来看一张图片, ok, 那 么这是一张更为详细的 ai 生成流程,刚才我们看的只是关于 clip 的 嘛,那现在这个是全流程,先看到左上角,那么这边我们再输入完 prompt, 也就是关键词之后会被发送到 clip 模型嘛。那么刚才具体流程已经传输过了,那之后再由这个 clip 模型把咱们的文本转化为下面的这个 text editing 啊, 文本进入这个特征向量,哎,那么这一组更易于定到处理的数字信息就会被发送到这个叫做 unit 中,又是个新名词,对吧?但是其实啊,咱们看到这哎,这一边这一大块的所有内容其实都是属于我们的 k 彩 氧气,明白了吗?这一大块的所有内容啊,都是在 k 彩氧气内完成的。那首先我们看到这个特征向量被发送到 unit 之后,会进行什么操作呢?会降噪吗?但是问题来了,我们的叫声从 从哪来?大家都知道咱们 step diffusion 用的叫做 diffusion 模型,也就是扩散模型,而扩散模型的运行机制就是为造成图像不断的降噪,从而生成咱们的目标图像,也就是一个较为清晰的图像。 好,那么现在我们就要考虑到这个造成的添加了,以及咱们这个画布的大小,对吧?我们看到上面有一个叫做 gatsby noise, 也就是高斯噪,那么这是一种无规律的造成,而这个所谓的高斯噪声,它们具体的分布规律就由咱们的种子值,也就是随机种子来决定, 不同的随机种子会添加不同的高斯造成,从而会影响到我们最终生成图像了。那么这就好像,哎,咱们在生孩子的时候啊,不同的精子与卵子结合之后,咱们生出来的比例,整个人生轨迹都会有非常大的不同, 对吧?也就好像蝴蝶效应一样。好的,那么现在我们这个噪声添加已经处理完了,我们就来看一下这花布大小吧,我们上节课是不是提到了下边的蕾滕呢?哎,咱们可以看到这个高斯叫声被发送到了下边的蕾滕,而这个蕾滕的大小,我们简单的把它给理解成花布大小就行, 比方说我这话不到讲,我就规定了它是一个正方形,那么照射呢?也只会在这个正方形内添加,对吧? ok, 那 么之后啊,这个结合了高斯照射之后的 late 图像就在这个 unit 中,与什么呀?与我们的特征向量进行结合, 而 unit 的 作用就是预测下一步降噪的图像以及减少造成。那么之后我们也看到了 unit 降噪完之后,被降噪的 late 图像就发送到了这一步,如果说我们循环 p c 是 二十四的话,那么就将哎经过这一个循环循环个二十四,我们可以看到这边的内容,对吧?那么这个代表就是调度器和传感器, 其中调度器的作用就是控制降噪的方法,而采暖器的作用就是控制降噪的程度, ok, 于是啊,我们就这样子降噪,降噪,降噪之后经过了我们设置的迭代步数,比方说二十五次吧,那么就是降噪了二十五次之后,咱们得出的这个 lin 图像就会被发送往 a e, 而这个 a e 啊,就好像一个转换插头,它可以把我们的 laten 图像变为像素空间图像,也就是我们肉眼可见的图像。那么最终,哎,就被解码出了咱们能看见的这个狗狗图片,对吧? ok, 那 么在这一整套工作流中,我们的 clip 模型,还有这个 unit 模型 以及 v a e, 一 般情况下都是由我们的大模型,也就是 diffusion 模型提供的。我们回到刚才的 com 一个工作流, ok, 我 们来搜一搜这个这控制台机,它是只有三个输出,分别是模型输出, clip 输出以及 v a e 输出。 这个模型输出指的就是什么?指的就是这个 unit 嘛,对吧?我们刚才介绍的 unit 模型,而这个 unit 模型呢,会在咱们的 k 测量器内配合我们的特征向量啊,咱们 clip 文本编码器输入进来的特征向量来进行降噪,之后再由这个 ve 解码器,哎,这个转换插头输出成咱们能看见的 像素空间图像, ok, 比方说现在我们来一个二次元系大模型吧,哎,选择这一个动漫 primex, 接着我们来书写一下提示词,咱们要注意的一点是,在我们书写题的时候,要先写主体,再写氛围词汇,那么啥是这样词汇啊? 方说,我们知道在正向提示词中,我们要输入的是我们想生成的内容,对吧?但如果说我们输入的为高质量、高清壁纸、 杰作、极致的细节类似于这些词汇,那么咱们的楷模模型就会知道哦,你想要的是这一个范围内的词汇啊,比方说,哦,你想要的是非常清晰并且具有丰富细节的词汇,对吧?然后他就会在这个范围内帮助你去寻找符合条件的。所以这边我们一起来输入吧,咱们先打开翻译器,然后输入杰作、 高质量、极致的细节。好的,接下来我们就来输入我们想要的主体内容,比方说一个女孩,双马尾,蓝色头发,校服,那输完主体之后,我们就来输入氛围词汇,或者说是环境词汇,比如教室背景,动漫风格。 ok, 随后咱们翻译一下,粘贴进我们的文尾编码器。那刚才我们也提到了,为什么是先输质量词汇,再输主体,再输氛围词汇呢? 因为啊,我们越靠近的词汇,它的权重,它的比重也就越高,在整体内容的呈线上也会占比更大。好的,接下来我们来输入一些反向质量词,啥意思啊?如果说我们在反向提示词内输入的是模糊、混乱、低质量,类似于这些词汇传达的意思不就是我们不想要模糊,我们不想要低质量的图片,我们不想要混乱的图 片,对吧?而这边有玩家把这些负面词汇都整合成了一个词组包,我们只需要输入 easy negative, 随后选择这个 embedded easy negative 即可。 那我们来看一下有这样词汇,以及没听见这张词汇差别有多么夸张。好的,我们回到刚才的内容,那么现在在我们输入完正负相切词之后,咱们就点击执行吧。 ok, 我 们可以看到啊,现在图片完全变成了动漫风格,对吧? 造成这样的原因有两种,第一个当然就是我们关键词了,因为我们输入了动漫风格,而其二是我们的大模型,哎,这个动漫 primex 大 模型,它本身的训练集中绝大多数都是动漫数据集,而它所预测的降噪之后的图像也必然是和动漫有关的, 所以我们最终生成了图像呢,哎,才呈现出这种非常自然的动漫风格。而咱们的空 later, 它负责的就是限制了我们 later 图片的大小,比方说,哎,就这么大啊,是一张正方形尺寸的图片,之后在我们的随机种所对应的高斯照射,哎,给它先加上,对吧?比方说是这个样式的照射图像, 那么添加完照相之后,咱们的 u 链模型就会为这张图片来进行降噪,当然降噪的同时会结合着我们的可比特文的编码器输入的特征向量,对吧?不然我们也不知道你想降噪之后生成的图像是啥,是一匹马呢?还是一个动漫女生,这都是由我们关键词决定的对吧?而 u 链只是为了让我们降噪的图片尽可能的往那个方向去靠拢。 我知道啊,本节课内容非常的干,但是我相信学会了这些之后,对于我们后续节点的理解模型的学习。熬制好这节课,我们一起来学习图生图工作流的搭建,以及它的背后运行逻辑。首先我们还是来到康复 ui 的 默认工作流,那接下来该如何去搭建最基本的图生图, 首先我们看到 comlater 怎么把它呀给删去,然后在这 k 采集器的内存输入拖出来,然后选择 vae 编码。最后呢我们看一下这 vae 编码,它一共有两个输入,分别是图像以及 vae 模型。 那我们来看看 v a e 连哪呀?哎,那么这一整套工作流里面是不是只有 to coin 有 v a e 的 输出,所以我们连到这,那,接着这个图像我们拖出来加载一个加载图像节点。好的,那么至此咱们的图生图工作流就这么完成了,其实和最基本的纹身图非常相近,只不过多了一个图像输入。 接下来我们来看一下它具体该怎么使用吧。比方说我这边上传一张金发充满为少女,接着我们把正向提示词给稍微编写一下,记得先写这样词汇,比方说杰作高质量,然后再写主体,主体的话我们就来个 one girl 吧,一个女孩,好的,就写这么多 副象题词词,我们还是来一个 easy 这个副象题词词组包。咱们把大模型先换成一个动漫类大模型,选择动漫 primax, 当然其他的也行。接着我们直接点击生成,我们可以看到咱们这张图像吧,你说它和我们的上传图片有什么关系,其实近乎于没有关系,对吧?那 那么这是怎么一回事呢?这边我们就需要看到可以采用气内的降噪值,这个降噪值啊就控制着原始造成添加的比例,比方说现在降噪值为一吧,相当于什么呢?我们输入的这张图像,它上边会布满了降噪值, 那大家可以想想,这和我们输入一张纯噪声图像有什么区别吗?完全没区别。好,那反之,如果我们降噪值为零的话,会发生什么现象?咱们先跑一次。哎, 现在可以看到,此时啊,咱们的生成图像和原图是完全一致的,那么这是因为对于我们输入的图像因为降噪只为零的缘故,导致一个噪点都没添加。那大家可以想想我们 diffusion 模型对吧?咱们的 diffusion 运行原理就是给图像不断的降噪,从而生成新的内容,但现在我们一个噪点都没有,咱们从哪去降噪啊? 所以说自然而然的就和我们原图完全一样了。但如果说我们把这个降噪值给设置成零点五的话,我们来看一下会发生什么样的神奇变化。哎,此时发现了没有,他和我们的原图怎么样啊?是不是非常的近似, 对吧?比方说像这个金色双马尾以及他的红色蝴蝶结,那么这就是降噪值所带来的影响。 ok, 现在我把随机种给固定一下,然后换一组种子,我们再跑一次试试。 ok, 那 么我们第二次升图还是和原图有 非常多的相似之处,对吧?比方说整个人物的姿势以及他的发型,发色还有服装。而我们在正常的升图流程中,降噪值为零点三五到零点六之间,咱们生成的图像就会和原图 较为近似,而如果设置是零点六甚至是零点七五级以上,那么我们就将赋予 ai 更多的想象空间以及自由发挥空间,对吧?比方说我们把降噪值设置成零点七,然后再次升图,咱们可以看到最终图像和原图是越来越不近似了,不过我们可能会发现一个小问题啊, 这个是题外化,什么问题呢?大家发现没有,我们的生图怎么感觉总是灰蒙蒙的,比方说我现在在换一组种子值再次生成,哎,对吧,感觉到这个色彩不是很鲜艳,怎么回事? 这其实和我们的 ve 有 关。上节课我们提到了 ve, 一 般是由咱们大模型所提供,但有时候吧,大模型它匹配的 ve 啊,不是特别好,还不如一些社区玩家所发布的 ve。 比方说像这个 primix 吧,我用的这款大模型, 它自带的 ve 表现出的色彩不是那么的理想。那怎么办?我们先把 ve 解码以及 ve 编码的连线给断开,然后我们再随便一个 ve 解码或 ve 编码都行, ve 节点中拖出来加载一个 ve 模型加载器, 哎,那么现在我们可以看到,这加载器里面,我们可以自由的选择不同的 ve 模型,那这边因为我们生成的是动漫类图片嘛,所以选择这个 anime ve 动漫 ve, 那 接着再把它和 ve 解码与 ve 编码相连,此时我们再跑一下, 大家可以发现是不是图片瞬间就变得鲜亮了?好,那么解决完这个小问题之后,我们继续来看一下降照值。有的小伙伴可能会有点疑惑, 哎呀,这个降噪值,它究竟是怎么做到让生成图片与原图近似或不近似呢? ok, 那 么我们来看下这一张图生图的完整逻辑。在我们图生图工作流中,不同于纹身图的是,它一共输入了两种信息,一种呢就是图 图片的信息,一种呢就是文本的信息,刚才我们不是编写提示词吗,对吧?而在我们上节课所讲的文生图中,只有一种文本编码信息, ok, 那 么问题又来了, 如何把咱们的图片信息给编码成异于电脑处理的相关信息流呢?这边我们用到的就是 ve 嘛,我们可以看到这个绿色的三角形啊,意思是 ve 编码器,它的作用是 可以把我们输入的图片给降为成浅空间图像,而这些浅空间图像不同于像素,空间图像可能是看不见的,同时呢,尺寸也会更小,更易于电脑去处理。那之后 v e 编码器会把这些编码之后的浅空间图像 给发送到 k 采集器,在 k 采集器中,我们来看看它会干嘛呀?它会添加噪音,对吧? add noise, 而这一个添加噪声到底该添加多少呢?这边就是我们降噪值所 控制到了,正如我刚才所说,如果我们降噪值为一,就相当于为我们输入的这张浅空间图像直接造成加满,对吧?整张都是咱们所添加的造成,这也意味着在这种情况下,和一张纯造成图片没有任何区别。同时如果造成值为零点五吧, 那可能就会,哎,添加造成的幅度就不会很大,哎,对吧,零零星星的。好的,在添加完造成之后啊,我们来看一看,这个 lin 图像就会被发送到咱们的 unit 模型中进行降噪嘛,那么这等同于纹身图的什么呢? openlight 输入呗,对不对?只不过此时的 openlight 是 有内容的,而不是一个完全空白的 light 图像,也就是请空间图像咱们上节课所运用到工作流的 openlight, 意思就是,哎,直接输入一张没有任何内容的请空间图像,不过呢,尺寸是我们自己定嘛,对吧? 好的,那我们来继续看这个图生图工作流,一张有内容的浅空间图像被发送往了 unit 模型中心。降噪还需要什么元素啊?当然就是我们的特征向量嘛,这个 test embedded 也会参一角嘿,来指导咱们这个图像的生成,来指导降噪的走向,对吧?比方说,我想生成的是一个 紫色头发的女孩,那么他就会结合着我们输入的浅空间图像一起来完成降噪,不断的去往这个紫发女孩的方向去靠, ok, 那 之后也是就进入到了我们上节课所介绍的降噪啊迭代流程。 那经过咱们采用步数的次数迭代降噪之后,咱们的 u 点模型啊,就会把处理完的浅空间图像发往 ve 解码器, 因为我们是看不见潜空间图像的嘛,所以它必须要转换接头来把潜空间变成像素空间图像,那之后咱们的 v e 解码器就会把之前的所有信息内容解码成最终生成的 ai 图像。我知道这么听起来可能有点晕,咱们结合着康普 u i 工作流一起来看一看,比方说像这一套简单的工作流吧,咱们的图片书是啥? 当然就是加载图像的这张金发双马尾了,对吧?而咱们的文本输入呢,就是咱们的正负相提示词这两个啊,他们会经过 k 模型给编码层蕴涵着很多信息的特征向量,对吧?这个小盒子会被发送往 k 采集器,被发往 k 采集器, 而同时呢,这个小盒子将结合着我们这个原始图像经过 v e 编码之后,再加上噪声的图像,哎,对吧? 像素零点七,哎,加了一些噪声,然后一同在 k 彩样器内进行降噪。最后我们可以看到 k 彩样器有一个 latent 输出, 那么这个 latent 输出就会把我们之前的 latent 图像,也就是前空间图像发送到 ve 解码器,从而完成前空间到像素空间的转换。 ok, 比方说吧,我们现在关键词加一个粉色头发 pink hair, 然后把降噪改成零点六五步, c f g 值为六点五, 然后彩样器和调度器,我们上节课也介绍过,咱们一般彩样用的是 d p n 加加二样,也是 d p n p p 二样,调度器一般用的是 carras, 然后点击执行,我们可以看到啊,大家发现了吗?图片是不是尽量的往这个粉色头发女孩方向去靠,对吧?咱们再把这个降噪值往下调, 比方说零点五,接着再次跑图,咱们就可以发现,因为降噪值较低的缘故,咱们的双层图片就会和原图更为近似的,所以改动的幅度不会过大。但是,哎,咱们细心观察还是可以发现,像这张图片,他的头发确实蒙上了一层粉色,甚至是他的眼睛也 变成粉色了,对吧?那么这就是降噪值结合着文本与图像输入共同造就的结果。 ok, 那 接下来我们就把以上的理论知识给转换成一个有趣的动漫转真人小案例。怎么做呢?大家可以想一想,咱们降噪值是不是可以控制生成图像与原图的近似程度, 而我们的最终图片生成的整体风格是由什么决定的呀?一共有两种,第一种是提示词,而第二种是最为关键的大模型。 要注意大模型的影响,科比提示词要多得多,所以我们这边直接把大模型给选择一个写实大模型,然后我们在关键词的结尾加上一个写实风格 realistic, 接着把 v a e 加载器的 v a e 给替换一下,换成这个 s d 叉 l v a e, 随后开始生成。 ok, 我 们可以看到啊,图片的风格是发生了一些转变,但是程度还不够,并且我们得把刚才的这个粉色头发关键词给删去,不然会影响输出效果。那既然这个风格转变程度不够的话,我们就提 高降噪值嘛,让 ai 去发挥更多的想象力。咱们直接先设置为一个零点六五吧,然后 ctrl 加 enter 快 速生成, ok, 那 么现在 感觉又有点太过了对吧?它和原图相似度太低了,那么我们就继续去调整咱们的降噪值,直到为一个较为合适的数值为止。 ok, 就 这样,我们成功把这张动漫图片通过简单的图升图降噪的方式,就变成了一张写实风格图片。那么这个方法也可以算是最简单最容易的一种风格转换方法。 后续我们会学习更多进阶内容,让图片变得更为可控。比方说像咱们生成图片的姿势啊,面部表情啊,它的线条,背景,深度关系等等,这些都是可以通过后续的 control 内来进行控制的。好的呢,大家好,这一课我们一起来聊一聊 aigc 的 相关网站,那么待会啊,我们会介绍三个国内常用网站以及四个国外的主流网站。 首先第一个要介绍的就是国内最大的 ai 绘画平台 livelive ai, 这个网站呢,集合了模型的下载、工作流模板、图片及在线生图诸多功能,全方面包含了 ai 绘画有关的一切。那首先我们在主界面看到的这些图片啊,他们分别代表着大模型或是 lora。 关于 lora, 我 相信有部分小伙伴可能还不太清楚,那么我简单解释一下, lora 就 相当于小模型,它的体积没有大模型这么大,比方说可能只有几十元几百元,但是 他却能基于大模型去改变最终生图的风格,或是聚焦于某一角色的特定形象。什么意思呢?比方说最近那个哪吒不是超级火爆吗?都冲进全球排行前十了,那么我们想生成一张哪吒的图片,咱们搜索哪吒,随后我们可以看到啊,在 libai 网站内提供了非常多和哪吒有关的 laura, 方说像哪吒本人以及电影中的一些配角或是男二。 ok, 我 们随便点开一个,那么接下来我们就可以在这个 laura 的 详情页去看一下使用这个 laura 具体需要注意哪一些参数,同时我们可以往下滑看到反图区。那么这边呢,有其他玩家用该 laura 生成的图像, 其实有点像勾软件的评论区,在这边我们可以客观的去评判这一款 laura 适不适合自己,或者说它的效果 o 不 ok。 那 同时呢,比方说我觉得这张图片吧,很不错,那么咱们可以点击一下,随后在这边就可以复制它的一些相关参数,比方说提示词,或者具体用的什么模型,什么 laura 都可以一一套用。 好的,接下来我们回到 live 里的主界面,这边还提供了非常多风格的模型或者裸眼,我们看到这有动漫、写实、插画、电商、建筑等等等等,种类非常多,那么该网站也是收集了十万家的模型,基本都能找到自己想要的那一款,而我们的大模型一般存放在这个路径内, 裸眼咱们一般放在这个路径内。 ok, 接下来我们来到这个作品灵感界面,在这边可以看到其他玩家所生成的美图, 如果说我们看中了哪一款,我们也可以像刚才的操作一样,点击该图片,随后复制相关参数。好的,接下来我们看到左边有个工作流,那么在这边会提供和康复 ui 有 关的案例,工作流应有尽有,数量也是非常庞大,比方说像什么文物修复,电商产品图, 背景人物写真等等等等。那么在下边我们可以在里不里不 ai 官网内进行在线生图,我相信有的小伙伴肯定电脑配置这一关过不去,那么我们就可以利用这些在线生图平台也完成我们的生图目的。那么这个是 web ui 端的在线生图,下边有一个康复 ui 端的在线生图。 ok, 咱们稍微看一下吧, 打开节点目录,我们可以看到有非常多的节点,所以说使用效果应该还是非常不错的。好,接下来我们来看第二个网站叫 nova ai 点 d e v, 那 么在这也是有各种各样的功能,这边值得一提的是有一个法术解析选项,点击一下,咱们在这边可以上传 steve defuse 生成的图片,从而反推出生成的参数。 比方说我们拖一张图片进来,接着咱们就可以看到,哎这张图片的生图,正向提示词以及反向提示词,还有他们用了什么彩样器,什么叫做模型,什么大模型,什么 v e 模型,非常非常详细。 ok, 我 们回到刚才的主界面,那么除此之外,我们还可以点击这个 ai gotline, 这是一个和刚才六六六 ai 有 点像的 ai 社区, 虽然说内容没有这么多,但是看起来会更有趣一点。我们可以看到这个 ui 非常有异世界探险风格,对吧?比方说什么像康比奥数 v v i 魔法 在线升图,他能成为进入城堡,是吧?挺有意思的。咱们往下滑,可以看到这边有其他玩家生成的图片,比方咱们点开一张吧,可以看到这张图片的一些详细信息,玩起来还是非常有趣的,是吧?他还平定了一个综合战力。 接下来我们来看第三个国内网站,叫做 promble, 这个网站专注于提示词的构建,以及他们的格式化。啥意思?我们可以看到啊,每一组图片都对应这个提示词,比方这个什么蜂窝头,然后他给你展示这个蜂窝头发型是什么什么样子,或者说马尾 ponytail, 英文以及图片样式都给大家展示出来。 如果我们想要采用该提示词,只需要在该提示词的图片内点击一下,接着我们就可以在右下角看到它出现在了文本构建栏中,等我们构建完提示词,直接点击蓝色的复制提示词即可,把我们选用的所有内容给 粘贴进咱们的康复以外。接着我们再来看一下左上方,那这边有人物、服饰、画家、镜头质感、环境参数、建筑室内非常多的类型, 仔细看可以发现单单这个人物模块就已经有女性发型、男性发型、发色、脸部、眼睛、耳朵、嘴、皮肤等等等等,可以说是分类的非常详细啊。 咱们点开一个质感来看看,哎,这边有各种各样的质感,比如金银铜铁,透明毛茸,各式各样都有,最重要的是我们可以通过他们展示的图片来看到该提出此的具体效果。好的,那么接下来我们首先要介绍的是 c b a i。 那 这个和国内的 liba 非常像, 也是一个全能的 ai 绘画平台,不过它目前还没有在线创作功能,但它的优势在于模型库非常庞大,因为它是一个全球性的 ai 平 台。咱们看到左上角点击 model, 接着我们就可以在这边下载各式各样的大模型或是 lora, 当然还有 ctrl 内模型、 v e 模型、 ipod 模型等等等等,那比方说像我们常用的 is negative, 哎,我们来看看。那么这边我们可以把这个自助包进行下载,当然还能看到它的发布者所介绍的一些详细信息。 除此之外,咱们的图片广场也会每天都进行更新,因为玩家数量众多的缘故,这些排名靠前的图片质量还是非常高的。总之一句话就是如果咱们想找一款大模型, 国内的 leplu 没有,那么我们就来到这个 seven ai, 如果还没有怎么办?那接下来我们就介绍两款更为专业的相关网站。那么第一个网站叫做 getop, 它是目前全球最大的代码存放网站,在这边有各种各样的开源项目以及币源项目,比方说像前阵子超火的 deep, 咱们可以在右上角这边搜索一下, 接着我们就可以看到和 deepsea 有 关的内容,那比方这个 deepsea 二一哎,点开来之后可以看到相关介绍以及模型参数的对比,同时我们还可以通过这边的链接去下载有关的开源模型,那现在网上不是各种各样的本地部署教程吗?其实都是从这边进行模型下载的, ok, 接下来比方说咱们搜索 comfui 吧,然后我们就可以看到和 comfui 有 关的所有节点,而我们在 comfui 管理器内所下载的节点,百分之九十九都是来自于这个 gigapod 网站,我们甚至还可以在这边看到 stable fusion 的 源代码,咱们搜索一下 stable fusion ok 才能可以看到这个 stability ai 开源的 stable fusion 代码。点开来 那么这边也是有各式各样的介绍,咱们就不详细看了,总之啊,这个 gigapod 网站非常的全面,如果咱们想为康复以外添加什么节点,那么来到这个网站搜索下载准没错。那这边再提一嘴的是 如何进行下载呢?比方说我们搜索一个简单节点吧,叫做 ipad pro plus, 咱们点开我们的目标节点之后看到 code 点击一下,随后我们就可以下载它的 压缩包,那至于放置的路径,我们就可以在目标节点的说明书,也就是下面这些内容里面去看。哎,它具体的安装路径,下载路径究竟是在哪里?因为它的纯英文嘛,我们也可以用电脑自带的自动翻译,把它们都翻译成中文。 我们接下来看和 gitap 非常相似的另外一个网站叫做 hugin face, 那 么这个网站呢?它主攻的方向是 ai 领域,和刚才的 gitap 不 一样, gitap 是 百花齐放,只要和计算机有关的都接纳。那 hugin face 呢?它除了专注于 ai 领域之外,它还专注于模型的存放。啥意思?比方说像刚才咱们搜索的 deep seek, 我们在这边搜索一下 deepsea, 咱们可以看到怎么回事啊?这个说明书,如果大家有印象,可以发现它和刚才的 deepsea 说明书是一样的,那么事实上引用了 hackin face 的 这篇说明书以及下载路径,也就是说很多时候 get up 上的模型文件下载 是需要跳转到 hackin face 的, 当然我特指的是 a i g c 领域。那至于如何下载,我们看到这个 fails and version 文件及版本,哎,在这边我们就可以看到有关的一切模型,当然前提是它开源才行啊, 咱比方说 plus 模型,不是效果非常好吗?同样的,我们也可以在这个网站内进行下载搜索 plus, 看到第一个啊,黑暗森林工作室的 plus, 点击一下,接着我们就进入到了 plus 发布的最原始界面,而这一款 plus 模型,它是没有经过任何其他 ai 玩家修改调参的原声大模型。那 这说明书内容我就不带大家看了,我们看一下文件及版本吧,咱们可以看到这款 plus, 也就是完全体嘛,二十三点八 g。 除此之外,像 ctrl 内有关模型以及 ipad 有 关模型,我们都可以在 happyface 这个网站内进行下载。 ok, 我 们接下来介绍最后一个网站,名字叫 joycapture, 它也是存放在 happyface 里面的一个项目,作用呢就是反推提示词,比方说我们上传一张图像,接着点击 caption, 那 么这个网站呢?它反推不是一般的强大,根据我们这张图片,它反推出了足足有三大段文字, 而这一款提示词反推模型算是当今最优秀的一款,比什么 w d 十四要强多了,不过它的功能也仅仅局限于这一款,比什么 w d 十四要强多了。当然,在我们具体使用康复以外的过程中, 要结合着你认为好用的软件,取之所长,去其所短,获取你需要的内容。好的,那么以上就是关于本期全部内容了,我们下期一起来看看如何进行高清放大吧,咱们就下期再见,拜拜!

那我们接着来录制实践的另外一个部分,使用 ai 的 一些建议。也录了这么多期啊,很多有专业术语,确实在理解上还是有一定门槛和难度的, 但是今天聊的这个比较轻松啊,这这些建议吧,也是自己在边学边用的过程中的一些想法,包括听了一些其他大拿的一些一些观点吧,我觉得还是比较比较符合我的认知的,所以说今天也是来聊一下这几个观点, 供大家参考啊。其实每个人可能有不同的理解和不同的使用的角度啊,我觉得这个东西大家可以可以在评论区交流一下, 今天会聊六个方向啊,也会比较快。第一个,其实 ai 现在就是一个力大无穷的学徒啊,这个观点不是不是我提的啊,我记得是罗振宇在一次访谈里面和另外一个嘉宾聊的时候说的一个一个观点啊,他的这个 力大无穷在于他确实整个 ai 现在,尤其现在大模型的迭代速度太快了,他见过的这个正确答案太多了, 我们一般的应用场景里面,其实尤其在文字的处理啊,在这个内容上面,其实他确实是见过太多的,不管是百科全书啊,还是说一些这种学术论文啊,还是说一些官方的一些资料啊, 他见过的资料太多了,所以说我们日常的很多很多这种使用场景吧,都在他的这个可能是他见过正确答案的,所以说我们要做的是怎么能够去激发出来,他能够把他见过的答案,能够当我们所需要的这个时候能够去调出出来, 所以说那怎么去发挥他呢?其实关键在于怎么给他交流,或者说是这个叫什么提职制工程,总之怎么通过你给他下达指令也好,你跟他去传递你的信息,下达指令也好,让他能够明白你的这个需求, 再一个提供足够的上下文啊,再使用尽可能完整的一些描述,尽可能清晰的描述,但是可以逐步的去迭代啊。这样他认为要去做这种一次性的让他,我就给他一句话,我要写篇文章,那这个时候他是很难写出来一个你满意的, 但你如果告诉他,你是要写一个什么方向的这个文章,你要告诉他你的这个场景是怎么样的?完了之后你想表达一个什么样的一个观点是吧?积极的?是快乐的?是悲伤的还是什么样的? 包括这个文章有多少字,你给他的信息越多越丰富,实际上他可能就更容易给出来一个你想要的一个答案。 那有时候会听到一个词叫什么,就是说这个这个写的材料 ai, ai 位很重,对吧?那怎么样去缓解这个问题?其实就在于你给他的信息量太少, 那他只能给你一个大而化之的一个结果。但如果说你给他的信息足够的有用,那这个时候其实你就可以得到一个更接近你想要的这个内容了啊。如果我们硬要往原理上去靠一下的话,大家要记得看这里面的激活函数,它的这个开关, 那你给他的信息量,你给他信息量越多,可能就会触碰到他的某一个开关,他就会给你一个更不错的这个答案,所以说这一点大家一定要去去 在使用过程中吧,要尽可能的去明确的表达啊,而且这里面有一个个人使用的一个技巧,尤其在文字的处理里面,大家习惯了敲敲字,这个时候其实他是反应比较慢的。其实现在很多大模型的工具里面其实都有这种语音输入的这种方式, 其实大家可以尝试一下用这种直接用语音的方式去和这个大拇指交流啊,其实因为这个时候你给他的信息量是足够多的啊,你不用再去想你怎么去组织这句话呀,或者怎么样啊,你就把你的想法一股脑的告诉他,他可能就说能够给你更多的一个 一个结果,一个反馈,好吧,所以这这个上面就是学徒啊,那就是这个叫什么成果,行不行全靠这个老师傅引领,如果说你给对了方向,要相信现在大冒险的能力,还是在很多场景上面是能够给出很好的结果的啊,这是第一个观点。 第二个就是现在用 ai 这么卷吧,那以后我们到底需要什么样的能力?结合我听到看到的一些资料和一些一些大拿的一些观点吧,我个人觉得这里面现在总结出来就是 三个方面吧,一个就是创造力、想象力,就是你怎么去怎么去发泄问题,或者怎么去表达表达你的一些观点吧,把你的这个,把你的这个想法,把你这个点子,把你这个点子能够去 找到,我觉得这个是一个很关键的一个一个能力。第二个呢就是类似刚才讲到的这个提示词,你怎么去表达你的指令,是吧?你的提问题的这种能力,那你能够去你,你有点子,光有点子不行,你还要让别人明白,你要让 ai 明白你的这个点子,你到底想要做一个什么样的一个效果? 第三个就是判断你其实这里面其实也隐身另外一个观点,我们现在可以利用利用大圆模型帮你去做很多的事情,但是呢,你一定不要把他的这个结果 直接当做作业就交出去了,一定要你来对最终的结果去把关。也就是说你你不管是他做到了还是没做到,还是说还需要完善,你一定要对他的 a 的 结果进行一个检查,对吧?确实是他满足你的这个 预期,并且要通过他的一些合理的验证呢,避免他出现幻觉,一本正经、胡说八道的这些情况。所以说你一定要对他要有一定的判断力啊,你要甄别他是不是理解你的要求,因为他给出的答案是不是符合常理,或者是符合这个规律,所以这个也是判断力,我觉得是一个 是很关键的一个一个点啊,创造力、提问题的能力、判断力,我觉得这是这是在 ai 时代,我觉得是大家都需要去关注的吧,需要去锻炼的几方面的能力。再一个啊,组合使用 ai 的 能力, 其实现在应该说,应该说从二五年吧,其实在它的工具层面其实就有了很 嗯,很大的一个爆发,不管是做这种音视频的,那文本对话,对话的这种方式的,那就更多了, 包括现在辅助编程的,对吧?这个我觉得其实他的模式是很多的,包括还有一些像扣子啊,分班这些,这种 beyond 呀,这种做这种工作流编排的就是工具,现在是越来越多了, 他每一个呢其实也都有他自己的这种优优点和缺点,所以说现在的在应该说 ai 的 一个快速成长期吧,其实他不是 ai 的 最终形态, 但是呢他确实是呢又展现出来和以前的这种类似这种制这种 ai 的 这种或者是计算机的这种能力啊,又是完全不一样的一种一种态式。 所以说这个时候虽然说他在成长过程中还不完美,但是你通过不同的这种 ai 的 工具的这种组合,那,那其实这个时候已经可以做到更多的一些效果啊。其实现在有一个普遍的说法就是 ai 的 这种,它是一种人的能力的一种倍增器, 如果说你运用好的话,他其实是可以放大你的能力跟想法的。这个这个时候呢,尤其他在还没有达到一个最终形态以后,也许就是一个超强的智能,他不是 都可以帮你去做好各种接口和调用,他都可以给你做好这个服务了,就像这个钢铁侠里面贾维斯一样,但是在没有达到之前,在他的一个进化的过程中,那现在的很多的这种方向其实都是他可能的一个路径。那我们怎么去充分利用好这些不同的这种工具, 那这个时候已经就可以给呃,这种个人的个体的这种能量就进行一个倍增啊。为什么?现在有很多场景都在听到这个叫什么一个人的独角兽公司,是吧?其实就在于你这一个人其实是要带领一堆的这种 ai 或者是智能体的员工去完成更 更多以前一个人做不到的一些事情,就是这个我觉得就是一定要学会用组合的一种方式来去做这个,呃, 来去运用 ai 在 灵活的沟通方式,在使用过程中嘛,也会遇到一些情况,其实虽然说现在他的能力还是很强的,但是有的时候也很闹心,你没有办法,你去做的一个动作的时候啊,他真的达到你的这种效果,那比如说 ai 的 这种 编程工具去帮你去写一些应用的时候,你让他写一个五字旗,你让他写一个贪吃蛇的小程序,他的成功率很高,一次生成的一个结果就是一个可运行的。但是有的时候呢,你让他给你做一个动作, 他反反复复改来改去,他也不能去达到你想要的一个效果,这其实这时候也是很闹心的,有点像一个就是一个 你带着一个一一个员工,那,那特别的固执啊,这这这他有能力,但是呢,你说服不了他啊,你让他往东他就变往西,屡教不改,所以说这个也是很闹心, 所以,但是 ai 其实是没有这种情绪啊,你们他是没有这种情绪的,那那这个时候更多的我们是要考虑换一种表达方式来跟 ai 去交流,甚至有的时候你要干脆的直接啊重新开始, 让他再来从另外一个表示方式重新开始,不要避免让他在一个补丁上面去打补丁,那这个其实可能还不如让他重新再来过一遍,可能能给到一个更理想的结果。 在前面也提到过的一些,比如说你原来是用这个文字的方式来提要求,那你可以换成语音呐,或者给他画一张草图啊,或者给他发一段内容,给他一些更多的这种,比如说这种 pdf 啊,或者其他的这种素材的这种 这种内容吧,让他有更多的这种信息源,这个时候可能让他能够更好的去达到你要的一个一个结果啊。所以说这个时候如果说建议专家,如果说在跟 ai 的 这种使用过程中,如果出现了他重复,就是他,你让他做这个动作,他就没办法达到你要的效果的时候,你一定啊,最多三次,一定要换你的表述方式了啊,否则你这条路就可能就进入一个死循环了啊。 再有一个就是,呃,建议善用智能体啊,其实智能体这个概念应该在二五年还是讲了很多的,那现在也有很多多种多样的智能体,其实 我我今天想说的这个智能体呢,其实反而比较简单,没有那么复杂。其实大家以现在以我个人经常用的这个豆包为例的话,大家就在豆包的客户端里面直接去新建一个智能体,其实你在这里面更多的就是给他写一个系统提示词, 那你这样就可以限制他的一个一个能力范围。比如说我们我们拿到的一个默认的一个豆包的一个对话方案的时候,他其实是一个更多的是用他机模的这种通用能力。 但是你如果说给他创建一个整体,你给他写了一段题的词之后,完了之后这个在这里面你就可以让他,比如说他是擅长数学是吧?擅长 ai 的 使用,或者是擅长收集信息,或者是擅长公文写作,你就可以给他限定一个身份,并且把你的一些风格和要求提给他, 这种情况下他就能够去给你更好的调用这方面的能力。其实从原理上也很容易理解,还是激活函数的这个概念。你你在这里面我们通过给他这种系统提示词的这种设定来去创建这个智能体之后,其实他就等于是你默认的有些开关就已经被组合好了。 所以说他给出的钓最后钓的能力啊,包括给出结果的时候啊,都会倾向于在你限定的这个范围之内来去给出结果啊。其实大家真的可以试一下, 尤其是比如说你要嗯要经常去做哪方面的事情的时候啊,你给他限定一下身份,他可能给你的,甚至你都可以去对比一下,他和你直接打开一个新对话,那得到的结果是不是有一定的差异?好吧,这个我觉得是大家可以去尝试的,成本也很低。 讲到这里面其实还想额外说一个动作,就说大家用这些这个能力的时候啊,这个提示词也不是说非要自己去写啊,没有那么规整或者怎么样,你没有写,其实你可以完全可以以套娃的想法来去做这个动作,让就什么呢?你可以新开一个对话,让他去 让你告诉他你要写,你要创建一个智能题,你要去做一个这个什么方面的事情,让他帮你写一个提示词, 他把这个题子写出来之后,你再看这里面哪些是你觉得是可以,是你想要的,哪些不要的你可以让他接着改啊?你,你完全可以通过套娃的这种方式来去用,用这种 ai 的 能力来去帮你去达到你的一个目的啊。不是说我们用这一个,我们在 开一个对话框跟他聊天,就在用 ai 你, 你做动作的时候,你可以在不同的环节就重复的去利用 ai 的 能力, 其实这样我觉得才是在当前大家还不是最终形态的时候,大家可以去使用的一个一个小技巧吧,最后一个在不同的场景下去使用 ai, 其实这个我想说的是什么?现在 ai 的 这种能力啊,其实尤其在这种固定的知识上面,或者是人类已知的知识上面,其实已经已经是极大的超越这个人类个体了。 那这个时候就说在这种情况下,我们想要去跟上时代,要去要去进一步去学习啊,或者是要去做一些这种工作啊,提高效率等等上面,其实是可以 更充分来利用 ai 的。 为什么我提不同场景,其实我想说的就是说,比如说你要学习一个新的领域的知识,其实你现在就可以让不用再像以前一样,你要去找一个这个行业的前辈,你让他去告诉你我应该往哪方向去努力,怎么去学。你现在完全可以让 ai 给你出一个大纲, 告诉你我要比如说我要学这个大圆模型,我要学它的原理,我要学 cnn, 我 要学 rnn, 我 要学积极学习,我应该从哪入手?你完全可以让 ai 给你一个大纲,那在这个时候他其实扮演的就是你的导师你,他来帮助你去制定的学习计划, 在这个过程中你真正拿到这个大纲了,你觉得也可以按照这个学习了。你开始学的这个过程中,你可以让他成为你的伙伴, 你如果遇到问题,你可以跟他交流,你可以让他去做各种各样的一些讨论,完了之后,那这个时候其实他也是二十四小时在线的,可以去陪伴你的,所以前面就是前期当导师是吧?那学习过程中可以当你的这个伙伴,等你学完了要去用的时候,那毫无疑问他是可以成为你的助手的。 你现在做的很多动作,包括大家看到现在这个教材,其实我都是用这个 ai 的 这种开发工具来配合我去做的,否则光靠我自己人力来做的话,其实也是一个 较大工作量的一个事情,所以说一定要更灵活,更更充分的去套娃的想法去使用 ai。 并不是说我现在做这个事情,我在这个点用 ai 了,那其他的 我就不能再去用 ai。 其实不是的,你遇到问题,你遇到卡点的时候,你要想想我们前面提到的说那实现组合的 ai 能力,就是如果你在某个点上卡住了,那有没有可能他以另外的 ai 工具或者是真体,或者是如果你现在的这个问题,你过程中遇到问题, 如果说没有人问的话,你可以把你的问题抛给 ai, 让他给你一些建议,不给你一些解读,可能你在这个对话的过程中啊,你可能就找到你的答案,而且你对这个过程,可能对对整个的这种能力啊,也会更容易理解啊, 所以洛丽洛丽巴说就讲这些吧,也是在边学边用的过程中吧,个人的啊,一些听到的。好的好的,这种观点啊,也有一些是自己使用的一些体会啊,仅供大家参考啊,也欢迎大家在评论区给出一些好的 ai 的 使用的一些一些建议吧,大家可以相互交流一下。 好,那以上是关于这个 ai 使用的一些建议,那今天的内容就到这里啊,也感谢大家,谢谢。

大家好,我是百川,今天我们认识 ai, 内容是 mcp, 有 没有想过为什么有时候我们问 ai 一 些最新的信息,他却说对不起我的知识截止到某年某月, 或者当你让 ai 帮你计算一个复杂公式时,他只能给你一个大概的结果,而不是精确值。这些问题其实指向了当前 ai 模型的一个核心局限,他们就像被关在信息牢笼里的超级大脑,有着惊人的知识,却无法与外部世界真正交互。今天我们就来聊聊一项突破性的技术界, mcp, 他是如何打破这个局限,让 ai 模型获得超能力的。看到这里,如果你也对大模型感兴趣,我利用工作摸鱼时间,准备了这些转型大模型应用开发的学习精华,就算你是小白,也能轻松看懂我的主页群,懂的都懂。看到屏幕上这张图了吗? m c p 全称是 model control pro 模型,上下文协议, 你可以把它理解成给 ai 模型装上的一双手和一双眼睛。简单来说, m c p 就是 一种让 ai 模型能够与外部世界无缝交互的技术框架,它不只是一个简单的功能,而是一整套协议体系,定义了 ai 模型如何与外部系统通信,如何调用工具、如何处理返回结果等等。 你们看这张图,左边是 ai 模型,右边是外部世界,中间这条线就是 m c p 协议,它就像一座桥梁,连接了这两个原本隔离的世界。那么 m c p 到底解决了什么问题呢?我们来看看下一张图,大家思考一下目前的大元模型,比如 g p t 系列, 他们有什么局限性。没错,主要有两个大问题。第一个问题是知识时效性。大家看到图上标红的部分了吗? ai 模型的训练数据都有截止日期,比如某些模型只知道到二零二五年的信息,问他二零二六年发生了什么,他就蒙了。 这就好比给你一本二零二零年出版的百科全书,让你回答二零二三年的新闻,显然是不可能的。第二个问题是专业工具使用 纯文本的 ai 模型,没法直接使用计算器、数据库。这些工具就像一个超级聪明的人,被关在一个只能说话的房间里, 他可能知道怎么解决问题,但没法动手去做。 m c p 技术怎么解决这些问题的呢?看绿色部分, m c p 允许模型实时搜索和获取最新信息,打破了知识时效性的限制。同时他还提供了标准化接口,让模型能够调用各种外部工具,比如计算器、搜索引擎、数据库等等。 这就好比给那个被关在房间里的聪明人装上了机械手臂,还给了他一台连接外网的电脑,突然间他的能力就被大大扩展了。接下来我们来看看 m c p 的 核心作用。这部分内容比较丰富,我们一个一个来看。首先是标准化通信,可以思考一下, ai 模型和外部系统说的可不是一种语言,模型输出的是文本, 而系统需要的是结构化数据。 m c p 就 像一个翻译官,建立了它们之间的标准通信协议。其次是工具调用 m c p, 让 ai 模型能够知道什么时候需要用工具,以及怎么用这些工具。比如当你问今天北京天气怎么样, 模型就知道需要调用天气 a p i, 而且知道参数应该是大括号,里面包含 ct 和北京。第三是信息获取,通过 m c p 模型可以主动搜索网络获取最新信息,这就突破了知识时效性的限制。 最后是安全控制,这点特别重要, m c p 提供了精确的权限管理和行为控制,确保 ai 模型不会做出危险的操作。 看到屏幕上的这个流程图了吗?这展示了 m c p 的 工作流程。当用户问今天上海天气如何时,模型首先识别出这是一个需要查询天气的意图,然后选择合适的工具,天气 api 构造参数,陈世民 调用 api 获取数据,处理返回结果。最后,深层人类可理解的回答,整个过程无缝衔接,用户甚至感觉不到背后发生了这么多步骤。说到这里, 可能有同学会问,这个 m c p 听起来好像跟方声扣很像啊,它们有什么区别?这是个好问题,很多人确实容易混淆这两个概念。我们来看看这张对比表格。方声扣可以理解为函数调用,它是一种特定的能力, 允许 ai 模型调用预定义的函数。而 m c p 则是一个完整的协议框架,它定义了模型与外部系统交互的全套规范。打个比方,方身扣就像是一个工具箱中的一把螺丝刀, 而 m c p 则是整个工具箱的管理系统,包括如何存放工具、如何选择合适的工具、如何使用工具、如何维护工具等等。看这张图,小的黄色圆圈是方身扣,大的蓝色圆圈是 m c p, 方身扣实际上是 m c p。 协议框架中的一个重要组成部分, m c p 不 仅包含了方身扣的能力, 还包括了状态管理、错误处理、版本控制、安全机制等更多内容。所以简单来说,方声扣是怎么调用函数,而 m c p 是 整个模型如何与外部世界交互的完整规范。那么 m c p 技术在实际中有哪些应用场景呢?我们来看几个典型例子。 首先是智能搜索助手,通过 m c p。 协议, ai 模型可以实时搜索互联网,获取最新信息,提供准确回答。比如你问今天股市怎么样,它能给你实时的股市数据。 其次是数据分析工具, ai 模型可以通过 m c p 调用数据处理工具,执行复杂的数据分析任务。想象一下,你只需要用自然语言描述你想要的分析, ai 就 能帮你完成从数据获取到处理再到格式化的全过程。 第三是企业知识库助手, m c p 使 ai 模型能够安全地访问企业内部系统和数据库,提供精准的企业信息,这对于大型企业来说特别有价值。员工可以用自然语言询问任何企业相关的问题,而不需要学习复杂的查询语言。最后是智能购物助手,通过 m c p 协议, ai 模型可以查询商品信息、比较价格,甚至完成下单流程。你只需要告诉他你想买什么,他就能帮你找到最合适的商品并完成购买。看这张架构图,我们可以看到 m c p 在 整个 ai 应用架构中的位置, 用户通过 ai 应用与系统交互, ai 应用通过 m c p 协议层与各种外部工具连接,包括搜索引擎、数据库、 api 服务和计算工具等,这种架构让 ai 应用变得更加强大和灵活。最后让我们来总结一下 m c p。 技术的价值和未来发展。 m c p 技术是 ai 应用发展的重要里程碑,它 让 ai 模型真正能够看得见、摸得着外部世界。通过标准化的协议框架, m c p 解决了 ai 模型的知识、时效性、 工具使用能力等关键问题,极大扩展了 ai 应用的边界。看这张发展路线图,我们可以看到 m c p。 技术的演变过程,从最初的简单 a p i 调用到方舟拷领,再到现在的 m c p 一 点零完整协议框架, 未来还将发展到支持多模型写作、自主决策的 m c p 二点零加阶段。目前我们正处在 m c p 一 点零阶段,已经能够看到这项技术带来的巨大变化。随着技术的不断发展, 我们将看到更多智能、高效、安全的 ai 应用出现在各个领域。好了,今天关于 m c p。 技术的讲解就到这里,大家有什么问题可以在评论区来讨论,如果视频对你有帮助的话,记得点赞关注。


各位语文老师跟你们分享一个重磅消息啊,就是教育局刚刚发布了教师生成式人工智能应用指引,其中明确了 ai 在 六大场景的三十个应用方向,还划定了清晰的使用边界 啊,其中呢,就是特别明确了 ai 可以 用来辅助批改作文,实现人机协调反馈。哎,这不就是我一直跟你们推荐的要用秒批作文小程序去辅助批改作文吗?而且教育局的这个指引里啊,也是提到了个性化学习和学业诊断的要求, 这个也是 ai 的 长项啊,像秒批作文,它就可以清晰地呈现每个学生的写作,亮点不足,还能汇总这个班级的共性问题,实现真正的因材施教。 另外呢,还有最重要的一点啊,就是这个指引啊,也明确了啊, ai 的 一个使用边界就是 ai, 它只做辅助,最终的评价和深度的点评还是由咱们老师主导。所以啊,各位老师,这个指引啊,已经为我们指明了 ai 的 应用方向,快来和 ai 并肩开启高效的教学新模式吧!

各位济南大学学报的读者朋友们,大家好,我是济南大学管理科学工程学院蔡永明,很高兴通过学报新媒体平台数余生和大家分享我的研究成果。 下面介绍我的一篇研究论文,发表于济南大学学报二零零五年第三期,论文题目是生成式人工智能赋能工业企业高质量发展的机制与建设策略。 下面呢,我将通过五个方面和大家汇报论文的内容。首先,引言方面呢,介绍的是研究的背景。 目前第四次工业革命已经开始,人工智能、数字轮生、机器人、清洁能源等新鲜的技术给企业带来颠覆式的影响,制造业转向高度灵活的个性化、数字化的生产模式与服务模式。 其中,生成式人工智能具有很强的跨领域泛化能力,适用于各种复杂的工业环境和生产流程,可以帮助企业提升效率,降低成本,推动企业高质量发展。 因此,世界各国都非常重视 aigc 大 模型技术的发展,通过各种政策将其转化为实际的生产力。 我国政府也开展了 aigc 家的行动,来部署实施一批国家重大的科技项目,来持续推进 aigc 技术的落地应用。 那么, aigc 项目是如何影响工业企业的生产力变更的呢?一、 aigc 大 模型改变了现有工业企业的运营模式。 ai gc 大 模型作为底层的企业智能化基础设施,深度嵌入进企业的研发、生产工艺、质量管理、运营控制、营销服务等等各项经营管理业务, 极大的提升了企业的效率和决策能力。这些技术又反向作用于生产关系的演变,改变了企业员工的需求结构,改变了市场的竞争格局,进而改变了企业内部以至于企业间的利益分配。 二、 aigc 大 模型推动了工业生产数据要素化的商业化 aigc 大 模型以实际业务为目标,以数据要素为驱动力,以智能计算为手段,实现了数据价值的最大化,推动数据资产的积累、 治理,应用业务闭环良性运行,从而加速数据要素的商业化。 三、 aigc 大 模型解放了工业企业的商业化。三、 aigc 大 模型解放了劳动力的需求结构。 ai g c 大 模型以自然语言处理的方式实现了人机对话,降低了人工智能的使用门槛。通过自动化和优化流程,可以替代很多重复、 危险、繁琐的人工工作,大幅地提高了生产效率,解放了人类的劳动。四、 驱动工业企业多层次智能化的创新 aigc 大 模型的应用不仅仅是局部工作效率的提升,更重要的是工业企业生产方式的一种转变以及产品和服务的一种革命性的创新, 实现了生产过程智能化到产品和服务的智能化的转变,也同时由单一的技术应用向多技术融合提供了一个创新的平台, 从企业内部的流程的优化到整个供应链的协调,创新驱动企业实现工业层次的创新,赋能企业高质量的发展。 三、 aigc 大 模型赋能工业企业高质量发展的积累与模式那么, aigc 大 模型究竟如何赋能工业领域呢?它是通过以下四项核心能力来实现的第一,感知能力与理解能力。 aigc 大 模型基于语义分析,可以将工业领域生产当中的视觉识别、 目标行为识别以及温度、压力、震动、声音等信息综合起来,将物理世界与概念世界综合实现多传感器的信息融合,协同感知、 协同规划、协同控制,为工业企业的转型提供了相当大的信息支持。二、多模态的数据处理与交互能力 ai g c 大 模型具备文字、图片、视频、语音的多模态处理能力,以自然语言处理或者是多模态的输入输出方方式, 结合触屏、眼动控制、手势跟踪、人机交互等形式,实现了工业设备、工业系统、工业软件的交互控制,以及呢复杂的工业制造过程的系统。三、大数据分析与预测能力 工业企业的 a i g c 大 模型,它的核心能力在于它能够处理海量的工业信息。这一模型不仅有效地整合了 产品的全生命周期的各类数据,同时还广泛吸纳企业内外的市场环境、竞争对手的动态、上下游配套服务的实时信息,通过多样化的数据融合为企业提供决策。 同时呢, aigc 大 模型又有自我学习和进化能力。 aigc 大 模型通过深度学习和强化学习 带来了革命性的改革,其中深度学习模型可以通过大量的预训练来提高决策。强化学习模型通过智能体来实现对软硬件的操作, 通过聚深智能实现了实践中主动的感知学习以及它整体的能力,对企业、对世界产生了新的认知和行动方式。二、 aigc 大 模型赋能工业领域的方式 一、 aigc 大 模型直接赋能工业企业,主要是采用基础模型加行业应用的新范式,直接将 aigc 大 模型应用于复杂的工业生产环节, 那么打通了制造业当中的信息孤岛和数据的断流节点,推动数据在研发、生产、配送、服务环节高效流动, 优化整个工业体系,推动工业企业发展走向自适应、自决策、自执行的智能化阶段。 二、 aigc 大 模型与工业生产过程的创新融合 aigc 加可计算数字,孪生加混合现实加互联网, 这一套系统是连接控制工业系统的设备,他把真实的工业场景映射到虚拟空间,打通了数字化设计与制造业的上下游环节,形成设计、生产、销售完整的生态闭环, 为工业带来了前所未有的效率提升和质量改善。三、 a i g c 大 模型与管理决策的融合创新 a i g c 大 模型与传统的 erp m e s s c m c r m 等软件集成, 深度洞察工业领域当中的复杂问题,生成新的知识和见解,实时获取企业的销售、采购、库存、生产等各环节的数据,实现更精细的管理和控制,挖掘客户的行为数据, 提供更迅捷、准确、个性化的服务,助力管理者高效管理企业。 四、 aigc 大 模型同时呢,也可以赋能企业的员工做到提质增效。 aigc 大 模型它的海量处理数据的能力,以及对语义的深入分析和对模型的推理, 提供了更为准确的、全面的业务见解,促进了知识和员工技能的融合,将员工的精力从繁琐的事务中解放出来,专注于 创新价值。三、 aigc 大 模型在工业领域当中的产品的形态 一、成熟的工业产品叠加 a i gc 大 模型的基础能力这种方式主要是将 a i gc 大 模型集成到现有的工业装备和软件当中,比如 self 提出的嗯, crm 人工智能服务系统,以及 deepsea 对 汽车制造业生产过程中实施数据监控和分析。哎,这样一些能力都会使得 aigc 将自己的能力扩展到企业的实际应用当中。 二、基于 mass 的 aigc 大 模型 api 调用通过模型机服务,也就是 mass 的 形式将 agc 大 模型转化为可服务的产品。例如 proccm 调用 chat gpt 的 api 形成了开发虚拟助手来帮助工程师完成机床的加工任务。 site machine 基于 open ai 开发了 factory component, 引导用户进行根音分析,挖掘任务的呃,根本原因得以解决。 三、行业应用 ai 大 模型的插件 ai g c 大 模型也可以作为插件工具与其他软件系统无缝集成,使用不同的软件之间的数据进行交换和处理,从而实现协调工作。比如 百度的千帆大模型,可以提高企业内部的解锁效率。四、私有化部署的专业领域大模型 私有化部署的专业大模型主要是为了完成一些特殊场合的需要,主要是为了保证数据的安全性和隐私性,在企业内部进行大模型的学习, 从而避免将数据上传到公共语音服务带来的数据泄露的风险。主要形式采用本地化部署加个性化定制加数据隐私的方式,增强大模型的应用安全,保护内部敏感数据。 四、工业企业 a i g c 大 模型应用发展的适配建议首先我们要了解 a i g c 大 模型,它并非是万能的一个模型,它有自己的适用边界。 那么 aigc 大 模型在工业领域当中的适应边界是什么呢?第一,工业企业如果要实施 aigc 大 模型,那么它就需要具备有大规模的行业语料以及呢明确的企业知识体系。 igc 大 模型实现工业企业的应用要从模型的微调、行业数据质量的角度来去看,那么小微企业、初创企业都不具备这样的模型微调和行业数据质量的要求。 中,大型工业企业的信息化程度比较高,基础数据比较完善,呃,语料比较丰富,规则和约束明确,有可能呢?成功应用 aigc 大 模型。第二, aigc 大 模型解决的问题的边界要清晰。 aigc 大 模型能够有效解决那些边界清晰的问题,如明确的处理问题的流程, 清晰化的解决问题的方法。对于基层、中层的结构化、半结构化问题,非常适合使用 aigc 大 模型来进行处理,而高层的战略、文化等非结构化问题 不适合使用 aigc 大 模型。二、工业企业 aigc 大 模型应用的发展趋势主要有以下五个方面,一、 目前工业企业信息化的建设由传统的信息化转向了智能化。 传统的工业企业信息化主要是通过利用网络和信息系统改善企业的信息获取和传递, 而现在转向智能化以后,智能化的系统主要是要借助先进的算法,将人工智能嵌入到工业企业的生产流程当中,以提高效率、提高决策为目标。 二、多模态的 a i g c 大 模型促进了多应用场景的融合创新。 ai g c 的 多模态能力可以处理文本、图像、音频、视频 等等,这些易购数据的资源在传统数据分析的平台上是没有办法统一处理的。而 ai g c 大 模型以 模型加行业应用的新范式,可以同时处理复杂的数据,也可以解决复杂的管理难题。三、 ai agent 是 ai g c 大 模型的业务场景应用的主流方式。 ai agent 提供了一种类似人类思考的人际协调框架,通过思维链的方式 以及问题分解技术,将工业企业制造过程当中的复杂问题拆解成为可实现的子任务,进行统一的智能调度、协同解决。三、巨深智能赋予了 aigc 大 模型自主学习、自主实践的能力。 a i t c。 支持下的工业设备软件采用聚焦智能的方式,主动感知、主动学习,可以使用人类的学习习惯和思维方式来进行信息交互, 通过试教、学习、反馈的多轮交互模式对智能体进行训练,不断地提高产品的激励水平。五、智能涌现给工业 a i g c 大 模型带来了性能的飞跃。 igc 大 模型是通过庞大的数据参数体系来深入理解现实当中的复杂的关系,随着扩大模型参数和训练的数据,在某一刻会产生顿悟。 那么在工业产品当中应用 aigc 大 模型,同样呢也是需要模型的扩大,数据的增强,通过反复的强化学习,解锁模型的核心能力。 aigc 大 模型发展的高质量发展建议首先我们要看一下 aigc 大 模型工业应用的技术路线,它主要是通过基础模型,基础模型主要包括自然元处理 深度学习、强化学习多模态处理技术等等。这些基础模型以及行业的数据领域、知识图谱等数据基础, 在聚深智能或者是 mass 基础上实现工业企业的应用。在各个领域当中都有不同的 a、 i、 g、 c 产品的应用,比如在研发阶段可以提供 辅助的工业设计,在生产阶段可以实现高质量的供应链协调。在流通和消费领域可以高效匹配工序,降低流通成本。在服务保障当中可以加强客户维护,降低服务成本。 这些都是通过通用的 aigc 大 模型,在相应的垂域领域当中的业务模式以及专有的行业的语料库当中进行预训练、微调解锁、增强。 那么最终呢,将形成不同形式的 aigc 应用,主要呢分为四个方面, 也就是我们刚才所介绍的通用 aigc, 专业垂域领域当中 aigc 以及 aigc api 的 调用,还有呢是 aigc 的 插件。 目前 aigc 在 工业领域当中高质量发展需要一定的条件。在我们的论文当中组织了以下四方面的建议,一、 企业如果要想很好地利用 aigc 大 模型,那么就需要构建特定的行业领域的语料库和知识体系。 这是由于 aigc 大 模型它有强大的泛化能力,可以在不同任务领域当中进行迁移学习,但是呢,它却缺乏对特定行业业务流程、特定的数据、特定的经营模式的深入理解, 那么通过私有领域当中的知识图谱、行业的知识,弥补 a i g c 大 模型在这一方面的不足。第二,开发专属的垂域的 a i g c 大 模型。 专属的 aigc 大 模型主要有三个方面的特征需要作为调整。首先在模型方面可以开发专属的 aigc 模型,同时呢,加入特定的参数和模型结构。 在数据方面,需要加入行业的数据资资产以及大量的企业标记的语料,以提升决策的精确度。 在训练方面,要根据业务实践在企业内部做有监督的金条,形成一个带有循环机制的良性闭环,部署专业的垂域的 a i g c 大 模型,可以达到更精确的识别、理解和增强决策的一个效果。 三、 aigc 大 模型主要利用预训练微调加解锁增强来适配工业企业的应用。预训练模型 储备了大量预训练知识,可以减少训练成本。微调可以结合特定的标注数据、行业领域知识图谱等等结构化的数据进行微小的调整和适配, 解锁、增强生成,可以把私有数据进行向量化的存储、匹配、输出、解锁内容,弥补专业领域当中的不足。 最后一方面,也就是第四方面,需要推进组织改革,以适应智能领域制造当中应用 aigc 大 模型。那么 aigc 大 模型 除了技术方面的呃开发和实施,另外一方面呢,需要在管理方面要进行全面的配合和调整。 在管理方面的调整呢,我们建议是以下三个方面,一是要建立扁平化的组织结构,可以充分的利用数字化、智能化的工具,提升组织效率。 二是重新设计和优化业务流程,消除企业内部数据孤岛和信息碎片化的现象。 三是提高员工的数字化和智能化的素养和管理能力。 最后, aigc 大 模型呢,将成为全球性产业技术升级的动力,与传统业务融合创新以后将会开辟出大量的新的实践应用场景,将会引领整个行业的转型与发展。 因此,本研究认为,工业企业的上算成为了新一代信息基础建设的一个方向。 aigc 大 模型工业企业落地的主要形式是通过构建专属垂域大模型,或者是基于通用大模型的微调, 采用基础模型加行业应用的新范式,嵌入到工业企业生产运营当中,实现智能化的生产控制,提升管理的决策水平。通过 aigc agent 这样的人机协调动态决策框架,促进人机结合,提升业务能力和工作效率。 同时呢,也需要推进组织改革,优化业务流程,促进信息共享和协调工作,提升组织响应能力和执行能力,促进 aigc 大 模型服务能工业企业。好,我的分享到此结束,谢谢大家!

大模型为什么能理解你发给他的内容?先看看人的大脑是怎么进行理解的,看书、背单词,或者是记住一种味道,都是学习的过程,我们会把这些信息记在脑中,就像是一个庞大的数据集。 大模型也需要一个数据集,而且是一个非常庞大的数据集,其中包括文字、图片、声音、视频等等, 可以让程序员编辑代码,设定规则,将数据输入到大模型,大模型就能根据这个规则代码进行计算,这个代码就叫算法。随着技术的进步,一类新的算法逐渐被广泛应用,它就是机器学习算法。 机器学习算法能够进行自我学习和优化,不需要程序员逐条设定规则,可以通过海量数据不断的看和学,自动找出规律并调整自身参数。 大模型拥有了庞大的数据集合算法,就能理解我们所提出的要求,结合算法生成新的内容,这就是生成式 ai。 生成式 ai 主要依赖于大规模的数据训练和复杂的神经网络结构,能够识别复杂的模式,总结规律,模仿人类风格生成内容。 生成式 ai 的 应用范围较为广阔,在内容创作领域,可以辅助作家、设计师、导演等进行创意生成。在医疗健康领域,可以用于药物分子设计、医学图像生成与分析。 在教育领域,能够根据学生的学习情况生成个性化的教学内容。在商业领域,能够用于市场趋势预测、广告文案生成。 可以说,生成是 ai 正在逐步渗透到我们生活的方方面面。越来越多的研究者开始关注如何将它与人类价值观相结合,使其在创造过程中遵循论语准则。 未来,随着算力的提升、算法的优化以及跨学科的融合,声称是 ai 将在更多领域实现突破,成为推动科技进步和社会发展的重要力量。它不仅改变了我们获取和处理信息的方式,也正在重塑我们对智能创造和未来的理解。

最近,教育局正式发布教师深层式人工智能应用指引第一版,我们做一些简要分析,看看学校老师们可以在教育的 ai 变格里面做一些什么工作,以及作为第三方扶伤的我们自己,可以在学校老师们的 ai 工作中起到一些怎样的辅助作用。 只以价值引领、遵循规律、技术向上为核心原则,指出 ai 必须服务于人这个根本目的,它最突破性的部分是提供了覆盖学、教育、贫、管、严六大维度的二十个具体场景视力。这意味着 ai 的 应用从模糊的想象变成了可对照、可落地的教学说明书。 石英指出,教师可以应用深层式人工智能,支持对话式、游戏化、个性化、协助探索与跨学科学习等多种学习方式,推动学生向知识构建与创新者转变。 可以应用 ai 在 学情分析、教案设计、课间制作、课堂互动、作业设计等环节,探索人机协调教学的有效路径。 教师可以应用 ai 在 品德、体育、美育、劳动心与健康教育等方面促进学生全面发展和健康成长。可以应用 ai 进行课堂评价、作业反馈、视题设计、量规设计、学业诊断,提升评价的客观性、时效性与育人价值。 同时,也可以应用 ai 优化班级、校务、家校协调等管理流程。根据指引,学校可以建设个性化学习支持平台,开展人机协调课堂教学模式试点,建立 ai 助教资源库,引入 ai 辅助评价工具以及内容审核数据安全系统 和老师们当然可以通过 ai 更新教学方式、设计教学课点等等。对于我们自身来说,我们着重于研究 ai 具体应用的实践,探索 ai 切实可行的落地功能。比如协助老师们用 ai 工具进行专业结合的教学科研, 比如协助某个专业用 ai 建设一个智能知识库、智能体助教等。在 ai 迅速发展的当下,欢迎老师们一起多多沟通交流,我们非常愿意在 ai 教育领域的应用方面为学校和老师们做一些辅助性的工作。