粉丝27获赞189


一张美女图片就可以生成多角度图像,而且人物一致性真的很强。之前已经讲过千万二五零九多角度的工作流,本期视频继续更新一个千万二五幺幺人物多角度的工作流, 虽然工作牛类型差不多,但是我们从介绍可以看出他是二五零九的增强版,主要减轻图像漂移,提高自辅一致性,以及集成 lara 功能, 甚至还增强了几何推理能力。那么对于电商或者视频二创的小伙伴来说,一致性是最重要的,可以看到官方的一致性展示确实非常棒。 我们先来看一下二五幺幺的基础工作流,这边最多支持三张图片的编辑融合, 可以看到这个男生女生还有衣服的细节融合在一张图片上,相似度真的非常高,并且完全按照提示词来的。 我这边加载的是千万二五幺幺 b f 十六的模型,本地部署的话建议使用 f p 八的模型,毕竟这里云端使用的是二十四 g 与四十八 g 的 显卡,其他节点设置跟千万二五零九差不多,这里就不过多介绍了, 只需要在这里上传三张图片,然后填写提示词,点击运行就可以了。接着再来看一下人物多角度一致性的工作流, 看起来很复杂,实际操作起来一点也不难,只需要在这里上传一张图片,然后这里可以设置你所需要的单张图片的大小,一般默认即可。上面则是一些模型的加载,然后通过人物骨骼图与提示词双重控制, 得到我们这些不同角度的人物图片,可以看到人物的一致性真的非常好。 当然这个工作牛也需要很高的电脑配置,想要本地部署的话,建议使用量化版本的模型,我这边也会把模型与工作牛打包上传到云端,右边留言分享。好了,本期视频就到这里,我们下期再见。拜拜。


我想雇你一件事,酬金百两给我闪开,小心啊。嘿。北宋汾梁三品户部侍郎之女,玉不削莲音平致,争取所报。这幅画留白很多, 有些地方不必话满。我想雇你一件事, 为妻一月,假意清目, 酬金百两啊。不悦礼,不悦戒。苏府庭院诗会寄设,文人云集,萧默以一首诗得众人称赞。今日在诗会上,你并未尽力, 我若尽力,怕你父亲未必放心。今日多谢了。二人幽步夜市,未觉危险将至,都给我闪开,小心嘿。


今天这个视频教大家怎么制作出一段流畅的奔跑跳跃斩击的 aig 机视频。做这个视频的初衷是帮学员复刻了一段想学习的小爆款,本着不发抖音白不发娱乐用的,但是却被原主以及一堆过来跟风的人盯上了。那么好,既然你感觉这个东西是你喜好的秘笈,好学,那么我就把它的制作流程分享出来。 首先我们要找一个想做的人物图,当然原创或者自制也是可以的,我这里随意用 mg 做了三张图进行测试。其次,我们通过香蕉或者极梦,将这张人物图制作成背对摄像机的奔跑模样,这里需要注意描述词要加上动态模糊。 然后我们扔到可林,选择二点六引擎,加上一句简单的描述词,这样跑步加跳跃就完成了。我们再生成一个人物特写,可以是拔刀,也可以是睁眼等等来增加帅气。同样扔到可林或是吉梦进行徒生,在之后简单做一个高空准备出招的镜头,同样是通过徒生进行攻击,发出能量,这里可以是手针直接去做,也可以首尾针来做。都所谓的 做一个能量冲向远方的镜头,可以是单纯的能量冲击,也可以让他斩断各种东西,或者发挥你的想象。在最后可以加一些收拾的安静画面,然后去剪映,导入素材,根据音乐调整速度,再加上特效,增加动感,再加上音效,最后剪辑完成。

逼自己一个月学完,其实你很会 ai 大 模型,存下吧,很难找全的,本系列视频号十三个月制作,共计一百零八集,带你一口气学完掉,打大模型面试官,这应该是目前抖音仅有全套系统 ai 大 模型面试教程, ai 大 模型面试题库,学习路线,电子书,所有资料都在主页置顶群里。 哈喽大家好,我们继续来分享 ai 大 模型面试系列。那么这套课程的话分为多个专题,包含基础篇、 lab 篇、微调篇、 transform 篇、 deepsea 篇、 agent 篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。如果喜欢这套课程的话,欢迎多多关注一键三联今天要给大家分享内容是 transform 操作相关的一些面试题, 那比如说我们如何利用 transform 去加载 bot 模型,如何利用 transform 输出 bot 指定的隐藏状态,以及 bot 如何去获取最后一层或者每一层的网络的向量输出。 那首先我们如何去利用 transform 去加载 bot 模型呢?主要是分了以下几步,我们可以使用 pad touch 跟 transform 的 一些库,然后比如说我们这里用的是 birdbase 的 这个 oncast 的 这么一个模型,然后去读取模型对应的这个 tokenizer, 然后去载录模型,然后的话去输入这个文本,通过这个 tokenizer 把文本变成 token id, 然后的话或者 bot 模型最后一个隐藏的一个结果。然后的话,啊,那这里面我们就可以看到包括 import 在 内的不到十行代码,我们就实现了读取一个预训练过的 bot 模型来 encode 我 们指定的一个文本, 对文本的每一个 token 生成七百六十八维的一个向量。如果是二分类的任务的话,我们接下来就可以把第一个 token, 也就是 cls 的 七百六十八维向量接一个这个 lin 二层,预测出分类的这个 lodest, 或者根据标签进行训练, 然后利用 transform 输出 bot 指定的隐藏状态, bot 的 话默认是十二层,但是有时候预训练是并不需要利用全部啊去做一些这个处理, 只需要预训练前面几层就可以了。那么这时候我们应该怎么做呢?我们可以下载到 bird based on case 的 模型目录,里面包含配置文件 configure 点 jason, 该文件的话包含 output handler state, 可以 利用该参数来设置编码器内部隐藏层的这么一个层数啊,下面是它参数的一个设置,然后 bird 的 话,我们可以去获取最后一层,或者每一层网络的一个设置,然后 bird 的 话,我们可以去获取最后一层网络的一层的输出的话, 这里我们可以看到一些啊,比如说像隐藏的这个层的这么一个 size, 包括这个 polar 的 一个 output, 还有一些这个啊, classification 的 一个 token, 最后一层的一些隐藏状态,它是由向量层和这个 th 几乎函数进一步处理的,这个输出不是对输入的语义内容的一个很好的总结,那对于整个序列的隐藏状态,序列的平均化的池化啊, 通常更好。那么隐藏状态的话就是一个输出的可选项,如果输出的话则需要指定。那么还有一个 output handler state, 它也是一个元组,它的第一个元素是 in body, 其余元素是各层的输出,每个元素的形状是 bit size sequence length handler size attention 也是一个输出的可选项,如果输出的话,需要指定这个 output attention, 它也是一个元组,它的元素是每一层的注意力权重,用于计算 self attention has 的 这么一个加权平减值。 然后我们可以去获取每一层的网络的向量输出啊,下面是最后一层的所有的头横向量,包括 c r s 向量,然后包括这个十三层第一层也就是锁影是零的输入的引规定的向量,后面的话是一到十二的锁影,是每一层的输出向量。 ok, 以上就是关于 transform 操作篇相关的一些面试题分享,哈喽,大家好,我们继续来分享 ai 大 模型面试系列,那么这套课程的话分为多个专题,包含基础篇、 log 篇、微调篇、 transform 篇、 deepsea 篇、 agent 篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。 如果喜欢这套课程的话,欢迎多多关注一键三连今天要给大家分享的内容是大模型 r l h f 相关的一些面试题,分享 给大家罗列了一下目前在这个 r l h f 里面啊经常被问到的一些面试题,比如说啊,介绍一下大模型的经典预训练拍不烂以及预训练。呃,你的一些这个情况是怎么样的?包括这个有监督微调 以及有监督微调的这种训练数据格式是什么样的?预训练对比有监督微调的区别是什么啊?包括这个人类对齐,然后还有这个基于人类的这个反馈式的方式进行一个学习的啊,我们叫 r l h f, 它的一个流程是怎么样的?如何在预训练好的模型上进行有监督的一个微调?如何在有监督微调模型的基础之上去创建一个 r m 模型?如何基于 p p u 算法微调 s f t 的 一个模型, 然后包括 insurance gbt 的 一些原理啊,讲讲 r l h f 和这个 reward 的 一些区别,包括 number 二中的一些 r h f 的 一些这个设计包括它的一个实现逻辑, 以及这个 magin 的 逻辑的一个实现逻辑,那么包括两个 r m 模型的一个实现逻辑,然后拒绝采纳是这么一回事儿。还有这个 r h f 替代方案,那有哪一些替代方案? 在这里的话,我们会讲到五种替代方案,包括这个 r l h 一 些实践的一些问题啊,包括这个训练过程怎么样去选择这个 point 的 一些点好,首先我们来说一下这个大模型的一些经典预训练。 playable, 那 么目前的话,基于全是 forma d code 的 大模型的话,比如说像叉的 gpt 啊,拉玛百川常常都会有记预训练的 base 模型和在 base 模型,至少使用 r a h f 微调的这个差的模型,差的模型的训练的话,一般都包括如下三个步骤,预训练,有监督的微调和对齐。 在预训练阶段,模型会从大量的无标注文本数据集中学习通用知识,使用有监督微调 s f t 优化模型,以更好的去遵守特定指令。然后是使用对齐技术,使大模型可以更有用且更安全地响应用户提示。 那么具体我们来介绍一下这个预训练,预训练的话是利用了数十亿到数万亿个 token 的 庞大文本语料库。对模型啊,继续预训练,使模型能够根据提供的文本来预测下一个单词。那下面是关于预训练这个数据集,包括任务以及输出的一些描述。 有监督微调啊,那么有监督微调的话,虽然 sft 训练的目标和预训练比较类似,但是也需要模型预测下一个单词, 但是需要人工标注的指令数据集,其中模型的一个输出的话是一个指令,它会根据任务的不同,也可能会包含一段输入文本输出,作为模型的预期回复内容。 下面是这个有监督微调的这种方式的一个啊, token 包括这个使用到一些,呃,一些这个输入输出的一些这个响应啊, 然后有监督微调的一个数据的格式是怎么样的?那比如说上面我们有一个这个指令啊,他是写一首关于这个的什么打油诗,然后输出的话是什么?什么很好,是吧?那么模型的话会把这一段话去作为输入,逐个透视进行一些预测,那么再做一个输出, 那么预训练去对比有监督微调,它的一个区别是什么呢?首先我们来说相同点, 训练目标相同。模型需要根据提供的文本来预测下一个单词,不同点的话就是训练数据量不同,有监督微调需要训练数据量比预训练数据小很多。预训练格式啊,数据 训练的数据格式不一样,那么有监督微调的话,需要人工标注的训练数据,预训练的话都不需要。 那么什么是对齐呢?对齐的话是通过微调的方式将语言模型与人类的偏好、价值观进行对齐,这也是 r l h f 机制发挥的一个地方。那下面是关于这个对齐的一个,这个 model size 包括它的一个啊, 视力啊,一个 example, 大 概是什么样一个规模?那么 r l h f 的 一个流程是怎么样呢?首先的话,它是在预训练好的模型上进行有监督微调啊,我们叫 s f t, 在 有监督的微调模型基础上创建一个 reward 的 model, 基于 reward model 的 话, 使用 p p u 算法去微调 s f t 的 一个模型。如何在预训练好的模型进行有监督的一个微调呢?我们需要先收集一个 promote 集合,并要求标注人员写出高质量的回复,然后使用该数据集监督的方式微调预训练的基础模型。 如何在有监督的微调模型基础上去创建一个 r m 模型呢?对于每一个这个 promote, 要求 有监督微调后的大模型生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程比较耗时,但是工作量还是比第一步的有监督数据基构建要少一些。 那么在处理排序数据时,使用了一个奖励模型, r m r m 来自 r l h f。 第一步有监督微调语言模型的一个输出,通过一个回归层,单个输出节点转化为奖励分数啊,也就是称为这个 r m 模型。 如何基于 r m 模型使用 p p u 算法微调 s f t 模型呢?基于 r m 模型,使用这个 p p u 算法来微调 s f t 模型啊,下面是它整个的一个这个步骤啊, r l h v f 的 一个步骤,包括这个啊,我们来讲 insert gpt 的 一个原理。 那么 insurance gpt 的 话,它其实是一种基于强化学习的文本生成模型。它的一个核心原理的话,涉及到两个概念, r l h f 和 reward 的 商品啊,叫奖励塑造。那么 r l h f 的 话,在训练 insurance gpt 时,首先使用的人类生成的视力对模型进行预训练, 然后通过人类评估进行交互收集评估结果,以创建一个用于强化学习的数据集。该数据集的话包含了人类评估者对于生成结果的评分或者反馈, 用于指导模型的强化学习训练。 reward 刷屏的话,是为了更好的去引导模型的训练啊。 reward 的 刷屏用于调整 模型的奖励信号,通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量 作为奖励信号的一部分,这样的话,模型可以根据这个奖励信号进行训练,并进行强化学习的训练。模型根据当前状态对话历史生成文本,并通过奖励信号来评估生成文本的质量。 模型的目标是最大化的预期累积奖励,从而生成更高质量的文本。通过 r l h f 和 rewind 刷屏的结合, insurance 的 g p t 能够通过人类评估者的反馈指导模型生成的过程,并逐步地去提升文本的质量和一致性。 那我们可以来介绍一下 number 二和 r l h f number 二 chart 在 第一步 r, l, h f 微调使用相同的指令数据,但在第二步使用了两个奖励模型。通过多个阶段不同的进化,奖励模型也会根据 number 二 chart 模型出现的错误进行更新,并且的话增加了拒绝采纳的一些步骤。 那么那么二中的这个 market logic 的 一个实现逻辑是怎么样的?标准的 insurance gbt 的 r, l, h, f, p, p, u 算法的思路,对同一个提示下的四到九个模型输出并进行排序,四个回复的排序结果为 a 小 于 c 小 于 d 小 于 b, 那么就可以得到六个对比结果, a 小 于 c, a 小 于 d, a 小 于 b, c 小 于 d 跟 c 小 于 b 在 d 小 于 b。 那 么二的这个 mark 例子每次的话只能看好两个,而非四到九个的一个回复进行对比。那新增了一个编辑,我们叫 mark 啊这个标签,那么对比结果的话可以为显著更好和好的不明显这两个点。 在排序训练时,拉姆二相对于整数增加了边际损失的一个计算,那么其中的话,这个 x, y 的 话是提示 x 和生成的回复 y 的 标量的分数输出,那么还有一个是这个模型权重,然后这个的话是将呈输出转化为范围从零到一的分数的逻辑。 s 型函数 y, c 的 话是有标准人员选择更优的一个回复 y, r 的 话是较差的,回 mr 的 话是可以调节两个回复之间的差值如何?那如果对比结果显著更好的话,会增加梯度值,加快更新的一个速度。 number 二的两个 r m 模型的一个实现逻辑是怎么样的呢? number 二中的两个奖励模型侧重有用性啊和安全性。由于模型优化的最终奖励函数会将两个分数进行线系结合 啊。下面是它的一个这个关于有用性和安全性的这个流程的一个讲解啊,这个流程图的一个说明。那么 number 二中拒绝采纳的一个逻辑啊, number 二使用了一个训练流水线,同时使用 ppo 和拒绝采纳算法迭代的产生了多个 rha 模型。 从 v 一 到这个 v 五模型在拒绝采纳时会得到 k 个输出,并使用最高奖励的输出更新度,而 ppo 每次只基于单样本进行更新。 那么有监督啊,在监督微调的初始阶段之后,模型只使用拒绝采纳进行训练,然后再结合拒绝采纳和 p p u。 为什么需要 r l h f 替代方案呢?虽然 r l h f f 在 inshore 的 g p d 和拉玛尔论文中被证明是有效的,但是 r l h f 的 过程是比较复杂的。 r l h f 有 哪些替代方案呢? 那这个论文的话,它其实就提到了一种关于基于人类这个提供的规则列表自我训练的一种机制。于前面提到的这个 insurance gpt 论文类似也使用了强化学习的一个方法。那么图片中提到的这个红队的话,指的是在测试目标系统的防御能力,也就是外部或者内部专家模拟潜在对手的一个过程,通过模拟现实世界攻击者的战术和程序来挑战测试并最终改进系统。 然后我们来说这个替代方案二,它是这个提出了一种基于重新标记的监督微调方法 h i r。 该方法的话,在十二个 big bench 任务上优于 r l h f h i r 是 如何工作的呢?简而言之啊, h i r 的 方法包括两个步骤,也就是采用和训练。在采用步骤中, promote 和指令输入给 a l m 来获取获取答案。 根据对齐得分,在训练阶段适当的地方重新标注指令。然后的话,重新标记的指令和原始的 promote 用于微调大模型。 使用这种重新标记的方法,研究人员可以有效的将失败案例啊,也就是大模型创建的输出与原始指令不匹配的案例转化为有用的训练数据,用于监督微调。还有这个做一些监督学习, 那下面是它的这个流程。然后第三种方案的话,是直接偏好优化, 是具有这个 p p o 和这个二幺 h f 的 一个替代方案。其中研究人员表明啊,在二幺 h f 你 和奖励模型的交叉伤损失可以直接用于微调按摩型,根据它们的一个机制,使用 d p o 更加有效,而在响应质量方面通常也优于二幺 h f 跟 p p o。 那么第四种方案的话叫做 r e s t, 它是人类反馈强化学习一种替代方案,它使这个大模型与人类拼号保持一致。 r e s t。 使用采用方法创建改进的数据集,在质量越来越高的自己上面去迭代训练,以完善其奖励函数。根据作者的一个说法, 与标准的在线 r l h f 方法相比, r e s t。 通过离线生成与训练数据集实现更高的效率,但缺少与 insurance 或者 number 二种使用的标准 r h f p b o 方法的一个全面比较。 呃,然后是这个关于一些啊,第五种替代方案。最近的人工智能反馈强化学习研究表明, r l h f 奖励模型训练的评级不一定由人类来提供,而是可以有大模型生成 标准人员在一半案例更喜欢这个 r l a i f 模型,也就意味着两个模型的差距并不大。 r l h f 和 r l a i f 都大大优于纯通过监督指令微调训练的一个模型。 这项研究的结果非常的有用啊,也比较有意思,因为它基本上意味着我们可以更多的啊,这个基于 r l h f 的 训练更加高效和容易。然而的话, 这些 r l a i f 模型在专注于信息内容的安全性和真实性的定性研究上的表现还有待观察,而人类偏好研究仅捕捉了那个部分的这一点。 然后是 r 幺 h f 训练的一个过程。怎么选举最优的 checkpoint? 首先我们来说一下这个动机啊, r 幺 h f 训练的一个过程,因为 reward model 输出的只是一个近似奖励,导致并不能完全相信训练过程的一个 reward 的 变化。更高的 reward 的 不一定意味着更好的效果。大家可以去看一下这张图片, 这个横轴的话是训练模型和初使模型之间的一个 k l。 重轴的话为 reward, 分 数虚线的话是近似 reward, 实线的话是真实的 reward。 从上面这张图我们可以看到啊,随着训练模型和初使模型之间的 k l 越大,模型的真实分数会逐步提升,到达某个峰值之后逐渐减小。 但是这个近似分数与我这个 rewind 的 mod 打出来的分数的话,却一直在稳不上升啊,就是图里面的一个虚线。虽然的话在真实分数的曲线的最高点,也就是我们所期望的最优模型的时间点,但是的话现在问题就在于根本无法获得真实的一个分数。那我们如何找到这个最高点呢? 我们假定啊,真实的 rewind 曲线与当前模型和初识模型之间的 kl 存在某种关系。由于 kl 是 一个被实时计算的数值, 如果我们能找到这种存在的关系,那我们就可以找出真实的 rew 的 最高点对应的 k l 值是多少,从而就找出最优的模型。那么 open ai 帮我们找到这个计算公式,大家可以去看一下。 不同的训练方法对应的公式稍微有一些不同,其中的话 b o m 也叫 reject sampling, r l 使用 p p u。 我 们发现不同的训练方式对应的公式也稍有不同。 b o m 它会先让模型生成一堆 response, 然后再去利用 r m 从中挑出最好的几个回复用于后续模型的一个训练 公式里面最关键的就是三个参数啊,阿尔法,贝塔跟这个 d d 的 话被定义为初时模型和当前模型的一个 k l 开根号,这个比较好算。剩下的就是这个 a 跟这个阿尔法跟这个贝塔该等于多少。 论文中表示啊, alpha 和 beta 这两个值跟 reward mod 大 小以及和 reward mod 训练数据规模的因素有关。 alpha 和 beta 的 一个值 质变量法,为了探究 r m 的 大小与 alpha beta 之间的关系,实验固定的这个 actor 模型的大小。训练 r m 所用的数据级大小大概九万条。那么下面的话是使用 bond 去作为训练的一个方法。不同的 r m 大 小之间的一个实验结果, 那么不同的 r m 规模对应的 alpha 和 beta 的 一个值。根据图中给的点,我们挑选 e 七, e 八, e 九这三个规模的对应的 alpha 和 beta 的 这么一个值, 将上述参数带入到这个 alpha 棒的这么一个公式里面去,并尝试绘制成 rewind 的 一个曲线图,大家就可以看到下面这个结果。那么三种 r m 规模在零到三点五 k l 区间内对应的真实的 rewind 取现值 矩阵图的走势和论文中大致相同,证明该公式有效。从中中我们大致可以得出以下几个结论,相同训练数据下, reward base 越大, act 模型能够获得更加真实的 reward reward 它的一个 model 啊,这个越大, 能够支持模型在不偏离真实奖励的路途上就走得更远,即使在更大的这个 kl 处发生这个下降转折。当然,论文中的数据会存在一定的局限性, 规定在所有的任务,所有的规模都适用。不过这种研究 scaling low 的 思路以及提出用 k l 作为一种可能衡量学习程度的指标是非常有意义的。 除了上述这两个 r 跟 k l 之间的计算公式外,论文中还提了一些其他有借鉴意义的实验性结论。而 word model 训练数据集的 scaling low, 为了探究 r m data set 的 规模对最终模型的影响, 实验中固定在十二 m 的 一个 r m 进行实验,结果如下。从上图中可以看到啊, r m 的 数据级越大,对于最终的提升也就越大,但是数据级最少也需要超过两千, 因为如果训练数据极低于两 k 的 话,无论 r m 在 哪个规模,无论使用棒还是 r l, 对 于模型的最终提升都非常小。当然,论文中的二 k 这个数字只是在三 m 到三 b 大 小的模型下得出的结论,至于更大的模型大小是否还符合二 k 这个下限,我们就不得而知了。 然后是这个 policy model 的 scaling law 太君文 r m 的 一个 scaling law。 论文还对 policy model 的 大小做了对比实验文中选用一点二 b 和六 b 这两个大小的模型进行对比,固定 r m 大 小和十二 m, 结果如下,啊, 上面是一点二 b 和六 b 在 两种不同训练方式下面的一个对比训练。从上图我们可以得出两个结论, policy mode 越大,利用 r m 做提升的收益就越小。在 boom 下面一点二 b 模型提升大概是零点七分, 就是零到零点七六 b 的 模型提升大概是零点三五分。不过这是因为越大的模型初使分就较高,导致提升没有那么大。绝对分数上看来还是模型越大越好。 无论模型规模如何,最优的 reward 对 应的 k l 值是一样的,这一点比较反直觉。我们通常认为较大的模型应该能够更快地 hack 掉 reward model, 应该在更小的 k l 处就达到更高的这个 reward 峰值。但实验结果并非如此, 在 r l 实验中,两个峰值对应的 k l 几乎重合。 ok, 我 们再来回顾一下刚刚提到的一些这个面试题,再来总结。首先是这个 l m 的 经典预训练,拍不烂的话,主要是要考虑三点,就是在预训练阶段,模型会从大量的无标注文本数据集中学习到通用的一些知识。使用有监督微调时,优化模型以遵守特定的指令。使用对齐技术可以使大模型更有用且更安全地响应用户提示。 那么预训练的话,是利用数十亿到数万亿个 token 庞大的文本语料库对模型继续预训练,使模型能够根据提供的文本来预测下一个单词。 有监督微调,虽然 sft 训练目标和预训练类似啊,但是也需要模型预测下一个单词,它是需要人工标注的指令数据集的,其中模型的输入的话是一个指令,根据任务的不同,也可能包含一段输入文本输出为模型的期望回复内容。 有监督微调的一个训练数据集格式的话,大家可以去参考这种啊,就它是一个 insert 指令,再加上这么一个输出。 预训练模型跟有监督微调的一个区别,相同点的话就是他们每个训练目标都相同,模型需要根据提供的文本来预测下一个单词,不同点的话就是训练的数据量不同。有监督微调,它需要训练数据量比预训练小很多。训练数据格式不一样。有监督微调需要人工标注的训练数据。预训练的话,则不需要。 对齐的话,是要通过微调的方式将语言模型与人类的偏好、价值观进行对齐,这也是 l h f 机制发挥的一个地方。 r l h f 的 一个流程的话,主要有三步,一个的话是在预训练好的模型上进行有监督微调 s f t, 然后是在有监督微调模型基础上创建一个 reward mod 模型。基于 r m 模型,使用 p p o 算法微调 s f t 模型。 如果在一个预训练好的模型上进行有监督的一个微调,我们可以先收集一个 promax 集合,并要求标注人员写出高质量的回复,然后使用该数据及监督的方式微调预训练的一个基础模型。 如何在有监督微调模型的基础之上创建一个 r m 模型?对于每个 promote 要求有监督微调后的大模型去生成四到九个回复,再由标注人员根据个人偏好对所有的回复进行排序,虽然排序过程比较耗时,但是工作量还是比第一步的有监督数据集构建要少一些。 如何基于 r m 模型使用 p p o 算法去微调 s f t 模型呢?这是它的一个整个的一个过程。你首尔的 g p t 的 话,是一种基于强化学习的文本生成模型,它的核心原理主要是有两块,一个是 r l h f, 还有一个叫 reward shopping 啊,就是这个奖励塑造。 那么 number 二 chat 的 话是在第一步 r 幺 h f 微调上使用相同的指令数据,但是在第二步使用了两个奖励模型,通过多个阶段的不同进化,奖励模型也会根据 number 二 chat 模型出现错误进行更新,并且增加了拒绝采纳的一个步骤。 它的一个实现逻辑的话,就是标准的以数字 t p u 算法的思路就是对一个提示下的四到九个模型输出并进行排序。 那么 number 二的这个 margin loss 的 话,每次能看到两个它的一个回复的话进行对比, 但是它新增了一个叫 margin 的 一个概念啊,叫编辑,那么它对比结果的话可以显著更好,和这个好的不明显。 那么 number 二中的两个 i m 模型的一个实现逻辑的话,主要是有两块,一块是要测重有用性,还有一个是安全性,这个是它整个的一个两个流程的一个对比。 那么拉姆二中的一个拒绝采用的逻辑是什么样的呢?拉姆二中使用一个训练流水线,同时使用 ppu 和拒绝采用算法迭代的产生多个二幺 h 模型,从 v 一 到 v 五模型在拒绝采用时会得到 k 个输出,并使用最高奖励的输出更新梯度,而 ppu 每次只基于单样本进行更新。 在监督微调的初始阶段之后,模型只使用拒绝采纳进行训练,然后再结合拒绝采纳和 p p o。 为什么需要 r l h f 替代方案呢?虽然 r l h f 在 已知的 g, b, d 和 number 二论文中对证实是有效的,但是 r l h f 的 一个过程是比较复杂的,它是有哪些替代方案呢? 论文中提到了一种基于人类提供的规则列表中的自我训练机制,与前面提到了一硕人的 gpt 论文类似,也使用了这个强化学习的一些方法。那么替代方案的话是提出了一种基于重新标记的监督微调方法 hr, 这个方法的话在十二个 big search 任务上都优于 r l h f。 替代方案三的话是直接偏好优化是具有 p p o 的 一个二幺 h f 的 一个替代方案。其中研究人员表明啊,在二幺 h f 以和奖励模型的交叉商损失可以直接用于微调大模型。根据它们的一个基础,使用 d p o 的 话更加有效。 并且的话,啊,在响应质量方面通常也优于二幺 h p p o。 替代方案四的话是人类反馈强化学习的一种替代方案, 它使大模型与人类的偏好表示一致。 r e s t。 使用的材料方法创建改进的数据集,在质量越来越高的子集上面去迭代训练,以完善其奖励函数。根据作者的一个说法,与标准的在线 h f 方法, 如具有近端策略优化的 r l h f 的 p p o。 相比, r e s t。 通过离线生成的训练数据集实现了更高的效率,但缺少与 short g b t 或者 l h f p p o。 方法的一个全面比较。 那么替代方案五的话是这个,因为最近的人工智能反馈强化学习研究表明, r l h f。 奖励的模型评级不一定必须由人类提供,人士可以有大模型生成。那么标准员在一般案例中更喜欢使用 r l a h a i f 的 一个模型,那就意味着两个模型的差距并不大。 r l h f 和 r l a i f 都大大优于纯通过 监督指令微调训练的一些模型。下面是它的一个这个流程图。这项研究表明的结果啊,非常有用,更有趣,因为它基本预示我们可以 基于使用这个 hif 的 一个训练更加的高效,更容易。那么 r 幺 hf 训练的一个过程怎么样去选举最优的 checkpoint? 它的一个训练过程,因为 reward 输出的只是一个近似奖励,导致不能完全相信训练过程的 reward 的 变化。更高的 reward 不一定意味着更好的一个效果。大家可以看一下这张图,横折为训练模型和初试模型之间的 kl, 重折为 rew 的 分数虚线是近似的 rew 的 实线的话是真实的 rew 的。 从上图我们可以看到,随着训练模型和初试模型之间的 kl 越大,模型的真实分数会逐步提升,达到峰值之后会逐渐减小,但近次分数却在一直稳固上升。显然的话,在真实的分数曲线最高点,也就是我们所期望的最优模型的一个时间点。 那么现在问题是根本无法获得真实分数,我们应该如何找到这个最高点呢?我们假定啊,真实的 reword 曲线与当前模型的初设模型之间的 kl 存在某种联系 啊。所以说我们可以有一个计算公式去找到真实的 reward 最高点对应的 k l 值是多少。这个 open ai 提供了这么一个计算公式,那不同的训练方式对应的公式也稍有一些不同。那么这里会提到一个概念叫 b o m 啊,也叫 reject sampling r l 使用 p p o。 那 我们发现不同的训练方式对应的公式也稍微有些不一样。 boom 的 话,会首先让模型生成一堆 response, 然后再利用 r m 从中挑出最好的几个回复,用于后续的一个模型训练。 那这里的话,从上面这个曲线图我们就得出结论啊,相同的训练数据下, reward mod 越大, act 模型能够获得更高的一个 reward, 更真实的一个 reward。 reward mod 越大,能够支持模型在不偏离真实奖励的路途上走更远,也就是在最大的 k l 处发生下降转折。 我们可以得出两个结论, policy mod 越大,利用 r m r 做提升的这个收益就越小。 那么在 boom 下面一点二 b 的 模型提升大概是零点七分啊,右 b 的 模型大概提升零点三五分。无论模型 规模如何,最优的 reward 对 应的 k l 值是一样的,这一点比较反折确,我们通常认为较大的模型应该能够更快的 hack 掉 reward model 应该在更小的 k l 处就达到最高的 reward 峰值,但实验结果并非如此。 ok, 以上就是关于 大模型这个二幺 h f 相关面试题的一些分享,哈喽大家好,我们继续来分享 ai 大 模型面试系列。那么这套课程的话分为多个专题,包含基础篇、 rap 篇、微调篇、 transform 篇、 deepsea 篇、 a 政策篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。如果喜欢这套课程的话,欢迎多多关注一键三连今天要给大家分享内容是 大模型生成 sft 数据方法相关的一些面试题。那么首先 sft 数据集如何去生成呢? sft 数据集构建的话通常有两种方法,一个是人工标注,还有一块是使用大模型,比如说像 gpd 四来生成 人工标注对于构建垂直领域比较合适,可以减少有篇数据,但是成本略高。使用大模型生成可以在短时间之内生成大量数据, sft 数据集构建以及 sft 微调 padlan, 如下图所示。 比如说啊,像一些这个从文本标签到这个 insurance out put 啊,或者到这个 c 的 insurance, 再到这个 mo insurance, 再到 out put, 再到大模型,那这个的话是一个通用的这个 pipeline 啊,这个 off 这个 insurance 的 一个 turning, 然后第二块的话是 self instructor 片,什么是 self instructor 呢?那么这个的话是一个通过预训练语言模型来引导自己 并提高的这么一个指令遵循能力的这么一个框架。 self induction 的 这么一个处理思路的话,首先步骤一,作者的话从一百七十五个种子任务中随机抽取了八条自然语言指令作为指令,并提示啊 insurance gbt 生成更多的任务指令, 那么作者确定不做意中生成的指令是否是一个分类任务,如果是的话,他们会要求 insert 生成 gpt, 根据给定的指令为输出生成所有不可能的选项,并随机选择特定的输出类别,提示 insert gpt 生成相应的输入内容。对于不属于分类任务的指令,应该有无数的输出选项, 那么作者的话提出了输入优先的策略,首先提示 insert gpt, 根据给定的指令生成输入,然后根据指令和生成的输入生成输出, 那步骤三的话,基于第二步的一个结果,作者使用 insurance gpt 生成对应指令任务的输入和输出,采用输入优先或者输入优先的这么一个策略啊,有输出优先跟输入优先, 那么步骤四的话,作者对生成的指令任务进行了后处理,例如啊,过滤类似的一些指令,去除输入输出的重复数据,最终得到五百二十五十二 k 的 这么一个英文的一个指令。 那什么是 back translation 呢?那么回忆的话就是在传统的这么一个机器学习中,是一种数据增强的方法,比如说从中文翻译成英文,再从英文翻译成中文,这样的话生成的中文与原来的中文在语义上是一致的,但是文本不同。然而 s f t 数据生成的这么一个回忆, ok, 这个就是以上我们要给大家分享的关于这个 sft 数据及相关的一些面试题分享。今天要给大家分享内容是大模型负样本挖掘相关的一些面试题分享。 首先给大家罗列了一下一些常见的负样本挖掘相关的面试题,比如说为什么要去构建负样本以及负样本的一些这个构建方法包括随机采纳的一些策略方法啊, topk 复利彩样一些策略的方法,包括困惑,困惑度复样本彩样方法, sims 的 一些方法。利用对比学习微调方式构建复利方法。基于 批内复彩样的一个对比学习方法啊,以及相同文章的彩样方法。大模型辅助生成软标签以及蒸馏,包括一些辅助的一些知识。 首先我们为什么需要去构建复旦样本呢?那么在各类解锁任务中,为了训练一个高质量的解锁模型,往往需要从大量的获奖样本集合中采用高质量的复利, 再去配合正例一起进行训练。那么比如说第一种的话,我们常见的一个方法就是随机采用策略方法,这个方法是基于一均匀分布,从所有的获奖 doctor 中去 抽取 document。 这个作为复利存在的问题就是,由于无法去保证采样得到的复利的质量,所以经常采样得到会过于简单的一些复利,其不仅 无法给模型带来有用的信息,还可能会导致模型过拟合,进而无法区分某一些较难的复利样本。分析随机采用策略方法挖掘复利训练时对于 t 组的一些影响。对于随机采用方法,由于其采样得到的复利往往过于简单, 其会导致该分数接近于零,进而导致其生成的梯度捐值也接近于零,这样过于小的梯度捐值会导致模型不易收敛。然后是 topk 复利采用策略的一些方法 方法,基于一酌密解锁模型,对所有优选 document 与 query 计算匹配分数,然后直接选择其中 topk 的 优选的 document 作为复利优点的话,可以保证复利得到的 啊。采用得到的负利是模型未能较好的区分较难的一些负利,存在的问题是很可能将潜在的正利也误判为负利, 也就是这个假负利,如果训练模型去将该部分假负利与正利区分开来,反而会导致模型无法准确衡量快乐 document 的 语义相似度 分析 top k 负利采用策略方法挖掘负利训练时对于梯度的一些影响,由于其很容易采用得到语义与正利一致的假负利, 其会导致正负样本的右项值相似,但是的话左项符号相反,这样会导致计算得到的梯度方差很大,同样会导致模型训练不稳定。 困惑负样本采用方法 sims 方法动机的话,就是在所有的负力后选中与宽容的语义相似度接近于正力的负力,可以同时较大的这么一个梯度均值和较小的梯度方差 是更高质量的。困惑复样本方法的话,就是对正例与相似度接近的困惑复样本进行采样。采样方法的一个特点,与快乐无关的 document 应该被赋予较低的相关分数, 因此提供的信息量不足。与宽容的话,很可能相关的 document 应被赋予较低的相关分数,因此可能是用假负利。与正利与异相似度接近的 document 应该被赋予较高的相关分数,因此既需要被学习,同时是假负利的概率相对较低。 困惑样本采样分布通过以上分析可得在该采样分布中,随着快乐与优选 document 的 相关分数与正利相关分数的差值的缩小, 该优选 document 被采样作为负利的概率应该逐渐增大。顾客将该差值作为输入,配合任意单调递减函数 f 即可实现 顾客设计采样分布,如下所示,下面是这个计算公式,那么其中的话,为了控制该分布密度的一个超参数, b 的 话为控制该分布极点的一个超参数, 然后这个 d 加的话是一个随机采样的正例样本递减的话是 top k 的 一个负累,通过调节 k 的 一个大小,我们可以控制 该采药分布的一个计算开销为其。那下面的话是为该采药方法具体实现的一个伪代码,那可以看一下这个视例。 然后如何去利用对比学习微调方法去构建复利方法?对比学习是优化向量化模型的常用训练方法, 目的的话是为了优化向量模型,使其向量化后的文本相似。在向量空间距离低,不相似。在向量空间距离远。文档召回场景做对比学习有监督需要三元组问题,文档正力,文档负力。文档正力的话是和其问题密切相关的文档片段,文档负力的话是和问题不相关的。文档片段可以是 精挑细选的,也可以是随机出来的。构建方法的话,如果是随机出来的,完全可以用同一个 batch 里面其他问题的一个文档正例当做某一个问题的文档复利。如果想要效果好,还需要有较大的 batch size。 损失函数的话是基于 p 内赋样本的一个交叉商损失。如下工具啊公公式所示, q d 的 话分别是表示问题和文档正逆对应的向量, r 的 话为温度系数。 sim 函数可以是 cos 相似度或者是点击 实现方法,分别将 b 个问题与 b 个文档片段通过向量化模型变成向量形式,然后通过矩阵乘积计算每个问题和文档的相似度, 最后通过交叉商损失进行优化。如果文档复利仅来自同一个外置的其他样本的文档正例,那么 b 一 等于 b 二。如果人工的给每一个样本赔 k 个文档复利,比如我们可以通过南历挖掘得到,那么 b 二的话等于 k 加一乘以 b e, 那 么这个 q request 啊 requests 是 这个问题的一个矩阵维度,然后下面的话是文档矩阵,然后这个里面是计算相似度维度的这么一个这个相似度矩阵的这么一个维度。 那这里我们通过这个呃交叉上损失函数的一个标签考虑。文档复利不仅来自于这个 batch name 其他样本的一个文档真理,也可能人工给每个样本构造一些文档复利。 那么在 b g r 论文中做基于批内赋样本的一个对比学习时,同时考虑了多任务问题。之前也介绍过了, 不同任务加的 promote 是 不同的,如果把不同任务的样本放到一个 batch 里面,模型训练时就容易变得偷懒的一些情况,有时候会根据 promote 内容来区分正负力,降低任务难度,这是不利于对比学习效果的。因此的话可以通过人为的规定同一个 batch 里面 只能出现同一种任务的样本缓解这个问题。实际应用场景下,如果任务的类别不是非常多的话,最好还是任务训练一个模型,毕竟现代化的模型也不大,效果会更好一些。 然后是基于批内赋采用的对比学习方法,本质的话就是随机选举文档复利,如果能有针对性的可以找到文档正例比较像的文档复利模型的话,就更难区分这些文档复利加到训练里是有助于提高对比学习的一个效果的,就好比我们只有不断的去做难题,才能更好的去提高考试水平。 任何方法在文档向量空间找到文档,站立最接近的文档片段当做啊文档复历训练向量化模型,模型更新一段时间之后,我们去刷新文档向量,寻找新的文档复历继续训练模型。 然后是相同文章,采用方法思路的话,就是文档。正例所在的文章里,其他文档片段当做难复利,毕竟至少是同一主题的。当随机样本比起来比较难区分。存在的问题就是时机应用场景下,如果你的数据比较脏,蓝利挖掘的用处可能就不大了。 然后是通过大模型辅助生成软标签以及蒸馏的一些策略方法的话,就是根据用户问题召回的相关文档片段,最终要为大模型回答问题服务的。 因此大模型认为召回的文档是否比较好很重要。以下介绍的方法是 b g r 提出的,对于向量化模型的训练,可以让大模型帮助生成样本的辅助标签, 引导向量化模型训练。辅助标签的生成可用如下公式表示,在已知大模型需要输入的标准答案下,分别将问题和各个文档片段 c 放入大模型的 promote 中, 看大模型生成的标准答案的一个概率 r 大 小,当做辅助标签, r 越大,表示其对应的文档片段对生成的正确答案的贡献越大,也就越重要。 回答问题达标要求有点太高,然后很多实际应用场景的话,我们并没有拿到大模型回答的标准答案,同时的话,对每个问题的后续文档 片段都计算一个二,开销貌似有点大,那下面的话是一个计算公式。优化策略的话,我们可以利用大模型生成的标签以及 k l 散度, 那么论文这个形式的话,其实不能叫做 k l 散度。对于模型进行优化, p 为某一个问题。 q 对 应的后续文档片段 p 的 一个集合一的话表示向量,然后这个 括号这个的话,它是表示这个相似度的一个操作。 w 的 话是对所有后选文档 p 对 应的辅助标签指 r。 经过 softmax 变换后的本质是,如果大模型认为某个文档片段越重要,给他的优化权重越大, 为了进一步稳定蒸馏效果,还可以对后选文档片段根据 r 进行排序,只用排名炮后的样板进行优化。 那么辅助知识啊,这提到一个梯度计算的一个方法,以稠密检测到的 bce 的 rose 为例,正例与采纳的复历在计算完与一相似度分数之后,均会被 softmax 归一化,之后计算得到的梯度如下所示。 那么这个的话就是经过了 softmax 归一化的这么一个与一相似度的一个分数。 ok, 我 们再来回顾一下刚刚提到的一些面试题。首先,为什么要去构建复旦样本呢? 因为在各类解锁任务中,为了训练一个好的高质量的解锁模型,往往需要从大量的获取样本集合中采用高质量的一些复利,配合正例一起进行训练。那方法的话就是直接基于 均匀分布,从所有的后选 document 中随机去抽取 document 作为复利。存在的问题就是,由于无法保证采用得到的复利的质量,经常会采用得到过于简单的复利,其不仅无法给模型带来有用的信息,还可能会导致模型过黏合,进而无法区分较难的一些复利样本。 那么 topk 复利彩样策略基于稠密解锁模型对所有候选 document 的 与 query 计算匹配分数,然后直接选择其中的 topk 候选 document 作为复利, 那很可能会将潜在的正利也误判为负利,也就是所谓的假负利。那么困惑负样本采用方法 sim a n s 方法,它的一个动机是在所有的负利后选中与 cryo 与异相似度接近于正利,负利可以同时具有较大的梯度均值和较小的梯度方差,是更加高质量的。困惑负样本 方法的话,就是对于正利与异相似度接近困惑复利样本进行采样,它的一个特点的话就是与快乐无关的 document 应该被赋予较低的相关分数,与快乐很可能相关的 document 应被赋予较低的相关分数,因为可能是假福利,与正利与异相似度接近于 document 应该被赋予较高的一个分数 好。然后是利用对比学习微调方式去构建复利方法,它的目的是优化向量化的模型,使其向量化后的文本相似。在向量空间距离近不相似,在向量空间距离远完全可以啊。在同一个批次里面, 其他问题的话,文档这类当做某一个问题的一个文档复利,如果想要效果好的话,还需要有较大的这么一个 size。 那么基于批内赋采样的对比学习方法,如果能有针对性的找到和文档正例比较像的文档复利,那加到训练里面是有助于提高学习的一个效果的。 然后还有一块是相同文章采样方法,它的一个思路是文档正例所在的文章里,其他文档片段当做难复利,毕竟是至少是属于同一主题的,和随机样本比起来比较难区分。它的存在的问题是实际应用场景中,如果你的分数值比较脏, 能力挖掘用处不大。方法的话啊,就是关于大模型辅助生成软件以及蒸馏。他的方法是根据用户的问题召回相关文档片段,最终要为大模型回答问题服务的。因此大模型认为召回的文档是否比较好很重要。 以下介绍方法是 b g r 提出来的。对于向量化模型的训练,可以让大模型帮助生成样本的辅助标签,引导向量模型训练。辅助标签生成可以用这个下工具表示。 在已知的大模型需要输出的标准答案下,分别将问题和各个文档片段 c 放入大模型的 promote 中看大模型生成的标准答案的一个概率 r 大 小当做 辅助标签 r 越大的话,表示其对应的文档片段对其深层正确答案的一个贡献越大,也就越重要。存在的问题的话,达标要求有点太高,很多实际应用场景中,我们并没有没法拿到大模型回答的一个标准答案。同时对每个答案的后选文档片段都计算一个 r, 开销貌似有点大。 那优化策略的话,我们可以利用大模型生成的标签以及 k l 散度对模型进行优化,那么 p 为某个问题 q o 生成的后选文档片段 p 的 一个集合 一的话是表示向量,然后这个的话是表示相似度操作 w 是 对所有的后选文档 p 对 应的辅助标签值经过 r 萨夫 max 变化之后的值。 它的本质的话,如果大模型认为某一个片段越重要,它给它的优化权重就越大。为了进一步稳定蒸馏效果的话,还可以对后选片段偶尔进行排序,只用排名靠后的样本进行优化。那么剔漏计算算法 放这个是以稠密解锁常用的 b c e rose 为例,正例与采纳的复利在计算完与异相四度分数之后均会被 sophomax 归一化,之后的计算得到梯度的话,大家可以参考下面这种公式。那这个的话是经过了 sophomax 归一后的这么一个与异相四度的分数, ok, 以上就是关于大模型外挂知识库优化啊附样本挖掘相关的一些面试题分享。


hi, 我是 高林,我要打出一波很难的操作,打出来就是赢啊老师,我反算了哦 林你是男的女的啊?我是女孩子哦,好吗?那进行禁止打排位了哦,好吗?如果你对处罚表示不满,可以找高林工作室好吗?你瞅瞅你那个样子吧,七十多岁浓妆艳后一模一样。还欺负我。你被毕业了?