00:00 / 07:51
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:43
连播
清屏
智能
倍速
点赞5
00:00 / 02:34
连播
清屏
智能
倍速
点赞5329
00:00 / 04:10
连播
清屏
智能
倍速
点赞334
00:00 / 01:29
连播
清屏
智能
倍速
点赞NaN
00:00 / 03:29
连播
清屏
智能
倍速
点赞475
00:00 / 00:23
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:32
连播
清屏
智能
倍速
点赞NaN
00:00 / 04:11
连播
清屏
智能
倍速
点赞138
00:00 / 03:13
连播
清屏
智能
倍速
点赞18
00:00 / 00:18
连播
清屏
智能
倍速
点赞4
小五3周前
AI训练必须懂的强化学习阶段,具体工作内容!! 在完成有监督学习SFT阶段,我们来说一下模型训练最后一个阶段强化学习RLHF。前面模型经历了,无监督和有监督学习阶段之后 我们想让模型可以自主学习,强化学习可以理解为让模型自主学习 先说强化学习的定义:强化学习最重要方式依赖人类反馈,然后优化语言模型,这个阶段重要的依据是 人类的反馈,它的反馈与我们有监督微调SFT阶段的 人类反馈不同,SFT阶段我们只需要投喂优质的数据即可。 模型通过不断进化学习可以回复对的内容,其实在有监督学习阶段模型已经可以学习对的内容了。 但是我们希望模型 可以回复的更优质、更好,我们可能会让模型生成3个或者5个内容,在这个5个内容里,我们会给模型生成的内容排序,谁好谁坏,模型只需要得到谁好谁坏的反馈,然后自主学习。通过反馈让模型下一次生成的内容更好,例如 这一次最高分是4分,下一次所有的回复都要达到4分,类似我们来鞭策模型,让模型自己学习。 总结一个话去说,让AI能够从人类反馈中自主学习,这是一个非常重要能力,我们需要它可以自主学习,让模型能够自循环。 在这个阶段,我们如何让模型自主学习? AI训练师可以理解为模型的老师,我们在过程中逐步驯化它。在这个过程我们会训练一个小模型,通过前期几万次对话和多次训练,训练出来的小模型。这个小模型非常关键,它不是我们日常生成对话类型的模型,而是代替我们作为一个小老师的存在,它的作用就是给我们基础的大模型打分。 例如大模型一次性生成三五个内容,小模型就会对其打分。只要训练出这个小模型,就能实现自循环。这就是如何实现让大模型自主学习 我们需要训练一个小模型,作为老师对,大模型进行评分。例如,大模型一次生成三个内容,我们就会进行评分:第一个是谁,第二个是谁,第三个是谁,依次循环, 也会对他们进行打分制这次最高分是3分,下次他的最高分可能变成4分或者5分,依次让模型自主提升和训练。在这个过程中,让模型自主思考如何表达到最优秀和最好,这就是模型自主学习的过程。 我来介绍一下这个小模型,它有个专业名词,相当于它来监督大模型,因此称为奖励机制,让大模型进行自主学习,这里有一个专业名词,reward model。它是我们未来工作中强化学习阶段最重要的一个项目就是训练reward model #AI训练师 #ai训练师就业 #职业 #ai #DeepSeek
00:00 / 04:25
连播
清屏
智能
倍速
点赞3
00:00 / 04:16
连播
清屏
智能
倍速
点赞23