其他通用大模型他是底层,是经过强化学习和思维列算的,你去问他问题的时候,他并没有理解问题本身,他实际上是在这个这个相当大的这个数据集上,就在他认为是最匹配的,他就给你输出了,这样就导致有患者出现。 我们这个大模型呢?区别就是说几乎没有幻觉啊,理论上可以零幻觉、零失误,精密推理,他每一步都是在塑料轨道上跑。
粉丝142.6万获赞9561.9万

我们的大模型相当于你在你的科研团队加入了一个天才数学家,如果你单独请一个数学博士可能花费不多,但是来了数学博士,他不一定能破解定律,而咱们模型已经达到这个高度了,已经能破解定律了, 而且我有,我们有信心每一年都能解决一个。大家可以电脑上 epac 点 com 企业官网就可以看到论文程序下载菜单了。


各位同学大家好,今天跟大家分享一下大语言模型的一个训练以及工作原理啊,以及包括一些很重要的概念。在大语言模型这个领域, 首先呢是有这个两类大圆模型,一个所谓的就是基石大模型以及一个微调大模型, 还有一个啊监督学习的概念。另外呢我们会介绍一下大语言模型训练啊,这个数据级是如何是如何标注的,包括这个啊,即使模型以及这个啊,微调模型。 另外呢,这两种模型啊,即时模型以及这个微调模型啊,他们的这个啊,训练原理是怎么样的?最后呢,我们会讲一下这个啊,借助这个 prompt 啊,借助 prompt 啊,尤其就是一些模板啊,我们怎么来 跟大模型一个交互啊,从而达到开发比较复杂应用的这么一个结果。 好的,下面我们开始。首先呢,说起大语言模型啊,相信大家都不陌生啊,他有着很强的这个文本生成能力啊 啊,这里我们给出了一个例子啊, i love eating 啊,就是比方如果这是我们的一个 prompt, 对吧?我们在这个单元模型里面 prompt, 那后面这里给出了三种可能的一个文本生成,也就是大圆模型可能会给出这么一个文本生成,那像这种情况,或者说这种能力,大圆模型他是是怎么实现的呢?他怎么就具备像 这种能力呢啊啊,解决这个问题呢,我们先要引入一个概念,也就是所谓的监,也就是所谓的监督学习的概念,监督 学习啊,我们说是积极学习的那一种啊,我们经常讲监督学习啊,无监督学习啊,后面还有所有的字,监督学习办监督学习等等啊,但是监督学习应该说是我们这个啊, ai 领域啊,最有力的工具啊,模型啊,训练最有力的一个工具啊。 首先呢监督学习呢啊,顾名思义监督监督啊,他就是说我们经常会两个 概念,一个,所以我们经常讲初中学里面 x 和一个啊, x 就是自变量啊, y 就是音变量啊,我们这里可以理解为啊, input 是 x, output 是 y 啊, 同样我们这里的 output 呢啊,会跟我们后面的所谓的标注结合起来,实际上就是标注啊,就是标注啊,那我们这里给出了一个例子啊,是一个自然语言的一个情感分析啊,一个分类问题,或者是一个 意图啊,一个识别问题啊,我们看一下啊,三明治啊,他的这个场景呢,是酒店用户啊,对酒店的一个留评,一个评价 review 啊, 经常会升为啊,我们家啊正面评价,负面评价,以及啊这个啊中性评价啊,三明治很棒啊,这个我们会被认为是一个 positive 啊,正面的一个评价,服务响应慢菜也很一般啊,这一听呢,应该就是一个 neckty, 他们家的茶太棒了, positive, 有史以来吃个最美味的披萨, positive, 对不对?这样,我们这四条啊,这个样本来看呢, input, 你看看这是输入的内容,那后面呢,我们会被就会被我们啊这个 标签标注为啊,正面的,负面的,正面的,负面的啊,这样呢,就通过这种关系呢啊,实现了所谓的我们 刚才这项目讲的 x 和 y 之间这么一个映射关系啊,所以说监督学习他的一个是怎样大体的一个过程呢?也就说首先是要有一个啊,标注的一个数据级啊,这个这个,这个,这个,往往是我们啊做这个监督学习里面啊,工作量最大的部分。 第二步在标注数据集上来训练模型啊,第三步啊,就是训部署和钓鱼模型啊,这个在标注数据集上啊,训练模型 啊,应该说啊,这个都跟我们传统的机器学习都是一样的这个过程啊,啊,不管说是传统的机器学习,还是现在的所谓的我们经常讲大,大模型啊, 大在哪里?首先大在参数啊,大在这个啊,这个数据级对不对?他的这个量级大,算力大啊, 参数大,对吧?他的这个所谓的 was 啊,这个知识处知识的这个呃,落地呈现方式,就是他的权重啊,就是 was, 就是一个参数。好, 所以说我们说啊,大语言模型啊,它的这个工作原理是什么呢?我们是这样来总结的,大语言模型采用监督学习的这个方法,不停地预测下一个 word 啊,这里你备注了一下啊,我们 word 后面我们会讲啊,实际上是 token 啊,实际上是 token 啊, my, 这里有一个例子啊, my favorite four 的 is backgo with cream, cheese and locks 啊,我们以这句话为例呢啊,大原模型它是怎样来给大家啊,来训练出啊这么一个生成结果的呢? 那我们看啊,他会是啊,在这一段话里面会结成很多个片段,很多个片段,或者是把它啊生成若干个样本,大家可以看啊, my favorite food is a 啊,把它作为输入的时候呢啊,我们后面的输出啊,标注为 bagel 啊,第二条 my favorite food is a bagel 啊,这个我们作为输入入的时候呢啊,后面的位子啊,就会是我们的一个标注的输出。 my favorite food is a bagel with 啊,作为输入的时候呢啊 cream 就是我们的一个标准的一个输出啊,所以说啊,大语言模型采用监督学习的方式,不停的预测下一个 token 啊,这就是大语言模型是文本生成啊,它的一个原理 啊。讲到这里呢,我相信大家对这个啊大语言模型啊,我们讲我们现在讲的大语言模型,往往是啊狭义的啊,就是是自然语言模型, 在我们的自然语音模型有很多种任务啊,有很多种任务啊,比如说啊,这个机器翻译啊,啊实体识别啊,啊情感分析啊,文本生成啊,等等等等等等啊,那这些 这些任务啊,这些任务,或者说是相对应的这些数据级啊,相对应的这些数据级,他是如何标注的?大于模型他的训练啊,这个训练数据级是如何标注的呢啊,我们这里啊给出一个例子啊,给这个若干个例子啊,根据这个 啊,这个任务的类型不同啊,我们都给了一些视力。上面一部分呢,是稍微简单啊,文本比较短一点的例子啊,下面一个啊,是一个金融行业的一个啊,数据的一个例子啊,嗯, 我们看看一下,我们简单看一下啊,第一个情感分析啊,就是跟前面酒店这个是一样的一个场景,正面情感,负面情感,正面情感,负面情感啊,这边呢我们会认为是一个输出的一个标注的一个 y 啊,输入呢? input x 啊,这个文本生成呢啊,就是这算是一个啊,怎么 讲一个提取式任务,今天啊,这不能算是提取式任务,不好意思,讲错了啊。嗯,今天天气很啊,我非常的预测晴朗,晴朗这个部分呢,我们会作为一个啊,输出的一个 y 啊,标注为输出 y, 大家可以看一下啊,我喜欢篮球这个电影讲述了一段爱情故事,这个产品的特点是轻易 轻便,易携带等等等等啊,下一个文本摘要,这篇文章讲述了如何提高工作效率,棒方法啊,这是一个提取式的任务啊,他会被从长到短提高工工作效率的方法啊,等等啊,下面一个更常见的啊,问答系统 qa 啊, qa 数据级。 什么是人工智能?人工智能是种模拟人类智能系数 qa 这种啊,数据集难啊,可能是我们啊,在实际生产应用或者是微调模型的时候啊,是最常见的啊,跟我们跟我们啊,实际的很多企业 业务是最最相关的啊,下面我们给出一个稍微复杂一点的例子啊,是一个金融行业的一个例子啊,一个输入这么一大段文本啊,讲的大概是一个嗯,金融行业的术语啊,珠宝业务如何如何如何公司营销啊, 完了,最后我们也是一个提取式的任务啊,上篇文章的啊,总意识是讲了个什么问题呢?输出,我们被认为这就是一个标注,就是啊,这个数据集呢,就是这样来标注的。嗯,讲到这里呢,接下来呢,我们会讲一下啊,这个一开始我们讲 两类大语言模型啊,一个就是所谓的这个 base model 或者是 foundation model, 还有一个就是所谓的反 to model 或者是 instruction to model 啊,就是微调模型啊,嗯, 先讲啊,基石模型啊,或者叫预训练大模型啊,前面我们讲了啊,这个大模型呢,都是来预测下一个 word, 哎呀,实际为 token, 对不对?我们这个基石模型呢,就是这样的训练的啊,他的训练呢,就是数据,包括他的标注就是这样的,就是刚才前面讲的啊, 一段话来预测下一个下一个 token, 或者下一个单词啊,实际上是单词,实际上是 token 啊,我们会标注。 这里有一个例子,很久很久以前,森林有只独角兽啊,跟他的朋 一起住在森林里面啊,这是这种场景的啊,可能这就是一个故事,对不对啊?这个在基石模型呢,这个预训练数据机啊,就是可能是有很多这样类似这样的文本,我们经常讲啊,是海量文本的基础上来训练的,预训练啊,但是对于下面这种场景啊, what is capt of france 啊,下面的输出啊,往往是因为互联网上面啊,这样的文本呢,接下来呢,很有可能是 what is france largest city, what is france population, what is the currency of france。 就是说啊,当你 输入 what is capital of france 的时候啊,模型可能下面的生成是接下来的 what is france 的 largest city 等等等等,因为它的啊,训练的数据级啊,就是这样一个,就是这样,一个一个一个 一个一个一个一个分布,所以他的生成啊,很有可能是这样的,但是这样的输出啊,明显并不是我们想要的,是不符合我们期望的,那怎么办呢啊,那就是办法就是微调啊,就是微调, 所以说我们接下来讲这个啊, instruction tuned l o m 指定微调大模型, 那这个从这个基石大模型啊,怎么到这个微调大模型啊,这个中间他是怎么来做的呢啊? 首先我们讲啊,就是基石大模型是在海上的数据啊,就是预训练好啊,预训练好之后。而微调模型呢,是在这个啊,在预训练的大模型的基础上啊,再来进一步的训练啊,这个里面会有一个 所谓的哦牵引能力的啊,这么一个概念在里面啊,第一步啊,我们讲啊, phantoon 啊, example of where the output follows in the import instruction, 也就是说啊,微调是基于就是这样一个数据集啊,这个数据集里面就是我们前面讲的啊,会有一个 input, 一个 instruction 啊,就是说啊,会列明这个 input 和这个 output 也就是标注之间的一个关系啊, 我们这里讲了啊,指定数微调啊,标注数据啊,监督学习啊,所以说啊,都是一个监督学习的一个一个方法啊,这两种模型的一个啊,训练 啊,后面第二步啊,是在第一步完成之后啊,我们会去去去评估啊,这个微调的一个结果 啊,去过用通过用户评价来反馈说啊,拿数据去去评估啊,就说他会对他对他的深沉,对他的对大冒险的回答啊,你可以给他做做一个打分的一个动作啊,我们这里会有呢, helpful, honest and harmless, 对不对?这样做的结果呢?啊,是说是要为了下一步做准备啊?下一步是什么呢?也就是我们所讲的这个强化学习的概念啊。强化学习的概念就是说我们要去鼓励 大模型啊,能够做出更好的就评分更高的一些回答啊。好。