粉丝199.2万获赞2036.7万


家人们,,现在是 ai 时代了,你要是还不会用 ai, 真的很容易被淘汰了。。为啥这么说呢??你看手机里的抖音,是不是还是黑图标那个版本??再看看我用的这就是抖音推出的全新 ai 抖音 app, 图标是白色的。 把 ai 和短视频深度融合。,还有 ai 搜索和深度思考模式,实现一站式搜索体验,全程不用切换页面,超方便。。看看首页,就是智能专列展示视频,光看封面标题,就能精准找到想看的内容。。 重点来了,下面这个 ai 搜索框,就在二十四小时待命的私人小助理,生活里遇到任何问题,他能瞬间给出解答。,比。 如果家里有很多塑料空瓶子,有大的有小的,怎么废物利用??打开深度思考模式,,很快给出了一些实用环保的方法,还可以做手工,要是文字看完还不清楚的,别着急。。 ai 抖音 app。 还会贴心推荐很多博主的实操视频,一步步教你怎么变废为宝,翻列展示更清晰更直观。。你搜完后,点击左下角的返回键,就可以退出搜索继续浏览了。。不管是刷首页还是看图文视频,不用切换页面,直接点击下面搜索框,随时能边刷边解答,搜索一步到位。, 节省了一大半时间了。。比如,为什么家里不建议安装监控??深度思考后, ai 回答无缝嵌入当前页面,给出了一些常见的反对意见和潜在问题。。 不仅有文字说明,,下面还会推荐很多博主视频图文参考,内容清爽无营销,,每一条刷到的都是干货。。这么牛的 ai, 抖音 app, 谁用谁爱上啊!。


估计好多人都会很好奇啊,这款白色抖音和黑色抖音两者的区别到底是什么??这款白色图标的 ai 抖音 app 呢,它是黑色图标抖音做出的全新升级,在原抖音的基础上啊,又加上了强大的 ai 工具,听好了,家人们啊,是升级啊! 它里边的功能超炸裂,现在市面上还没有哪一款软件能够做到边刷边问,而且同时具备深度思考和一站式的搜索解答,而且它的页面是双列视频展示的,这样呢,我们就能够通过标题看封面,一眼啊,就能找到你想了解的信息。 当我们遇到不懂的问题,直接就在下方 ai 搜索框进行提问。比如说啊,今年的育儿补贴申领什么时候开始申领??申领的步骤是什么样的??别忘了啊!打开深度思考, ai 大脑飞速运转。 很快呢,就会给我们整合全网的信息,,把详细的答案给我们列笔出来。,不仅只有文字指南,下方还有各大视频博主做出的视频和图文参考,其中呢,更不乏一些专业人士。! 答案呢?不仅非常靠谱,还很接地气,而且有新的问题啊!无需反复跳转页面,直接在下方对他进行追问,当下便宜、适合家用的电车类型都有哪一些??我需要性价比超高的。! ai 在收到你的指令之后,很快就会做出反应,如果你不喜欢看文字,,还有这种更清晰详细的图解版解答,给我们进行一一对比,哪怕是一个不会看手机的人啊,,也能够看的清清楚楚。。 明明白白它这里边的功能啊,真的超赞,,而且完全免费。。 ai 抖音 app 全能的使用工具,给你带来超棒的一站式搜索体验。。

你不会还在用这种黑色的抖音吧??你来看一下,我已经用这种白色图标的抖音了。那为什么我们两个图标会不一样呢??因为我用的是全新升级的 ai 抖音 app。 可以刷抖音的同时,有任何问题,直接在下方搜索框向他提问,就可以一站式搜索。。。比如说,我想买一辆两千块钱的自行车,不知道选哪个品牌好??你只要输入问题,深度思考后,, ai 抖音 app 立马会给你详细的回答。。而且啊,,还罗列了符合预算的车型以及他的优缺点。。 同时啊,,往下滑还会有相应的参考视频,双列的展示,一目了然,非常直观。。一眼啊就能发现你想要的信息,,就省去了一直来回比价格的烦恼。。 ai 懂 app, 能够高效的帮你对比浏览当前页面的时候,有任何新的问题,不用跳转页面,随时换台。。比如说中秋马上到了,想带家人出去玩,不知道去哪??继续问附近有哪里适合一家人出行游玩的地方。。 ai 抖音 app 会立马给你搜索当地好玩的地方,这就是 ai 时代刷视频的新体验,能娱乐,还能解决所有的问题,关键是还是免费使用的。,真的很赞,你们都快去试试吧!!

你不会一直在用这个黑色抖音吧??你看,我们的已经抢先用上了这个白色抖音了。,你是不是很好奇,为啥你给我的抖音他不一样呢??这个白色跟黑色到底有啥区别呢??收不收费呢??首先啊,,他是完全免费的,不限制使用次数,,而且功能还非常强大。。 它是抖音全新升级后的 ai 抖音 app,, 里面融入了 ai 大脑,而且还能深度思考,可以多元化解答生活、购物、工作多种问题,,成为 ai 时代刷视频的新体验。。里面智能双列推荐的内容,,更加方便筛选想开的信息。。 而且不用像往常一样一条条被动刷视频。。我们在刷视频的过程中,突然想到一个问题,下方搜索框可以直接提位,比如说国庆假期想回老家买不到火车票怎么办?? a。 快速给出解答,各种买票的方式和攻略呈现在你的眼前,,清爽明了,一目了然。。不仅有文字解答,,下方还帮我们推荐了购票的视频攻略,视频都是双列呈现的方式,,没有营销的干扰。。 推送的每一条都是干货满满。,随时想到新的问题,,下方搜索框可以接着喂,,随时想到随时喂,,双链刷视频可以随时切换。。 哪怕我们正在看视频的过程中,你遇到了问题,不需要切换任何界面,下方搜索框可以直接发起提位。。比如说,五百元以内值得入手的儿童手表都有哪些?? ai 瞬间帮你罗列出来。符合你要求的儿童手表,从品牌、价格、参数、功能等等啊,非常的清爽明了。。 下方还有视频推荐,文字加视频一站式解答,这就是 ai 抖音 app, 打破传统的搜索复杂操作高效又便捷的搜索体验,让我们遇到各种问题,不用四处求人,也能找到精准答案。。

浙江大学 dc 系列专题公开课第三期语言解码双生花人类经验与 ai 算法的镜像之旅主讲人陈静远 现在开始上课,各位同学,各位线上的朋友,大家晚上好,欢迎大家来到浙江大学 dip six 系列专题线上公开课,我是教育学院陈静远。 今天我报告的主题是语言解码双生花,人类经验与 ai 算法的镜像之旅,我们将一起探讨人类语言 ai 算法与智能技术的交汇, 这是我今天报告的题纲。首先我们将一起探讨人类语言的奥秘,看看人类是如何通过语言的解码来理解世界的。语言是人类 最伟大的发明之一,语言造就了人类,人和动物的根本区别就在于人具有创造性的去应用语言来进行沟通的能力,那么语言也赋予了我们人类智慧,给我们的思维提供了一个交流的平台,也是人类进行合作的纽带。 因此如果想要实现通用的人工智能,去理解人类所使用的那些不太精确,可能有奇异,甚至说是混乱的语言,则是一个非常有效的一个途径。 那我们每天都在大量的使用这样的语言,那大家是否想过我们的大脑是如如何的去理解这些文字符号的呢?比如说当我们听到一句话的时候,我为什么我们就能够瞬间明白它的含义, 这背后隐藏的是怎样的一个奥秘们呢?那下面我们就通过一个例子来看一看。 比如有一天你在放学回家的路上,你遇到了一位同学,他迅速的走着,边走边回头跟你说,下雨了,我要赶紧回家,那他的话你还没有听完,他就快速的消失在这个风雨当中, 那即使在这个场景中,你想一下,即使你没有听到他所说的完整的内容,你就大概可以猜测到他应该大概率是要回家去收衣服,而不是去啊,买咖啡啊等等这样一些其他的行为。 那这是为什么呢?那是因为在我们人类的大脑中,基于我们大量的学习,基于我们所总结出的经验,像下雨家还有收衣服这些 词语在我们的大脑中已经建立了固定的神经链接,因此当我们听到下雨和回家的时候,我们就会自然而然的去想到收衣服这样一个事件, 那么有时我们不仅可以理解句子本身的含义,甚至还还可以去联想到这个背后的一些相关的后果, 比如说针对还是针对下雨我要赶紧回家收衣服这个例子,我们会想到如果这个人不及时回家的话,那么他家的衣服可能会被淋湿等等这样的一些即使没有发生,而是对未来的一些推测。 那么从这个例子我们就可以看出,人类大脑他在理解语言的时候,实际上是去理解语言中的每一个单词的意思,以及将这些单词 进行组装,从而得到对句子的意思的理解,甚至能够推断出句子背后所蕴含的含义。 因此我们想要从这个例子中想要说明的是理解语言的基础,首先是要理解所组成语言的词语以及这些词语之间的关联关系,那这些词语的含义以及他们之间的关联关系。对于我们理解语言背后的意义至关重要。 那再让我们来看一个例子,主要通过这个例子我们想说明的是人类是如何去理解这种语言中的一些奇异的问题的,他是如何去消除语言中的奇异。 那比如你这个朋友,有一天他又跟你说这个苹果品质真高,那当 当他说完这句话的时候,你其实脑子里是困惑的,因为你不知道他这里所说的苹果是树上的果实,还是我们一种智能手机的品牌。那紧接着他又说了后面的一些内容, 他说啊,这个苹果品质真高,已经通过欧盟有机认证,每颗苹果都带有 nfc 的溯源标签。 那他说完这句话中,你脑子的困惑很快就消失了,你可以明确的定义出定位出他所说的苹果是树上的果实,而不是智能手机的品牌。 那从这个例子就告诉我们,人类在理解语言时,人类对于语言的精准解意以及语意其意的消解,他 都要显著的去依赖于上下文的环境。那人类理解具体的某一个单词的含义的时候,他需要系统性的去整合整句话中上下文的信息,来帮助消除对某个具体单词的一个起义。 那也就是说人类在理解语言时,其实他很像我们来啊做拼图游戏,那这里每一个单词他都是一块拼图,那只有把所有的单词拼成一个完整的拼图之后,我们才能够建立起对整句话,整篇文章的一个更加全面精准的一个理解。 那通过刚才的例子,两个例有趣的例子,我们介绍了人类是如何理理解语言的,我们再来总结一下,那人类理解语言有两个关键,第一点就是说人类是通 过理解词语以及词语之间的关联关系来形成对于言的一个全局的把握。 那第二点在于要想实现对于语言理解的精确性,我们在理解每个词语的时候,都需要把它放在相应的上下文中,这样才能精确的掌握每个词语的具体含义。 比如说在这个例子中,我们只有在上下文中才能理解苹果这个词,它到底具体是指水果还是一个电子品牌。那么下面我们将在这两个观点的镜像映射下来,看看人工智能,尤其是我们的大语言模型,他是如何理解我们的语言的。 那大家都知道计算机理解一切信息的基础,首先是要将这些信息进行数字化, 比如说我们在处理图像的时候,计算机会将图像的每一个像素都转化成一个数字信号,那么至于这些数字信号,计算机才可以对图像进行存储、显示, 甚至是对图像进行处理、识别等等其他的更高层次的一些操作。那例如通过我们的这个深度神经网络, 计算机就可以将大量的这种图像的数字化信号中,从这些数字化信号中抽象出图像的特征,以此来实现啊,物体识别啊,图像分割等等这样的一系列的啊人工智能的一些任务。 那么当刚才是图像的例子,那类似的计算机他也是啊,没有办法很好的去理解我们人 类的这种离散的自然语言的,因此我们需要通过数字来表示语言中的每一个单词,那这种对语言进行数字化的表示,通常所采用的技术就是我们的叫做词像量这样的一个技术, 那词向量它的核心思想是将每一个单词映射到一个高维的向量空间中,也就像我们这张图中所展示的这样,这样的一些 cat, kitten, dog 这样的一些啊动物的名称都被一串 数字,也就是一个高维项量所表真,那么用高维项量来表真单词,它的一个优势在于,我们就可以通过对这些高维项量的计算来获得单词和单词之间的这种关联 关系,从而来更好的理解我们的语言,尤其是通过计算的方式去理解我们的语言。 那同样在这个例子中,大家可以看到一些与异相近的单词,当我们把它投影到我们的这个高维向量空间之后,他们的距离也是非常相近的。而一些与异 相差比较大的词语,比如说我们的狗和我们的房屋,他们一个是动物,一个是房子,因此他们羽翼相差是很大的。在我们向量投影到这个啊空间可视化出来之后,我们发现这两个单词他们之间的距离是比较远的, 那同样单词和单词之间的关联关系也可以通过项量的计算来获得。那比如在我们右下角这个例子,大家可以看到男人和 女人,以及国王和王后,他们俩这两两组词语之间的关系是相似的,因此我们就可以通过相量的计算来获得单词和单词之间的关联关系。 那我们刚才所讲到的词向量他是怎么获得的呢?主要是通过大量的这种文本数据进行训练而得到的,那么训练之后我们就可以对于每个单词都可以得到他的一个向量的表示, 那么这个项量表示就可以捕获单词和单词之间的这样的一个语义关系。那语义关系是如何来衡量呢?通常的方法是通过计算词项量之间的相似度来获取单词和单词之间的关联关系。那有两种计算词项量的相似度, 分别是欧式距离和余弦相似度,那他们一个是通过计算两个点之间的直线距离来衡量他们的相似度,也就是说直线距离越近,两个项量是越相似的。 那余弦相似度,他的核心思想主要是通过计算两个相量之间的夹角来比较他们的相似性,那夹角越小,两个相量越相近。 那么我们刚才主要介绍了我们计算机是如何表示我们的语言的,但是这种词向量的模型它还是存在一定的缺陷的, 比如在我们来表真序列数据的时候,同一个元素在不同的上下文中,它的含义是不同的。那这个观点我们刚才也在介绍人类是如何理解语言的,那个部分也已经给大家 啊拆解了人类是如何解决这个问题的,那我们再看一个相似的具有奇异的一个例子, 那这是两句话,大家可以看到他们所组成这两句话的单词是非常相似的,只有最后一个单词是不同的。但是呢, 这两句话中的 it 就是他所指带的内容,由于最后一个单词的不同,而对他所指带的内容也造成了很大的影响。那比如说在一第一句话中, it 就是指啊一只前面前文的动物,而在第二句话中 it 是指啊马路。 那从这个例子中我们也想说明的是,我们需要精确理解一个啊句子的前提就是我们需要把每个单词放在上下文中来进行理解, 那么从这里我们就可以看到之前的词像量模型他的一个缺陷,那传统的词像量模型中,同一个单词他只有一个像量,因此就没有办法解决我们这种啊一词多意的问题。 那我们大圆模型是为了能够精确的理解句子的含义,那么下面我们来看看大圆模型他是如何效仿我们人类结合上下文来理解句子的含义,从而解决这个一词多意的问题的。 那大语言模型它主要是通过啊 transform 这个架构来解决这种单词的上下文建模的这样的一个问题。那 transform 这个架构也是我们大语言模型的一个非常核心的一个机制,那大家可能会觉得就理解 transformer 是非常困难的事情,但我们只要掌握它的一些核心的观点就可以啊理解它背后的一个含义。 那大圆模型它的啊核心的观点就是它采用了一种叫注意力机制的这样的一个技术, 那通过注意力机制我们就可以为每个单词都生成一个啊上下文相关的一个词项量,那这样的话,我们由于每个单词的词项量都包含了他所在的句子中的上下文的信息, 那这种方式我们就解决了传统的词项量模型没有办法处理多义词,以及没有办法解决上下文依赖的这样的一些问题。那通过注意力机制,一个单词它的真实的含义不仅取决于它自身原本的意意思,还取决于它所 在的句子中的上下文的这样的一个信息。那这张图也非常形象的给大家展示了注意力机制它的一个核心的原理。那可以看到通过注意力机制 我们 eat 这个单词,它的词像量就可以融合它所在的句子中的其他单词的信息, 那这种方式主要是通过啊注意力权重来实现的。那我们这张图中蓝色越深,线条越宽,就代表其他的单词对 it 这个单词它的啊含义的形成的贡献越大, 那在数学上就可以表达为每一个单词都可以表达为是其他所有词的向量的啊加权平均。那通过这种方式我们就可以解决这个啊在语言理解的过程 中这种长下长范围的上下文依赖的问题。同时呢 transformer 他的一个优势还是他的训练是非常高效的,因此他作为 transformer, 作为一个核心机制,就构成了我们大模型的这种非常强大的一个语言生成能力。 那在了解了 transform 架构是 deepsick 等大语言模型的啊核心之后,以及我们介绍了它背后利用注意力机制来帮我们在每个单词的词项量中都可以吸收到它所在的上下文信息,这种 类模拟人类来理解语言的这个机制之后呢,我们再来看看大语言模型他是怎么训练的,他是如何通过预训练以及微调的策略来提高模 型的泛泛化能力,并在多个任务上来取得突破的呢?那么大圆模型大家肯定都体验体体验过,尤其是春节在 dipstick 出圈之后,大家肯定都用过我们的大圆模型, 那么大家在用的过程中可以体会到,大语言模型他最令人印象深刻的能力是他能够通过对话的方式来回答用户提出的啊各种各样的问题,比如说啊知识性的问答,或者是一些编程类的问题等等,他都可以解决。 那么大圆模型大家肯定好奇他回答问题背后的原理是什么样的呢?那我们传统的一些啊这种对话的机器人,他主要是通过一些啊规则化的模板来生成对用户的回回复,或者是去啊 大型的数据库或者网络上来检索一些啊相似的答案,那基于这些相似的答案在组合而成对于用户问题的回复,那大原模型他的机制和这两类方法都是不同的, 他的回答是随着啊我们人类的提问来一个单词一个单词自动的生成出来的, 那这个过程很像我们大家所常玩的这个文字接龙游戏,那大圆模型他就会像我们在进行接龙游戏一样,会基于前面的话不断的去合成下一个词汇, 那他就这样一个单词一个单词的合成,直到他啊生成了一个中指符,那什么带中指符的含义是什么呢?就是他觉得他对这个问题已经回答好了,已经所有的内容该讲的都讲完了, 那么他就生成一个中指符,代表他的生成已经停止了。那么再看一个小例子,比如你的朋友问你啊,苹果是一种水果吗? 那大圆模型他的工作流程,他首先会基于用户所提出的这个问题,他来基于这个上文来计算出下一个最大概率的单词是什么,那他相当于他把词表中每一个单词作为下一个单词的概率都计算出来。 最后他基于这个概率值的大小选出一个概率最大的,那在这个语境下就是试的,那他在生成试的之后, 如果他没有生成那个中指符的话,他还会预测是的之后的一个单词是什么。那这里他又进行了一次预测,发现下一个单词最概率最大的单词是苹果,所以他就生成 成了苹果。那紧接着他觉得他还应该再说一点什么还没有结束,所以他就生成了第三个单词预测,那么就这样一个单词,一个单词的生成,直到他最后生成了一个中指符,然后他就输出了一句完整的回复,是的,苹果确实会 被归为一种水果。那从这个例子我们就可以看出大元模型的核心思想,简单来说就是不断的在所有可能的词汇中选择一个概率最大的单词来生成, 那么就这样一个单词,一个单词的生成下去,最后就可以组成完整的一句话或者是一段话作为回复。 那数学家陶哲轩说,他认为大圆模型不是魔法,而 是基于概率的猜测机。那根据这句话我们来想一下,大语言模型他是如何不断的去生成下一个单词的概率的呢? 那实际上这一个过程主要依赖于模型内部的一些参数,那参数这个词也是大家啊经常会看到的,那这些参数都是基于大量的数据,通过不断的训练,不断的调整而得到的, 那参数中到底包含哪些信息呢?通过学习之后,这些参数中主要蕴含了数据的一些分布的规律,相当于大量数据中的知识都被压缩到这些参数当中了, 那因此它就可以包含了大量参数的模型,就能够在特定的上下文中预测出 最合适的下一个单词是什么。并且呢,大家也知道我们的大模型它是有不同规模的,那有几十亿的,甚至有上千亿的,那并且呢,当这些这些亿其实就是指啊模型的参数的数量, 那当模型的参数这个数量的量级不断的提升的时候,我们大圆模型他的啊认知能力啊,他的知识范围呢,通常也会呈现一个啊显著提升的这样的一个趋势。 那比如大家所了解的 deepsick v 三这个模型,它的满血版的它它有多个版本,那它的呃参数规模最大的版本就是六百七十一 b 这个版本, 那这里的 b 就是 b 领代表十亿的意思,也就是说这个模型它是由六千七 百一十亿个参数所组成的,那这些参数就是因为计算机是数字化的世界,所以这些参数就是大量的这种啊数字,那其实他们单个拎出来看并没有实际的含义,但是当他们组合在一起的时候,就可以啊协协同来进行工作, 那我们的 dipstick v 三模型就是由这样的六千多亿的参数来组成了我们的模型,那么有了这个模型之后,我们当输入一句话的话,它就可以自动的去预测出下一个概率最大的单词啊是什么? 那既然大模型他就是一堆数据礼盒后形成的参数,那么有的网友就非常有意思,他们就在想,那既然是一堆数字,那我是不是就可以用啊一些其他的工 工具来实现大圆模型呢?那在网上就有这样的一个开源项目,他就是用我们的 excel 表格复刻了我们的这个 gpt two 这样的一个模型,那 它在 excel 表格中就将所有的 gpd 二的这个模型的参数都复制在表格中,那通过表格来存储这些参数, 然后它就可以基于这些表格来模拟 gpr 进行前向推理的这样的一个过程。也就是说它来模拟 gpr 是如何根据用户的输入来生成相应的回复的这样的一个过程。 那这里可以看到,如果在左左侧这一栏我们输入啊一句话的前半部分,那他就可以基于所存储的这样大量的参数来计算出下一个单词,概率最高的应该是啊 university, 然后进一步的他还可以预,再把 university 放在左边的话,他又可以预测出啊下一个概率最高的就是句号,代表我这句话已经生成完成了。 那我们大概了解了大圆模型是如何基于一堆参数来进行概率预测以及完成文本任务的。 那么大家不禁要问这些大模型他们的参数是如何通过学习得到的呢?这里我们来举一个非常简单的例子,就是中小学生也可以基于他们的知识来理解的例子, 那这个例子就是我们想要构建这样的一个模型,那这个模型可以基于父亲的身高来预测儿子未来的身高。那为了构建这样一个模型,我们就搜集了一些样本数据,那每一条数据都是一个父亲和他的啊 儿子的一个未来的一个身高,那我们将这些样本数据投影到我们的坐标系中,大概呈现啊这样的一个分布。 那通过我们的观察,我们觉得这个儿子的身高和父亲的身高应该是一个啊线性相关的关系。那这里我们就想用一个啊线性函数 y 等于 a 加 b 来拟合父亲身身高和儿子身高这样的之间的一个关系。 那其实这个是一个线性函数,也就是像这个坐标系中这条直线所展示的这样。那么通过普那这个函数它也有两个参数,就是我们这里的 a 和啊 b, 那通过不断的调整这个函数中的 a 和 b 这两个参数的值,我们就可以让这条直线啊落在离我们这些样本点距离最近的这样的一个位。 那通过这种方式我们就大家也理解这个就是我们所谓的一个陷阱回归的一个过程,那我们可以通过啊最小二乘法就可以求取得到这里的参数 a 和参数 b 的这样的一个值。 那同样我们大圆模型他的学习过程其实也是类似的,不同点在于他的参数量大的多,然后数据之间的关系不是简单的线性关系,而是非常非常复杂的一些关系。 那其实学习的过程是类似的,都是通过大量的数据来调整啊模型中的这种海量的参数,直到他能拟合到我们数据中所包含的这样的大量的一些,蕴含了大量的规律。 那这里就是通过啊最小二乘法所求取的参数 a 和 b 的值。 那很相似,我们的大圆模型也是通过啊大量的数据来进行学习所得到的,那通过不断的调整和优化,就可以将数据中的规律压缩到大圆模型海量的参数当中。 那有了这些学习得到的参数之后,我们就可以对新的数据进行更准确的预测,同时生成合适的回复。 那我们再来具体看一下大语言模型它的训练过程啊,总结来说一共有四步,那第一步就是预训练,紧接着是指令微调,然后是啊奖励函数的训练,以及最后一步是基于奖励函数来进行强化学习。 那这里是一个概览图,我们先进行一个啊简要的介绍。那育训面阶段主要利用大量的这种非常外 你级别的词汇数据,而且它是一种原始数据的形式,也就是我们的啊流逝的文本。那通过预测下一个词这样的一个训练方式,我们就可以啊得到我们的基座模型。 那育训练这一步也是整个大语言模型训练过程中最耗费算力的一个啊一步,那上一周的话,泽克老师也给大家介绍了算力相关的内容,那在育训练这一步,我们通常至少需要上千张卡来进行我们的这个语言模型的训练, 那在预训练之后,下一步是指令微调,那指令微调所用的数据都是一些啊,高质量的成对的数据,比如说用户的一个问题和相应的答案,这样的一个数据来教我们的模型实现从问题到答案的映射。那他的训练方式和预训练阶段是 一样的,都是通过预测下一个词的方式来进行训练的。那完成指令微调之后,我们就可以得到指令微调的模型,那这一个阶段算力相对需求会小许多,只需要啊几十数百张卡就可以完成。 那在进行了指令微调之后,我们还需要训练一个奖励函数,那奖励函数它主要是 一个二二元分类的模型,他可以啊,对于一个模型的输出,他可以判断啊,是否符合人类的偏好,那我们可以理解奖励函数就是用来判断模型的输出和人类输出的一致性, 那这个呃阶段用到的算力也不多,只需要几十张 gpu 卡用几天就可以完成。那有了奖励函数之后,我们就可以用奖励函数来模拟人类的反 会,那通过强化学习的方式来进一步微调我们之前所获得的那个指令微调模型,从而得到最终的我们大家在使用的这样的一个啊 大圆模型,那强化学习的目的主要是为了啊,主要是通过奖励函数让大圆模型和人类的偏好进行对齐,让大圆模型的输出更符合我们人类所习惯的方式。 那首先我们来看一下预训练阶段,那在预训练阶段,我们通过各种来源的数据,比如说我们的互联网数据、百科数据,各种高质量的书籍,我们的代码数据 啊,各种问答数据等等,这种啊各方的数据语言组成了我们这种万亿级别的这样的一个语料库,那同时我们需要数千张的 gpu 卡来让我的门门的模型逼用这些语 纸尿裤来进行学习,那通过这样的学习之后,我们的大语言模型就具备了通用的语言理解的能力,也就得到了我们通常所说的这样的一个基座模型。 那这里也举了一个例子帮助大家理解,在预训练阶段,大圆模型到底要消耗啊多大的一个余量呢? 那比如 dixek v 三,他就需要十四点八万亿的这样的一个啊 token, 那 token 也是大原模型中非常常见的一个啊,大家会看到的一个术语,方便理解的话,大家就可以把它理解为一个单词, 是简单的把它理解为一个单词,那通过这个例子我们就可以看到大圆模型对于数据的消耗是非常的大, 那在预训练阶段,它所采用的训练方式主要是采用了一种叫做 自监督学习这样的一个训练方式,那自监督学习大家可以通过平时做完形填空来理解这一过程,那比如我们从余料库中随机的拿出了一句话,那这句话是一辆列车缓慢行驶在崎岖的山路上, 那我们在进行训练的时候,就会随机的把这句话中的某一个单词,比如这里是缓慢把它覆盖掉,那么就让语言模型来做完形填空的任务, 那如果语言模型能够精确的预测出被覆盖掉的这个单词是缓慢的话,那相当于语言模型已经大概掌握了这些句子中的语言词语和词语之间的关联关系, 因为只有掌握了这些关联关系,他才能去完成这种完形填空类的任务。那在 预训练阶段就是我们的啊指令微调这样的一个阶段,那有时候大家也称它为有监督微调,也就是我们的 sft 这样的一个缩写, 那这一过程主要是通过向模型提供明确的这样的一个任务指令来实现对模型的一个啊参数的优化, 那通过这种优化我们的语言模型就可以啊学习得到啊用户的输入和他应该给出的反馈,也就是他的输出之间的一个映射关系,那同时他也能够掌握如何去理解并执行用户所提出的啊各类任务。 那这一阶段我就不需要那么海量的数据了,我只需要相对少量的高质量的这种问答对来提供给 啊模型进行学习,那这里我们也给出了一个问答对的视力,那这种问答对通常包含一个用户输入的提示词,也就是我们的对于大模型的一个问题,同时还包含了这样的一个理想情况下,模型的输出应该是怎样的这样的一个回答的文本, 那通过这种训练方式就能保证我们的模型能够理解用户所提出的问题,并对所提出的问题做出一个较为准确的一个响应。 那在做完预训练和指令微调之后,我们的模型就可以啊回答用户的问题了, 但有时候模型的回答和我们的人类偏好还不是特别一致的,因此我们又进而进行了这个奖励建模和强化学习的阶段。那首先奖励建模我们刚才 啊也简要介绍了,那奖励建模阶段主要通过人类所标注的一些对比的数据来进行的。那什么是对比数据呢?比如同一个问题 模型,因为他这种基于概率的预测方式,所以模型可以生成啊不同版本的这样的一些回复,就是同一个问题有多个答案,那我们的人类的标注人员就会对这些答案进行一个排序,那就是哪个答案是好的,哪个答案还 不好,这样的一个反馈,那模型就可以基于这些反馈来生成一个能够评估这个模型生成内容质量的这样的一个啊奖励模型。所以奖励模型他就学到了啊人类的这样的一个偏好, 那进而在强化学习阶段,那个模型他就可以通过和奖励模型 来进行交互,进而优化他啊生成,优化他的生成策略,使所有使尽可能多的模型的回复都可能得到尽可能多的人类的这样的一个奖励的反馈。 那这里它主要采用的是基于人类人类反馈的强化学习这样的一个策略,那模型就可以根据奖励模型所反馈的这个人类偏好来调整模型的参数,从而从而去生成一些更符合人类指偏好的一些高质量的回答。 那我们刚才介绍完了以 deep six v 三为代表的这种通用型大语言模型的啊构建过程。下面我们再来看一看大家最近常常提到的以 r 一模型为代表的啊推理模型, 那 deepsick r 一其实它和 deepsick v 三它的模型架构就是它的模型的结构是一模一样的啊,参数量也是一致的, 但不同点在于 dpc r 一他是基于 v 三通过强化学习得到的。那重点呢?通过名字大家也可以理解到,重点是为了提升模型的他的一个啊推理能力, 那大家在使用的过程中也可以看到,就是他经常会碎碎念,把他的这个啊推理过程都输出出来,所以 r 一模型他主要专注于一些啊高级的推理任务。 那并且我们在 r 一和 r 一进行聊天的时候,我们也可以观察到啊他的推理过过程,他在进行一系列推理之后,才会输出他的这样的一个回复。那什么是推理模型呢? 也很容易理解,他就是指能够进行复杂推理任务的这样的一个大型的语言模型,那这些模型通常处理的问题都是一些啊需要多部推理 或者是计算,或者是啊多不停的分析才能够解决的这个问题。那并且解决问题的过程中会涉及啊多个步骤。 那比如我们看这样的一个问题,如果问一些啊,比如啊中国的首都在哪里这样的一些常识性的问题,就是是不需要用我们的推理模型的, 那比如我们遇到一些计算题,比如像这个例子中所展示的这样,那通常他会涉及多个步骤,因此这类问题或者是我们的编程问题,都可以用我们的推理模型可以获得更好的一个啊解决方案。 那右边所展示的这样,左边就是我们的啊,对于这样的一个小学数学题,左边展示的就是我们啊 v 三那种啊通用的大模型,他可能就会直接给出一个答案。那么右边展示的就是我们 r one 这种推理模型,它给出答案的这样的一个形式,大家可以看到它会先把问题分析一遍,然后再给出最终的答案。 那呃,大家可能也看到,呃就是模型它的这个中间步骤通常也有不同的呈现方式, 比如我们的 r one 就会把这个中间的推理过程都展现出来,因此大家总觉得他在碎碎念很有意思。但还有一些啊其他的推理过程,比如说我们 open ai 的 o one 的模型,他通常会把中间的这个推理步骤引去,所以用户是看不到这个推理 过程的。刚才给大家介绍了我们这种推理模型他的定义是怎样的,以及他大概解决哪一类的任务。那下面我们来看看我们的这种功能强大的推理模型,他是怎样练成的呢? 那如果大家去看啊 dipstick r one 它的技术报告的话,会发现 dipsick 它发布的并不是啊单一的一个 r one 的推理过程,而是引入了三种不同的辩题, 那分它这些变体都是从 deepsick v 三这个模型中啊训练而来的,那分别是第一个就是我们的 deepsick r one zero 这个模型,那以及我们的大家常用的这个 r one 模型, 那还有一些其他的啊蒸馏出来的这样的一基于 r one 蒸馏出来的一些啊小模型, epsic r one 就 和他的 v 三版本的模型,他们各有所长,那一个有很多的啊,一个有很大的推理能力,一个有很强的这种啊领域很广泛的领域的知识, 因此他们就通过啊这种相互啊蒸馏的这样的一个方式,那许多人也把他啊形象的称之为这种左脚踩右脚的这样的一个啊训练方式,那就互相提升,那形成了这个 epsic 模型的一个性能的飞跃。 那么下面我们简要的介绍一下 dipsyk r one 模型它的一个啊构建流程,那其中有非常多啊巧妙的啊,一些设计以及一些有趣的现象, 那我们从这个过程中就可以看到大家是如何一步一步的去提升模型的这样的一个推理的能力。那首先 我们来看这个整个流程图中的第一个推理模型,就是我们的 deep sick r one zero, 那同时大家也把它称为一个啊能启动模型, 那接入这个模型,他是基于啊十去年十二月份发布的这个六百七十一 b 的 v 三模型啊,通过这个强化学习训练得到的,那大家这里注意,他是一个通过纯强化学习训练,就是他没有用到啊任何的有监督的数据来进行这样的一个训练。 那研究团队它主要是啊在训练 zero 这个模型,首先他们构建了一个啊训练模板,就像我们这个也所展示的这样,那这个训练模板非常简单,他就描述了任务, 就是这是一个用户和助手的一个对话,然后用户会问一个问题,那助手的目的就是要帮用户解决这个问题,那这个助手他会 会,他这里就就有一些特殊的设计,他说他会首先啊去思考这个解决这个问题的一个推理的过程,然后再去给这个用户啊提供答案,那这个就是我们推理模型的一个工作的过程。 同时他要求这个推理的过程以及最终的答案要在这样的一些特殊的符号中把他们标识出来,就是这个 think think 和 answer, answer 这样的啊,两个符号中要把他的推理过程和最终的结果分别标注出来, 然后他的模板中有一个红色的 prompt, 就是代表在实际的训练过程中。然后这个 prompt 会被替换成啊各种各样的任务,那主要就是一些啊推理任务, 比如说我们的解数学题这样有啊标准答案的任务,或者是我们的写代码这样的涉及多部推理的这样的一些 任务,那这个就是我们训练这个 area zero 这样的一个训练模板,非常简单。那同时研究团队还设计了一些激励机制,来 引导我们来训练这个阿万跌入这样的一个模型,那他的这个两个激励函数也都是非常简单非常容易理解的。那首先第一类奖励函数就是准确度激励,比如说我们刚才也说了,他主要用到两类数据,一类是数学题,一类是编程题。 那对于这种有标准答案的题目,我只要判断它的结果是否正确,那比如用户的 prompt 中的题目是一加一等于多少, 如果 assistant 就是我们这个助手,他最后给出的答案是二的话,那就说明他算对了,算对了就给他啊一分的激励,那如果没是其他数字的话,那他 就没有得到相应的奖励,那这个就是我们的准确度激励,来引导模型能够得到最终的一个正确的结果。那第二个激励是我们的这个格式激励, 我们来判断模型的输出是否按照我们给他提出的要求,也就是要遵循这个 think think 昂瑟昂瑟的这个模板来产生他的输出。那判断这个也很简单,如果他的输出结果中包含这些标识符的话,那就他说明他做对了,就给他啊 加一分,那如果做错了就没有奖励,那就是通过这样的一种简单的方式,我们就训练得到了第一版的我们这个 r one zero 这样的一个模型。那大家可以看到 传统的之前在 r one 出来之前,很多人认为我们想要得到一个推理模型的话,首先我需要很多 中间推理过程的这样的一些数据,那我们需要邀请很多专家来编写带这种中间推理过程的数据,基于这些数据,之前的学者认为才能够让模型有推理能力。 但是呢,啊万的实践中,我们发现在得到第一版模型的时候,根本没有用到任何关于过程的这样的一些啊激励模型自动的可以根据啊最终答案的正确性来引导他们得到。同在提供答案的同时,可以得到中间的这样的一个推理步骤。 那这张图展示的是我们这个 r one zero, 它在进行强化学习过程训练的过程中,它这个训练级上的这样的一个平均的啊响应程度,那横坐标就代表这个啊训练的轮次, 那么从这个表中就可以看出,随着这个训练轮次的啊不断增加,这里到了八千多,那我们可以看到纵纵轴呢,是这个阿万他的输出的回复的长度,那可以看到随着训练轮次的增增加,阿万他的输出的长度也就是啊是越来越长的。 那也就是说模型他只通过我们刚才所介绍的两种简单的激励,正确性激励和这种格式的激励,自然的就学会了。他,他学会了什么呢?他学会了通过更多的思考时间来解决这个推理任务, 他学会了我输出的越多,我推理的步骤越多,我可能模型的输出的正确性和格式的一致性会越高,那在这个过程中是完全没有用到中间的啊推理的数据来监督模型训练, 那这个结果也是这个整个 r one 的技术报告中啊最精华的部分。他就告诉我们啊,即使是通过这种纯强化学习的策略,我的模型也是可以啊获得这样的一个推理能力的。 那通过刚才所介绍的简单粗暴的啊训练方式,我们所得到的阿 one zero 这个模型,它也是具有一定缺陷的。那第一个缺陷就是它的啊可读性比较差,也就是说它输出的内容可能啊不像其他的大模型那样调理比较清晰。 那第二个缺陷就是他容易出现语言混淆的这个问题。什么是语言混淆呢?也就是说他的答案中经常是啊同样一个问题的回复,会有中英文交织在一起的这样的一个啊情况出现,那为了解决这个问题呢, deep seek v 三 又进一步推出了它的一个啊推理旗舰模型,也就是我们的正式的这个 diseak r one 这样的一个模型。那 r one 这个模型它是基于刚才所介绍的 dipseche r one zero 这个模型所产生的数据所构建的。 那这些模型啊,所产生的这个能启动的数据就可以用来帮助我们提升 r one 这个模型的它的一个啊推理的能力,那同时它是以这个 v 三是这个同样还是我们这个 r one 模型它的一个基座, 那啊这张图中的啊红线就展示了我们怎么一步一步得到啊万这个模型的啊一个过程,那红线上的圆点代表在训练过程中不同的 checkpoint, 那 check one 的大家可以理解为是一些啊中间过程中的一些模型,就是一些中间模型。那首先第一步呢,我们先基于上一部 r one zero 所产生的这些能启动的, 包含推理过程的这样的一些数据,我们叫它能启动数据。那么我们基于这些能启动数据,通过啊有监督的微调的方式啊,微调了我们的这个啊 v 三的模型, 那就是到了这个点,就相当于我们用 r one zero 生成的数据来微调了一个 v 三的一个新的版本。 那紧接着我们又做了一轮强化学习,那这轮强化学习主要有啊三个激励函数,那除了刚才所介绍的这个准确度和格式的激励之外,他还引入了这样的一个啊,一致性 性的这样的一个激励,那一致性激励主要就是为了解决这个语言混淆问题,那就是说如果生成的答案中语言是一致的,模型就会得到奖励, 那基于这样的一个强化学习的策略,我们又得到了一个新的版本的一个推理模型,那基于这个推理模型, 同样像我们如何用 zero 一样,我又可以用它来生成一版相比于这个能启动的 sft 的数据,质量更高的这样的一个啊 sft 的数据,那这些数据中就包含了 质量更高的这样对于一些问题的一个推理步骤。那同时除了让模型自动生成之外,他还加入了一些啊人类的教验,比如说筛选出一些从模型生成的数据中,让人类筛选出一些尽可能质量高的数据来为后面的流程所用。那除了 这个啊 r one zero 它所提供的这个啊微调的推理的微调的数据之外,它还用了一些 从 v 三所生成的数据中筛选出了一些蕴含这种啊就是通用知识的这样的一些指令微调的数据,那基于这种推理和知识型的这种指令微调的数据,他又对原本的 v 三模型进行了一次啊有监督的微调, 那在进行了有颠都微调之后,同样他还进行了最后一轮的这样的一个啊强化学习的步骤, 那在这个阶段他们再次使用了训练 r one zero 过程的时候所采用的这种啊如何去判断数学题和编程题正确性的这样的一个啊激励的啊规则之外,他们还 对其他的一些啊知识性的问题引入了使用人类啊偏好的这样的一个标签,那就像我们之前所介绍的通用大于按模型的这种人类反馈下的强化学习一样, 那经过这些这种左脚踩右脚就是你生成数据训练我,我又生成数据训练你的这样的一个方式呢,我们最终就可以得到一个啊推理性能更为强大的这样的一个 ry 的模型,也就是大家现在目前在使用的这样的一个模型的版本。 那做完对于自己的 r y 模型的训练之后, deepsick 还做了啊其他的一些有趣的事情, 那比如 tips 一个团队,他就啊利用之前步骤所生成的这种包含推理过程的这个 s f t 的数据,那具体来说就是这样的这两部分的数据, 那这两部分的数据,他首先左边的是包含推理过程的有监督的数据,右边是包含这种啊 世界知识的这样的有监督的数据。那他又用这些数据训练了对其他的一些啊开源的小规模的语言模型进行了一个微调,目的是想看看我用我的模型生成的数据啊,是否能提升啊其他的这些小规模语言模型的推理能力呢? 那右边就是啊展示的这个是他的啊实验的结果,然后带这个 distill 就蒸馏的,就是代表我用我的数据来微调之后的这样的一个模型, 那这些数据和 r one 他们用了呃,就是同样的一批 s f t 的数据。那通过这个呃表格我们可以看到,虽然就是这些精简后的这些小模型,他们的性能跟这个 r one 这个版本相差啊,还是有一些的,但是和这个 r one zero 这个版本来说,他们却显得这些小模型的能力是啊非常非常的强大的。那并且呢他们呢要知道他们的这个模型参数规模是比我们的这个 r one zero 六百七十一,比是要小非常非常多的。 那同时呢,他们还将这个蒸馏后的小模型与这个 open ai 的 o one mini 进行了一些比较,那通过这个比较我们也可以看到这些模型在和 o one mini 进行比较时候,表现也是啊非常出色的。 那在介绍完一些啊技术性的内容之后,最后我们再来探讨一下这些大圆模型技术,他如何啊赋能我们的教育,那如同时如何通过这些智能体的技术来改变我 我们的教学和学习的方式。那首先大家肯定也深有体会,大圆模型可能可以赋能我们教育学的啊许多许多的环节,那可以帮助我们老师能够更高效更创造性的去啊教学生, 帮助我们学生能够啊更高效的去学习啊新的知识。那他大家肯定也体会过一些通过这种啊大圆模型自身所拥有的这些多轮对话的能力,他可以啊 啊帮助我们啊进行智能的辅导,帮助老师生成一些题目,帮助我们在编程作业遇到一些问题的时候,来帮我们查找出啊编程的啊,查找出代码中的 bug 等等这样的一些功能之外呢,大圆模型它还有一个特点, 就是他可以和其他啊各种各样的工具来进行结合,那创造出啊更加啊多样的能力。比如说这里我们展示的就是我们的啊大模型如何和其他的各种应用结合来创造出多种模态的教学资源。 比如我们可以用 deepsick 和 kimi 一起来自动啊生成我们的 ppt, 那首先可以让它生成一个啊 ppt 的一个大缸,然后有了这个大缸之后,我们就可以利用这个 ppt 助手,然后来自动的生成一个 带有模板的我们的一个 ppt 的一个出稿的内容。那很多时候大家在做 ppt 的时候,大量的时间都花在这种格式的调试上,那有了这些工具之后,也可以让我们的备课环节啊更加的高效,可以把更多的时间放在如何提 生我们所准备的这些教育教育资源的质量上面。那这个就是他最后生成的一个 ppt。 那相关的这种案例就是网上也有很多,相信大家也都看到了,那我在备课的过程中也参考了这种大量的就是网上大家所提供的一个案例, 那这个就是比如说对于这个是一个 deep seek 辅助编程的这样的一个例子,那对于我们人文社科方向的啊学生和老师,我们可能啊不大的会编程,但是有些时候在我们的啊科研的环节中,我们可能又需要,呃,有些环节是需要写代码的, 那这个时候我们就可以用这些大圆模型来辅助我们完成这个啊代码的任务。那比如这里展示的就是大圆模型来辅助我们构建一个网页这样的一个任务, 把需求告诉大圆模型之后,他就可以生成符合我们需求的这样的一个 html 的网页的啊语言,那我们可以把这个语言用 相应的浏览器进行运行之后,那就可以得到我们所开发出的这样的一个英语课堂智能管理系统的这样的一个网页的内容。 那除了生成网页之外,我们还由于在我们的教学环节,除了生成文字之外,很多时候我们希望有一些多模态的教学内容来提升学生的兴趣,那这时候我们就可以 将 dipsyk 和各种深沉式,尤其是纹身图的这样的一些啊人工智能产品应用结合在一起,来帮我们更高效的创造一些多模态的教学资源。那这里给出的就是 dipsyk 和集梦来结合, 帮助我们生成一些啊课件里的插图这样的一个例子。那首先同样我们可以将我们的需求啊告诉这个大模型,同时让他生根据我们需求生成完整的 ai 绘画的提示词, 就是他可以把我们的需求进行细化,按照纹身图的模型更容易理解的方式来生成这个提示词。 那之后呢,我们可以将大模型所生成的提示词复制到这个纹身图的工具中,那基于他所生成的提示词,我们就可以很高效的 得到生成是人工智能所绘制的这种图像的数据,那这些数据就可以放在我们在我们的这个教教学备课的过程中,或者是有一些概念,我们希望通过可视化的方式展现出来,那就可以用到这样的一些功, 那除了将大语言模型和各类工具结合起来,让他迸发出更多新的功能之外,我们在不同的学科中也可以利用我们在教学过程中所积累的大量的高质量的学科内的语料数据来 形成基于大语言模型,形成我们特定学科的学科大模型。也就是说我们在大语言模型的基础上,给他提供更多的学科知识,来提升他在特定学科内的一些能力。 那这里展示的就是浙江大学所构建的啊智海三乐教育大模型,那他就是一个面向人工智能领域啊教学的这样的一个大模型。那在训练这个大模型之前,团队由于主要是从事人工智能方面的教学的工作,因此积累 给了大量的人工智能的领域的高质量的教科书籍的语料。那基于这些语料,我们就可以对我们的开源通用大模型进行一个微调,那微调之后就可以形成一个包含学科知识的这样的一个领域模型,已用在我们的这个教学环节当中。 那当拥有了这个领域学科模型之后,我们还可以结合我们对具体的教学环节和应用场景的理解,来搭建各类面面向老师和学生的智能体。 比如说我们这里就展示了面向啊教教师和学生两类人群的这样的智能体。比如说面向老师,我们就可以帮助他们生成教学大纲,生成习题,进行帮助他们设计这种跨学科的教学案例等等。那面向学 深,我们就可以提供知识问答、错题解析、学习路径规划这样的一些功能。 那除了刚才所介绍的和我们教学环节啊紧密贴切的一个智能体之外,我们还构建了一个苏格拉底式教学智能体, 那什么是苏格拉底式教学智能题呢?就是大家在用通用的大模型的时候会发现,因为大模型它的主要的目的就是回答用户的问题,给用户提供更多的知识。 但是在我们的教育场景的话,其实我们不希望啊大模型能够直接将答案就反馈给学生,这样大家也很容易理解,就不不利于培养学生自己去解决问题的能力。因此在教育场景,我们就希望有一个啊,苏格拉底式的教学智能体,那它的核心在于 这个教就是这个智能老师呢,他并不是直接把问题的答案就告诉学生了,而是根据学生已有的经验,通过一系列问题的引导、讨论,以及和学生的并辩论等等这样的各种各样的方式来促使学生能够自己一步一步的去解决这个问题, 同同时呢,能够提升他们啊自己来进行推理和反思的,以及这种批判性思维的能力。 那基于这个想法,我们就在三乐模型的基础之上,又结合 infant agent 这个推理模型,就构造了我们的这个苏格拉底式教学智能体。那在苏格拉底式教学智能体中 给定一道习题模型,先会用这个推理模型将这个习题拆解成多个解题步骤,但他不会立刻把这个 解题步骤像其他大模型一样直接就告诉给我们的学生,而是通过我们的三乐模型,他在这个步骤的指引下,就可以一步一步的通过提问的方式来引导学生最终能够自己的来答对这道题目, 那这里也是我们这个苏格拉底智能题的一个工作流程。那这里可以看到学生他上传了一道题目,我们的模型经过一段分析之后,其实在背后他已经将这道问题的答案啊拆解出来了,那这里是一道啊编程题, 但但是呢,他并没有把这个啊答案告诉学生,而是给学生提出了一个问题,那学生看到这个问题之后呢,他就会啊给出他的一个解答,那这里就是学生看到问题之后啊他的一个解答的情况,那可以看 看到啊,在学生提出他的回复之后,我们大模型发现,其实对于这一步来说,他是有不同的解决方案的,那他也会把其他一些可选的方案告诉我们的同学,提升同学用多样化的手段来解决问题的这样的一个能力。 那就这样循环往复的通过啊多轮对话的啊进行。比如说这里就是学生他可能回答问题的过程中也会遇到一些小问题,那有一些关联的知识点,他可能不大理解,那模型也会对他进行一个啊针对性的辅导, 那直到最后呢,就这样一步一步的,我们最终模型就引导学生啊,可以啊自己的解决这个问题,那引导完之后呢,我们模型还会生成一个啊总结报告,来总结这个学生在答对这道题的过程中,他的一些学习情况, 比如说他有些知识点还有待提升等等一共学生后续的学习环节来进行参考。 那刚才所介绍的就是我们的三乐大模型和一系列的基于三乐大模型的啊智能体, 但是就是大模型,虽然他的一个优势在于他有拥有非常广泛的知识和强大的语言理解能力,但是由于他是一个通用的模型, 因此在应用到教育领域的时候,除了刚才苏格拉底那个场景下所介绍的挑战之外,他在个性化学习服务提供方面也存在一些挑战。 那比如像这个例子中所展示的这样,这里有三个学生,但这三个学生呢,他们其实啊知识水平或者是对知识点的掌握程度是各不相同的。那目前的大模型呢?他的回答,呃缺乏 这种差异性,他不能考虑到不同学生的这个认知水平的差异。那同时呢,目前的模型他专注于演示这个解题的过程,这就导致学生他是在啊被动的去接受知识,缺乏对学生这个主动思考能力的提升。 因此针对这个问题,我们也构建了一个啊两阶段的个性化学习的智能题,那它主要首先通过这种啊学生和大模型进行对话,来实现大模型对学生的一个啊人际协同的这样的一个诊断。那这个诊断的目的就是 为了形成让大模型首先他在给学生进行辅导之前,他能够对这个学生的知识掌握水平啊有一个大概的了解。那在这个协同诊断步骤之后,我们 就引入了这样的一个自适应的辅导这样的一个阶段,那我们的这个认知诊断的第一阶段的这个认知诊断的一个结果,也为我们第二阶段的这个个性化适应性的辅导提供了一个依据, 那在这个第二阶段的话,我们主要引入了一个啊快思考和慢思考的策略,那就使我们的模型所采用的辅导策略既高效又能够与学生的认知水平相适配, 同时可以保证学生在啊学习的过程中参与度是非常高的,而不是被动的去接收大模型所产生的知识。 那此外呢,像啊刚才吴超老师所介绍的这样,在我们人文社科领域现在也有大量的研究是利用我们的啊基于大元模模型的智能体来进行啊 模拟仿真的这样的有很多这样的工作,那同样在我们教育的领域啊,也有这样的一些工作,那它主要是通过这种基于大圆模型的模拟仿真 赋能我们的教育。比如说我们可以构建一个模拟仿真的环境,里面有很多啊大圆模型所模拟的教师以及大圆模型智能体所模拟的学生,那我们很多一些理论都可以在这个模拟仿真的环境中来进行验证。 但是呢,这样的一些模拟的工作在教育场景进行应用的话,我们也发现他是具有啊不小挑战的,因为大家也知道大模型他的主要的任务就是我最看重的内容就是我能够输出正确性的知识,就大家目前的大部分的努力都是在往提升模型的 正确性这个方面所展开的。那由于模型他是这样的一个训练目标,就导致我们在我们的大圆模型在模拟学生的时候,会存在这样的一个问题,也就是说他没有办法精确的去模拟不同认知能力等级的这样的一个学生, 也就是说像我们这边这样的例子所展示的这样,我们让大语言模型来扮演一个小学生, 那就是老师给他提给这个大圆模型所扮演的小学生提了一个问题,让他分别输出 x 平方的啊两倍和倒数, 那可以看到这里我们这个大圆模型的所模拟的这个学生智能体呢,他就,嗯,虽然他语气上还挺像在模拟一个小学生的,但是呢,他输出的内 内容其实超越了啊小学生的知识边界,也就是说对于导数这个概念其实小学生不了解的,但大原模型在他扮演小学生的时候却正确的解对了这道题。 那这就导致一个问题,也就是说在教育学的基于大员模型的模拟仿真环境中,我们的学生智能体其实没有办法精确的去啊复刻我们不同知识知识水平的学生的行为这样的一个事情。 那针对这个问题呢,我们就构建了一个啊,无需训练的针对学生个体的,然后深入到知识层面的这样的一个大圆模型辅助的学生模拟框架, 那这个框架他首先就是会分析学生的啊历史答题记录,然后来实现对学生啊这个认知原型的构建,也就是说他会先分析这个学生 大概是啊什么样的水平,那他会基于对学生水平的分析来进一步的去预测学生 未来行为,那基于这个对未来行为的精确预测,他就可以实现对不同知识层级水平的学生的这种解答过程的一个复线,从而提升我们这种啊基于大圆模型的智能体来进行教育学模拟仿真的这样的一个系统的精确性。 那通过今天的一个小时呢,我们首先解析了啊人类理解语言的过程,那并在人类理解语言过程的啊基础之上呢,又通过类比的方式为大家介绍了我们的通用大语言模型 以及推理模型,它的一个构建的形象化的基本的原理。那最后又通过案例的方式,我们 可以看到基于大圆模型的智能体也正在崛起,并且正在为我们的社会科学研究架设了一个啊数字的模拟仿真环境,或者大家可以把它理解为一个啊数字化的一个实验室。 那这些大原模型他们通过非常强大的啊文本理解和生存能力呢,就为我们的啊社会学,包括我们的啊教育学等等学科提供了一个可以观测我们人类行为的更多样化的这样的一个手段。 那智能体基于智能体我们就可以构建一个啊虚拟的社会,那我们相关的一些啊政策模拟,或者是我们的一些教学策略的一些验证都可以啊在这个模拟仿真环境中来进行,也就突破了我们之前啊由于 些啊时空的限制或者一些伦理的约束,导致相关的这种啊实验没有办法很好的高效的进行开展。 那这场变革呢,也带来了很深层次的一些技术上的挑战,比如说我刚才所介绍的我们的大圆模型,其实他没有办法像我们人一样,他是也可以像我们的真实的学生一样可以精确的展现出个体差异很大的这样的一个知识状态, 这都对我们的社会学模拟仿真带来了很大的挑战。那除此之外还有一些啊,伦理方面的挑战等等。 但是不论怎样呢,大家都可以看到这种人机协同的这种科研范式,他正在逐步的形成和崛起。那希望我们大家呢都可以啊,抓住这这次机遇, 碰撞出我们人工智能和其他学科这种交叉领域研究的火花啊。谢谢大家,感谢大家的聆听。