粉丝985获赞4110

在拆的 gbd 背后的这个 transform 架构,他是如何工作的?我们先来看一下原文,那么看起来非常复杂,他有很多的模块,比如说多投注意力,比如说曾规划乾坤网络啊,向量嵌入等等,看起来非常难,但其实大家听我用老百姓都能听得懂的语言来介绍一遍,大家会发现每个人都能理解 transform 的架构。 首先 transform 架构用作样本数据的训练,以及训练预输出文字的预测,那么在训练的时候,我们会丢入一些样本的数据,然后把这些数据转第一步转换成对应的数字, 我们有了文本,对应了数字之后,我们再加入位置信息编码,也就是说每一个数字在原本文字中的位置是第几位?一、二、三,四。那么有了数字代表的文字和他的位置信息之后,我们就把这个值复制成了三份, 分别给了这个鱼冠学习这个模块,那么它里面进行了一系列的运算之后得出来的一个矩阵,这个矩阵呢就是我们文字十一个文字的长度乘以十一个文字的长度这样的一个矩阵,那么矩阵里的每一个值都是数字,这个数字代表了 每一个文字对应其他文字的鱼与关系,那么这个数字越高,代表了这两个字的关系越近,那么这个数字越低呢?可能代表了这两个字的关系越疏远。 好了,有了这个矩阵的数字之后,因为我们做的是乘法,所以大的数字变得非常大,小的数字变得非常小,我们将数字进行了一次缩放,把他们的空间拉的近一些, 然后就丢给了那经典的神经网络层,那么神经网络呢?是机器学习训练的一个经典的架构,里面有很多隐含层,大家现在并不需要去理解那么深。其实 在 transformer 和大圆模型中,由于神经网络层非常多,在学术界也没有人百分之百的知道他具体是怎么工作的,但由于是模仿的人脑,他的效果非常好,那么出了这层之后,这个数字又被打散了,大的非常大,小的非常小,那我们再进行一次缩放 好,这个时候我们就已经完成了一个 transformer 块的计算,那么由于我们有多个块,所以我们出来之后,我们再返回进入第二次的计算, 第二次结束之后再返回,那么经历了多次循环之后,最后一次我们输出的结果,我们给他丢到了一个叫做全部数字列队。 那什么是全部数字呢?由于我们训练样本文字的时候,可能非常海量的数字,有一万个不同的字,那么每一次丢进去的是抽样的小的样本,那么这个时候我们就有一个一万个字的这样的一个列表,那么我们训练出来的东西呢?有了数字之后我们 就往里面填,那么最终我们会有一万个数字列表,这个数字里面数字列表里面的每一个数字就是这种概率,然后我们将这种概率转换成百分比的形式,也就是说所有的数字总和加起来等于一,那每一个数字 的值就是百分比,那么我们选百分比最高那个数字,就是模型预测的与关系最近的那个数字,然后我们输出了三十五,那么三十五代表了沈阳的沈, 也就是说如果理想状态下,模型预测出了小沈阳,江西演唱会邀请了沈,那么很可能再预测下去就是沈春阳。 简单来说, transformer 结构的大语言模型就是在不断的通过文字转换成的数字进行关系学习,那么神经网络呢?就是记录这些学习到底 权重的过程,然后输出了一个概率最高的字,那么往复不断的循环这个过程就形成了我们的大语言模型。在接下来的视频里,我会将每一块模块如何去工作的自己大家一一介绍,那么关注我,我们一起来学习 transformer 大语言模型,记得点赞关注哦!