Transformer为何是AI核心引擎，干货AI科普培训报名请私信#科普#ai#transformer #大语言模型#干货

transformer是谁提出的

670

15

448

144

举报

发布时间：2025-11-24 10:06

问西东智能

粉丝985获赞4110

相关视频

11:13
每天讲透一个AI大模型知识点，今天是：Transformer #人工智能 #大模型 #AI大模型 #大模型学习 #Transformer
1.0万AI大模型学习
08:29
CV 圈谁最能打？当然是 Swin Transformer CV 圈顶流 Swin Transformer 的原理有多绝？#Swin#机器学习 #神经网络 #深度学习 #计算机视觉
1003Ai算法工程师Power
03:55
Transformer系列（1）整体架构 3分钟让你搞懂流行大模型的根基~~#抖音知识年终大赏 #Transformer #人工智能 #生成式人工智能 #大模型
1783教AI的陶老师🍫
15:11
15分钟彻底学懂Transformer的核心-注意力机制！ #人工智能 #ai #大模型 #程序员 #计算机
2487大模型老舟
02:06
通俗拆解人工智能领域的革命性架构Transformer #人工智能 #大模型 #机器学习 #知识科普
477就是Iris
01:56
发明Transformer的人真是个天才 Transformer 位置向量 #AI在抖音 #AI科普进行时
2.0万程序员眼罩
01:01:42
一小时从函数到Transformer #ai新星计划 #深度学习 #神经网络 #大模型 #人工智能
01 从函数到神经网络
02 计算神经网络的参数
03 调教神经网络的方法
04 从矩阵到CNN
05 从RNN到Transformer
06 简单而强大的Transformer
07 速览大模型100词
10.1万飞天闪客
03:39
谁都能听懂的Transformer #大模型 #transformer神经网络架构 #ai基础教程
查看AI文稿
AI文稿
在拆的 gbd 背后的这个 transform 架构，他是如何工作的？我们先来看一下原文，那么看起来非常复杂，他有很多的模块，比如说多投注意力，比如说曾规划乾坤网络啊，向量嵌入等等，看起来非常难，但其实大家听我用老百姓都能听得懂的语言来介绍一遍，大家会发现每个人都能理解 transform 的架构。首先 transform 架构用作样本数据的训练，以及训练预输出文字的预测，那么在训练的时候，我们会丢入一些样本的数据，然后把这些数据转第一步转换成对应的数字，我们有了文本，对应了数字之后，我们再加入位置信息编码，也就是说每一个数字在原本文字中的位置是第几位？一、二、三，四。那么有了数字代表的文字和他的位置信息之后，我们就把这个值复制成了三份，分别给了这个鱼冠学习这个模块，那么它里面进行了一系列的运算之后得出来的一个矩阵，这个矩阵呢就是我们文字十一个文字的长度乘以十一个文字的长度这样的一个矩阵，那么矩阵里的每一个值都是数字，这个数字代表了每一个文字对应其他文字的鱼与关系，那么这个数字越高，代表了这两个字的关系越近，那么这个数字越低呢？可能代表了这两个字的关系越疏远。好了，有了这个矩阵的数字之后，因为我们做的是乘法，所以大的数字变得非常大，小的数字变得非常小，我们将数字进行了一次缩放，把他们的空间拉的近一些，然后就丢给了那经典的神经网络层，那么神经网络呢？是机器学习训练的一个经典的架构，里面有很多隐含层，大家现在并不需要去理解那么深。其实在 transformer 和大圆模型中，由于神经网络层非常多，在学术界也没有人百分之百的知道他具体是怎么工作的，但由于是模仿的人脑，他的效果非常好，那么出了这层之后，这个数字又被打散了，大的非常大，小的非常小，那我们再进行一次缩放好，这个时候我们就已经完成了一个 transformer 块的计算，那么由于我们有多个块，所以我们出来之后，我们再返回进入第二次的计算，第二次结束之后再返回，那么经历了多次循环之后，最后一次我们输出的结果，我们给他丢到了一个叫做全部数字列队。那什么是全部数字呢？由于我们训练样本文字的时候，可能非常海量的数字，有一万个不同的字，那么每一次丢进去的是抽样的小的样本，那么这个时候我们就有一个一万个字的这样的一个列表，那么我们训练出来的东西呢？有了数字之后我们就往里面填，那么最终我们会有一万个数字列表，这个数字里面数字列表里面的每一个数字就是这种概率，然后我们将这种概率转换成百分比的形式，也就是说所有的数字总和加起来等于一，那每一个数字的值就是百分比，那么我们选百分比最高那个数字，就是模型预测的与关系最近的那个数字，然后我们输出了三十五，那么三十五代表了沈阳的沈，也就是说如果理想状态下，模型预测出了小沈阳，江西演唱会邀请了沈，那么很可能再预测下去就是沈春阳。简单来说， transformer 结构的大语言模型就是在不断的通过文字转换成的数字进行关系学习，那么神经网络呢？就是记录这些学习到底权重的过程，然后输出了一个概率最高的字，那么往复不断的循环这个过程就形成了我们的大语言模型。在接下来的视频里，我会将每一块模块如何去工作的自己大家一一介绍，那么关注我，我们一起来学习 transformer 大语言模型，记得点赞关注哦！
4090LLM张老师学堂
08:12
一条视频带你搞懂Transformer
#大模型 #AI #transformer #算法学习 #知识科普
3605清华姜学长
08:55
AI界引来重大技术突破，Transformer架构被终结 AI界引来重大技术突破，Transformer架构被终结，AI算法的新魔王出世#AI#人工智能#Transformer#谷歌#DeepMind#MoR#混合递归
3316蒋先森的硅基大脑
03:44
Transformer诞生背后的故事 Transformer诞生背后的故事，Transformer的出现，让AI有实现AGI的可能性。 #人工神经网络 #知识领航者 #AI #openai #人工智能
80三良聊AI
04:35
一个公式9行代码废了transformer模型的三层！两位AI大佬联手，何恺明杨立昆让Transformer去归一化。#科技 #涨知识 #人工智能
8778基地
10:03
语言居然可以被计算出来？从 RNN 到 Transformer #rnn #deepseek #深度学习 #科普 #白话
1529飞天闪客
19:53
【大模型-Transformer构架教程】一个视频欢迎来到【大模型 - Transformer 构架教程】！通过这堂课，您将轻松掌握 GPT、BERT 等大模型的核心原理。我们将深入解析 Transformer 架构，用通俗的语言、细致的讲解，为您揭开 LLMs 的底层奥秘。不论您是入门新手，还是想更进一步，这堂课将帮助您从基础到进阶，一次视频彻底掌握大模型的精髓！#transformer神经网络架构 #transformer详解 #transformer原理
309Ai-Cat
01:45:11
理解Transformer，注意力机制Attention的本质是卷积神经网络CNN #深度学习 #GPT
1.3万王木头学科学
01:14
时间序列+Transformer！ iTransformer是重新审视Transformer结构后提出的时间序列预测基础，采用注意力机制进行多元相关性分析，并采用前馈网络进行序列表示。#人工智能 #transformer #时间序列 #注意力机制 #ai
92论文搬砖学长
02:40
21世纪最具影响力论文揭晓!AI独占四席 ResNet登顶 Nature发布21世纪最具影响力论文榜！AI 论文占四席，ResNet 登顶，Transformer、Random Forest、AlexNet纷纷上榜。AI 论文除了具有天然引用优势，更是开源与实用性加持。上榜论文揭示学术新趋势：方法、工具类论文正成引用 “黑马”！#ai在抖音 #nature #论文 #引用 #transformer神经网络架构
7684量子位
03:00
原来是这个架构让AI通了人性！大模型领域常说的Transformer到底是啥？
可以说，没有Transformer，AI就无法发展到如今的地步！
本视频为你揭开Transformer的神秘面纱，用直观的方式解释这项划时代的技术突破。
#学习 #每天跟我涨知识 #Qwen #通义千问 #科普
1132通义千问大模型
34:18
30分钟让你全面理解Transformer，建议收藏！别样感受。在知识的殿堂里，邂逅经典论文《Attentionls Al You Need》
—《Attention is all you need》论文解读及Transformer架构详细介绍
#大模型 #transformer神经网络架构 #人工智能 #AI #深度学习
120AI大模型Agent
12:24
今天我们来讲讲：多模态Vision Transformer #人工智能 #大模型 #AI大模型 #大模型学习 #大模型教程
6488AI大模型学习

热门推荐

热门分类