00:00 / 02:10
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:32
连播
清屏
智能
倍速
点赞NaN
00:00 / 06:41
连播
清屏
智能
倍速
点赞32
预训练语言模型的三大核心架构 预训练语言模型(PLM)的发展是自然语言处理(NLP)领域的里程碑式转变,其基础是强大的 Transformer 结构。Transformer 结构包含 Encoder 和 Decoder 两个部分。研究者针对这两部分的特点及 ELMo 的预训练思路,衍生出了三种核心模型架构: 1. Encoder-Only 架构: 仅堆叠 Transformer 的 Encoder 层,代表模型是 BERT (Bidirectional Encoder Representations from Transformers)。BERT 通过引入 掩码语言模型 (MLM) 和 下一句预测 (NSP) 任务,统一了自然语言理解 (NLU) 任务,确立了“预训练+微调”的范式。后续的改进模型如 RoBERTa 优化了预训练任务和数据规模,而 ALBERT 则侧重于通过参数分解和跨层参数共享来减小模型参数量。 2. Decoder-Only 架构: 仅堆叠 Transformer 的 Decoder 层,代表模型是 GPT 系列,也是当前大火的 LLM 的基座模型。这类模型使用 因果语言模型 (CLM) 作为预训练任务,天然适合自然语言生成 (NLG) 任务。GPT-3 凭借其巨大的体量(175B 参数量)开启了 LLM 时代,并提出了 少样本学习 (Few-shot) 的重要思想。LLaMA 和 GLM 系列模型是现代主流的开源 LLM,它们继承了 Decoder-Only 架构,并在预训练语料、上下文长度、和架构细节上持续优化。 3. Encoder-Decoder 架构: 同时保留 Encoder 和 Decoder,代表模型是 T5 (Text-To-Text Transfer Transformer)。T5 提出了 NLP 大一统思想,将所有 NLP 任务(如分类、翻译、问答)统一表示为“文本到文本”的转换问题,简化了模型设计和任务处理。 这三种架构各有优势,共同构成了现代 PLM/LLM 的技术基础,推动了 NLP 领域的持续进步。 #预训练语言模型 #Transformer #BERT #GPT #T5 #大语言模型
00:00 / 08:55
连播
清屏
智能
倍速
点赞23
00:00 / 00:33
连播
清屏
智能
倍速
点赞6347
00:00 / 01:50
连播
清屏
智能
倍速
点赞1
00:00 / 03:16
连播
清屏
智能
倍速
点赞1
00:00 / 07:36
连播
清屏
智能
倍速
点赞2