sigmoid梯度消失怎么解决 - 抖音

您是不是在找：

计算机李老师2年前

人工智能神经网络训练为什么会出现梯度消失和梯度爆炸呢？快来看看激活函数吧#知识科普 #人工智能 #ai教程 #人工智能优化算法 #人工智能技术

00:00 / 04:48

连播

清屏

智能

倍速

点赞177

AI-Signal2周前

深度学习不收敛？8大原因速查！ loss不下降、训练不稳定、模型学不会，别再盲目调参！数据、参数、结构、优化器，核心问题一次讲透，快递上手解决！#深度学习 #损失函数 #优化器 #学习率 #数据治理

00:00 / 01:10

连播

清屏

智能

倍速

点赞2796

我是条友君君2年前

人工智能面试梯度消失概念及如何解决

00:00 / 01:40

连播

清屏

智能

倍速

点赞14

就是Iris3年前

深度学习神经网络梯度消失与梯度爆炸 @抖音小助手 #深度学习 #神经网络 #人工智能 #强化学习 #知识分享 #就是Iris

00:00 / 01:40

连播

清屏

智能

倍速

点赞1032

Taylor Swift学AI淘金2月前

百面机器学习72 | 为什么Sigmoid和Tanh激活函数百面机器学习72 | 为什么Sigmoid和Tanh激活函数会使梯度消失？ #人工智能 #机器学习

00:00 / 07:29

连播

清屏

智能

倍速

点赞0

培根蛋挞奶酪芝士超人2周前

第14集-深度学习-RNN与LSTM-循环神经网络和长短期记忆网络对比-梯度消失详解- RNN和LSTM到底有什么区别-梯度消失是怎么缓解的- RNN与LSTM的应用场景#真实生活分享计划 #RNN #LSTM #深度学习 #梯度消失下一期讲transformer～

00:00 / 06:36

连播

清屏

智能

倍速

点赞449

吃个东西3月前

一分钟复习八股之 #激活函数 #深度学习

00:00 / 01:12

连播

清屏

智能

倍速

点赞6750

Forrest的数据科学站1年前

softmax如何产生梯度问题的？我们知道sigmoid会产生梯度消失的问题，但是其实softmax也会，这个视频就让我们一探究竟吧 #数据科学 #机器学习 #激活函数 #算法工程师面试 #数据科学面试

00:00 / 14:32

连播

清屏

智能

倍速

点赞35

培根蛋挞奶酪芝士超人2周前

第12集-深度学习-循环神经网络-RNN-案例讲解-隐藏状态-梯度消失-梯度爆炸#真实生活分享计划 #青年创作扶持计划 #人工智能 #深度学习 #循环神经网络下一期是LSTM！

00:00 / 05:58

连播

清屏

智能

倍速

点赞977

coward咿呀咿9月前

RNN循环神经网络及其梯度消失，手把手公式推导+大白话讲解 #机器学习 #深度学习 #计算机视觉 #自然语言处理 #人工智能

00:00 / 53:56

连播

清屏

智能

倍速

点赞16

文一西路代码狗1周前

大模型底层ResNet残差网络实现原理详解，看完彻底听懂！ ResNet残差连接：彻底解决深度网络的两大难题：信息丢失 + 梯度消失。 #ResNet #transformer神经网络架构 #残差网络 #底层原理详解 #深度学习

00:00 / 03:46

连播

清屏

智能

倍速

点赞13

AI大模型入门教程5月前

面试官：大模型训练中梯度消失和爆炸的解决方案#AI大模型 #后端开发 #人工智能 #面试

00:00 / 09:09

连播

清屏

智能

倍速

点赞367

AI大模型面试4月前

面试被问：大模型训练中梯度消失和爆炸的解决方案？每天讲透一个AI大模型面试问题【大模型训练中梯度消失和爆炸的解决方案？】 #AI大模型 #大模型 #大模型学习 #人工智能 #面试问题及回答技巧

00:00 / 08:40

连播

清屏

智能

倍速

点赞30

coward咿呀咿9月前

循环神经网络原理详解：大白话讲解LSTM长短期记忆网络如何缓解梯度消失，手把手公式推导反向传播！ #机器学习 #深度学习 #计算机视觉 #人工智能 #研究生

00:00 / 53:56

连播

清屏

智能

倍速

点赞70

秦老司4年前

RNN的梯度消失和梯度爆炸 #梯度消失 #梯度爆炸 #RNN

00:00 / 07:22

连播

清屏

智能

倍速

点赞152

埋头苦读1年前

残差网络！一个连何恺明都在研究的领域！【ResNet】是近年来深度学习领域中备受关注的一种网络架构，它通过引入残差连接（skip connections），有效解决了深层网络中的梯度消失问题，从而显著提升了模型在图像分类、目标检测等任务中的表现。残差网络技术已经在计算机视觉、自然语言处理和音频分析等多个领域取得了显著成果，其独特的方法和有效的表现使其成为研究热点之一。#论文 #神经网络 #深度学习 #人工智能 #研究生

00:00 / 00:31

连播

清屏

智能

倍速

点赞104

飞旋乒乓1年前

多孔结构sigmoid函数梯度渐变设计方法视频展示了利用sigmoid函数内核制作的多孔晶格结构梯度渐变的设计方法，方法使用的是自定义nTop功能块实现的，方便大家实时设计。案例源文件稍后在评论区推出，感谢收看，有nTop软件教程需求和科研绘图、科研设计需求的朋友可以私信，再次感谢收看！

00:00 / 10:43

连播

清屏

智能

倍速

点赞5

AI大模型入门教程9月前

大模型训练中梯度消失和爆炸的解决方案 #后端开发#程序员#AI大模型#大模型#人工智能

00:00 / 10:58

连播

清屏

智能

倍速

点赞209

十亿机器学习7月前

逻辑回归的本质，是用 Sigmoid 函数将线性模型的结果映射到 (0,1) 概率空间。而参数求解并不像线性回归那样有解析解，因此我们借助梯度下降迭代优化。在视频中，我将展示完整的计算过程：从损失函数、梯度公式，到参数迭代更新，帮助你直观理解逻辑回归背后的数学原理。#逻辑回归 #梯度下降法 #知识分享 #每天跟我涨知识 #涨知识

00:00 / 01:05

连播

清屏

智能

倍速

点赞27

七哥不水科研1周前

残差改了8版，注意力换了4种，精度一动不动，你管这叫科研？#残差连接 #注意力机制 #精度 #科研 #科研狗的日常

00:00 / 01:45

连播

清屏

智能

倍速

点赞3033

事必亲躬3周前

《理解深度学习》第13课-深度学习训练的初始化与实现本课聚焦参数初始化与训练实践。重点推导了 **He 初始化**，旨在维持传播过程中激活值与梯度的方差稳定，从而有效解决梯度消失与爆炸问题。此外，还介绍了内存优化技术及支持超大模型训练的分布式并行方案。#He初始化 #梯度稳定性 #分布式训练

00:00 / 23:14

连播

清屏

智能

倍速

点赞34

南风-论文指导1周前

2026必冲科研方向！LSTM+注意力机制破解传统LSTM梯度消失、关键特征遗漏困境，兼顾长时序建模与聚焦精度，创新清晰易复现，适配顶会场景#SCI#计算机SCI#机器学习#LSTM#注意力机制

00:00 / 00:44

连播

清屏

智能

倍速

点赞23

代码 lin1年前

CNN模型训练时梯度直接消失成零，加了Relu也没用啊,难道要换成sigmoid，跟我聊聊，带你解决算法。创新改进优化的问题#算法创新#数据 #人工智能#计算机 #深度学习

00:00 / 00:07

连播

清屏

智能

倍速

点赞68

吃个东西2月前

一分钟复习八股之 #优化器 #深度学习 #真实生活分享计划

00:00 / 01:36

连播

清屏

智能

倍速

点赞4030

顽皮的程序员2周前

学习率优化器梯度微调必懂核心🔥 大模型微调超参数第二弹！用期末复习、写材料类比讲透 learning rate、scheduler、AdamW 优化器，通俗解释梯度、梯度消失爆炸、warmup 预热，小白也能秒懂训练逻辑～ #大模型微调 #AI教程 #深度学习 #学习率 #梯度下降

00:00 / 06:43

连播

清屏

智能

倍速

点赞8

云博士的AI课堂3周前

PyTorch梯度可视化 pytorch入门_可视化梯度

00:00 / 03:45

连播

清屏

智能

倍速

点赞14

AI-Signal6天前

常见的模型中，Qwen3，Deepseek-v3，字节开源系列，Yolo当前较新模型使用的基本是SiLU/SwiLU（LLaMA系标配）。而刚刚发布的Gemma4，以及sam大模型使用的主要是GeLU/GeGLU。通常来讲GeGLU的稳定性强于SwiLU，但相应地，表达性稍弱。 Transformer原始模型的激活函数选用了ReLU。#深度学习 #大模型 #人工智能 #激活函数 #非线性

00:00 / 01:05

连播

清屏

智能

倍速

点赞2755

茉莉AI3天前

层归一化 #人工智能 #chatgpt #层归一化介绍当代大模型Transfomer架构中的层归一化。讲解层归一化的作用和计算方法。

00:00 / 02:16

连播

清屏

智能

倍速

点赞90

AI向先生3周前

👉马斯克点赞：Transformer最核心的一行代码，改了马斯克点赞了一篇论文。但这次，问题不在Attention。 👉 被改的，是Residual。从何凯明的ResNet，到 Transformer，再到Attention Residual。本质只有一个问题： 👉 信息，在深度中怎么被重新组织？这可能是Transformer的下一次进化。你觉得，这个方向能成吗？ #ai #马斯克 #kimi #注意力残差 #何凯明

00:00 / 02:43

连播

清屏

智能

倍速

点赞23

i3周前

机器学习 LSTM openclaw 生成视频#openclaw#养龙虾

00:00 / 01:07

连播

清屏

智能

倍速

点赞42

技术王2月前

Relu激活函数的铁拳你以为Relu激活函数就这么简单？结合到深度神经网络中，再加上浓郁的八股味，你就会体验到什么是真正的铁拳了，一起来接受铁拳吧！#深度学习 #ai面试

00:00 / 05:59

连播

清屏

智能

倍速

点赞15

巴郎的模型有点大（誉天教育）5月前

为啥神经网络会“梯度消失”或“爆炸”#AI #大模型 #大模型训练 #机器学习 #深度学习

00:00 / 01:27

连播

清屏

智能

倍速

点赞8

AI变现进行时2周前

ResNet人工智能领域最具影响力的论文之一 #人工智能 #深度学习 #agent #热门 #学习

00:00 / 01:16

连播

清屏

智能

倍速

点赞27

在搞AI科研，憋烦姐11月前

剑指Softmax注意力梯度下降，实在厉害！深度学习大升级 #注意力机制#深度学习#机器学习 #人工智能 #论文

00:00 / 00:53

连播

清屏

智能

倍速

点赞21

老诸的Ai朋友圈3周前

高中生改写AI底层，马斯克点赞#Kimi #AttentionResiduals #陈广宇 #AI逆袭 #老诸的Ai朋友圈

00:00 / 02:10

连播

清屏

智能

倍速

点赞31

寻2月前

Weak-Driven Learning: How Weak #WMSS提出“弱代强”范式利用弱代理（如历史检查点）的纠错信号引导强模型优化。通过混合逻辑层（Logit Mixing）和课程学习，该方法有效解决了后期训练的优化饱和与梯度消失问题。实验证明，它能显著提升模型在数学和代码任务中的表现，且不增加推理成本。 arXiv: 2602.08222 #AI #Research #Arxiv #MachineLearning

00:00 / 06:46

连播

清屏

智能

倍速

点赞0

殷殷之言3周前

#神经网络 #人工智能 #数学之美 #ai #梯度

00:00 / 03:58

连播

清屏

智能

倍速

点赞6

金蓝海3年前

如何缓解梯度消失和梯度膨胀（微调、梯度截断、改良激活函数等）#人工智能 #服务器 #机器学习 #高性能计算 #算法

00:00 / 01:11

连播

清屏

智能

倍速

点赞7

金蓝海3年前

缓解梯度消失和梯度爆炸的方法有哪些？#人工智能 #机器学习 #服务器 #生命科学 #算法

00:00 / 00:47

连播

清屏

智能

倍速

点赞5

分子知识 Knowlecule1月前

AI训练中的隐藏灾难，循环神经网络优化难题循环神经网络在理论上可以记住很久以前的信息，但在实践中却经常“学崩”。这篇论文系统分析了RNN训练中两个核心问题：梯度消失与梯度爆炸。作者从线性代数角度证明，当循环权重矩阵的最大特征值大于1时，梯度会指数级爆炸；当小于1时，梯度会指数级消失。论文进一步从动力系统视角解释了为什么RNN会在不同吸引子之间跳跃导致训练不稳定，并提出了梯度裁剪（gradient clipping）作为一种简单有效的解决方案。这篇工作不仅奠定了RNN稳定训练的理论基础，也成为后来LSTM、Transformer优化方法的重要理论来源。本期内容基于论文《On the difficulty of training Recurrent Neural Networks》，作者为 Razvan Pascanu、Tomas Mikolov 和 Yoshua Bengio，2013年发表于 arXiv。 #AI #人工智能 #科普 #科研 #大模型

00:00 / 05:00

连播

清屏

智能

倍速

点赞23

不如语冰4月前

AI大模型入门2.5.2-激活函数2-深度学习时期跟着问题学——AI大模型入门的激活函数，介绍深度学习时期的激活函数sigmoid，tanh，relu及其变体。代码和笔记（更新中）https://github.com/zyf-ngu/Qmatter，欢迎讨论交流。#大模型 #激活函数 #sigmoid #relu

00:00 / 06:26

连播

清屏

智能

倍速

点赞24

zidea5年前

自然语言处理(5)—循环神经网络反向传播

00:00 / 13:04

连播

清屏

智能

倍速

点赞3

辣弟伏特加5月前

小猫学AI #萌宠出道计划 #AI #金渐层 #毛孩子 #人工智能

00:00 / 01:42

连播

清屏

智能

倍速

点赞5

北邮景睿1年前

CNN模型训练时梯度直接消失成零，加了ru也没用，真的太难了。#算法创新 #大模型 #多模态

00:00 / 00:07

连播

清屏

智能

倍速

点赞49

不如语冰4月前

AI大模型入门2.6.2-梯度消失与爆炸解决方法跟着问题学——AI大模型入门的梯度消失与爆炸的解决方法。代码和笔记（更新中）https://github.com/zyf-ngu/Qmatter，欢迎讨论交流。#梯度消失 #梯度爆炸 #大模型

00:00 / 03:48

连播

清屏

智能

倍速

点赞28

云博士的AI课堂7月前

激活函数解决梯度消失问题。#机器学习 #人工智能 #深度学习

00:00 / 00:21

连播

清屏

智能

倍速

点赞8

茉莉AI4月前

大语言模型训练6 #人工智能 #神经网络 #前馈神经网络 #动画说AI 大语言模型训练第六期，通过动画理解梯度消失原因，看懂残差网络，并解决梯度消失问题。

00:00 / 01:50

连播

清屏

智能

倍速

点赞19

和森致远知识社区1年前

IndependentComponentsAnalysis 介绍了将混合后信号通过unmixing matrix进行原始信号恢复的方法，介绍了信号的条件(如不能为高斯分布），在这里采用了sigmoid作为cdf来对p(s)进行建模,并通过对数似然函数对W(unmixing matrix)进行求导进行梯度下降进行参数更新求解。

00:00 / 38:11

连播

清屏

智能

倍速

点赞6

AI编程杰克2年前

#梯度消失 #干货分享 #一分钟干货教学 #计算机 #人工智能

00:00 / 02:08

连播

清屏

智能

倍速

点赞10

科研牛马1周前

#科研狗的日常 #科研 #计算机科学与技术 #大模型

00:00 / 01:38

连播

清屏

智能

倍速

点赞4

吃个东西2月前

一分钟复习八股之#数值初始化 #深度学习

00:00 / 01:39

连播

清屏

智能

倍速

点赞176

算法与AI3月前

残差网络（ResNet）#知识科普 #涨知识 #人工智能算法 #科技创新 #ai应用教学

00:00 / 01:52

连播

清屏

智能

倍速

点赞9

张居然4月前

研究生科研工具分享，三用三不用#研究生 #干货分享 #万兴图示

00:00 / 00:31

连播

清屏

智能

倍速

点赞8371

卧龙先生10月前

Berkeley伯克利PINNs论文复现 Berkeley伯克利PINNs论文复现，解决大参数，长时间方程pinn训练失败问题本视频复现了加州大学伯克利分校在物理信息神经网络（PINNs）领域的代表性研究，聚焦于大参数刚性方程与长时间演化问题中PINNs训练失败（如发散、梯度消失、误差累积等）现象，通过引入课程学习（Curriculum Learning）、时间推进策略（Time-Marching）、等关键机制，实现了对高反应率反应扩散方程、长时间动态系统等典型问题的稳定高精度建模，为复杂物理系统的神经网络建模提供了可扩展的训练范式。 #长时间预测 #物理信息神经网络 #大参数问题 #人工智能 #PINN

00:00 / 08:38

连播

清屏

智能

倍速

点赞7

面部提升夏志冉4月前

30+抗衰最大误区，还在折腾五官？救脸先救轮廓！ #面部提升#抖出健康知识宝藏#健康科普破圈计划#修复型抗衰

00:00 / 00:57

连播

清屏

智能

倍速

点赞17

啊～是沈老师1年前

#沈炜松工作室 #爱眼护眼

00:00 / 00:48

连播

清屏

智能

倍速

点赞15

荔枝-论文指导1周前

时序预测新范式！Transformer 重构长序列依赖，精准捕捉趋势与周期#sci论文#深度学习#机器学习#transformer#时间序列

00:00 / 00:46

连播

清屏

智能

倍速

点赞22

小戴动漫1年前

第九章#爽文#修仙#修真

00:00 / 03:35

连播

清屏

智能

倍速

点赞9

芒果-论文指导3周前

Transformer 捕获长程依赖，精准建模时序动态，预测精度与鲁棒性双提升#sci论文#transformer#时间序列#研究生论文#深度学习

00:00 / 00:46

连播

清屏

智能

倍速

点赞20

AI大模型杰睿4月前

大模型面试题：大模型训练中梯度消失和爆炸的解决方案（上集） #大模型#ai#互联网大厂#人工智能就业#大模型面试题

00:00 / 05:21

连播

清屏

智能

倍速

点赞24

AI求职陪跑-peter黄7月前

35：MLP 反向传播细节！梯度咋流动？参数咋更新？上次没吃透？深挖隐藏层细节：梯度消失 / 爆炸：激活函数咋影响梯度？咋用 ReLU 缓解？批量更新 vs 单样本：为啥 Batch 训练更稳定？（附公式对比）调试技巧：梯度为 0 咋排查？学习率咋调整？解决反向传播 “卡壳点”，调参不再凭感觉！#ai #就业 #python #大模型学习

00:00 / 03:57

连播

清屏

智能

倍速

点赞4

AI图图酱1年前

魔改ResNet反超Transformer性能登顶发文无压力为克服这些挑战，研究者们基于原始的ResNet架构设计了多种变体，比如性能反超Transformer的ConvNeXt、准确率高达98.42%的FC-ResNet等。这些改进方案解决了深层网络训练中的梯度消失问题，并简化了学习过程，在提高模型精度和训练效率方面表现出色。#transformer #深度学习 #机器学习 #时间序列 #算法

00:00 / 00:36

连播

清屏

智能

倍速

点赞14

简介:

您在查找“sigmoid梯度消失怎么解决”短视频信息吗？帮您找到更多更精彩的短视频内容！最新发布时间：2026-04-11 07:09

最新推荐:

相关推荐:

热门推荐: