Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
精选
推荐
搜索
探索
直播
放映厅
短剧
小游戏
搜索
您是不是在找:
适合儿童ai生成口令豆包指令
codingplan可以接龙虾吗
野草助手酷狗音乐代码多少?
openclaw学习cc源码教程
微信小龙虾openclaw能做什么
iframe怎么无法定位
刷花键盘宏设置
tofai提交失败怎么办
gemma4搜索接口使用教程
codex归档线程后怎么再打开
计算机李老师
2年前
人工智能神经网络训练为什么会出现梯度消失和梯度爆炸呢?快来看看激活函数吧#知识科普 #人工智能 #ai教程 #人工智能优化算法 #人工智能技术
00:00 / 04:48
连播
清屏
智能
倍速
点赞
177
AI-Signal
2周前
深度学习不收敛?8大原因速查! loss不下降、训练不稳定、模型学不会,别再盲目调参! 数据、参数、结构、优化器,核心问题一次讲透,快递上手解决!#深度学习 #损失函数 #优化器 #学习率 #数据治理
00:00 / 01:10
连播
清屏
智能
倍速
点赞
2796
我是条友君君
2年前
人工智能面试梯度消失概念及如何解决
00:00 / 01:40
连播
清屏
智能
倍速
点赞
14
就是Iris
3年前
深度学习 神经网络 梯度消失与梯度爆炸 @抖音小助手 #深度学习 #神经网络 #人工智能 #强化学习 #知识分享 #就是Iris
00:00 / 01:40
连播
清屏
智能
倍速
点赞
1032
Taylor Swift学AI淘金
2月前
百面机器学习72 | 为什么Sigmoid和Tanh激活函数 百面机器学习72 | 为什么Sigmoid和Tanh激活函数会使梯度消失? #人工智能 #机器学习
00:00 / 07:29
连播
清屏
智能
倍速
点赞
0
培根蛋挞奶酪芝士超人
2周前
第14集-深度学习-RNN与LSTM-循环神经网络和长短期记忆网络对比-梯度消失详解- RNN和LSTM到底有什么区别-梯度消失是怎么缓解的- RNN与LSTM的应用场景#真实生活分享计划 #RNN #LSTM #深度学习 #梯度消失 下一期讲transformer~
00:00 / 06:36
连播
清屏
智能
倍速
点赞
449
吃个东西
3月前
一分钟复习八股之 #激活函数 #深度学习
00:00 / 01:12
连播
清屏
智能
倍速
点赞
6750
Forrest的数据科学站
1年前
softmax如何产生梯度问题的? 我们知道sigmoid会产生梯度消失的问题,但是其实softmax也会,这个视频就让我们一探究竟吧 #数据科学 #机器学习 #激活函数 #算法工程师面试 #数据科学面试
00:00 / 14:32
连播
清屏
智能
倍速
点赞
35
培根蛋挞奶酪芝士超人
2周前
第12集-深度学习-循环神经网络-RNN-案例讲解-隐藏状态-梯度消失-梯度爆炸#真实生活分享计划 #青年创作扶持计划 #人工智能 #深度学习 #循环神经网络 下一期是LSTM!
00:00 / 05:58
连播
清屏
智能
倍速
点赞
977
coward咿呀咿
9月前
RNN循环神经网络及其梯度消失,手把手公式推导+大白话讲解 #机器学习 #深度学习 #计算机视觉 #自然语言处理 #人工智能
00:00 / 53:56
连播
清屏
智能
倍速
点赞
16
文一西路代码狗
1周前
大模型底层ResNet残差网络实现原理详解,看完彻底听懂! ResNet残差连接: 彻底解决深度网络的两大难题:信息丢失 + 梯度消失。 #ResNet #transformer神经网络架构 #残差网络 #底层原理详解 #深度学习
00:00 / 03:46
连播
清屏
智能
倍速
点赞
13
AI大模型入门教程
5月前
面试官:大模型训练中梯度消失和爆炸的解决方案#AI大模型 #后端开发 #人工智能 #面试
00:00 / 09:09
连播
清屏
智能
倍速
点赞
367
AI大模型面试
4月前
面试被问:大模型训练中梯度消失和爆炸的解决方案? 每天讲透一个AI大模型面试问题【大模型训练中梯度消失和爆炸的解决方案?】 #AI大模型 #大模型 #大模型学习 #人工智能 #面试问题及回答技巧
00:00 / 08:40
连播
清屏
智能
倍速
点赞
30
coward咿呀咿
9月前
循环神经网络原理详解:大白话讲解LSTM长短期记忆网络 如何缓解梯度消失,手把手公式推导反向传播! #机器学习 #深度学习 #计算机视觉 #人工智能 #研究生
00:00 / 53:56
连播
清屏
智能
倍速
点赞
70
秦老司
4年前
RNN的梯度消失和梯度爆炸 #梯度消失 #梯度爆炸 #RNN
00:00 / 07:22
连播
清屏
智能
倍速
点赞
152
埋头苦读
1年前
残差网络!一个连何恺明都在研究的领域! 【ResNet】是近年来深度学习领域中备受关注的一种网络架构,它通过引入残差连接(skip connections),有效解决了深层网络中的梯度消失问题,从而显著提升了模型在图像分类、目标检测等任务中的表现。残差网络技术已经在计算机视觉、自然语言处理和音频分析等多个领域取得了显著成果,其独特的方法和有效的表现使其成为研究热点之一。#论文 #神经网络 #深度学习 #人工智能 #研究生
00:00 / 00:31
连播
清屏
智能
倍速
点赞
104
飞旋乒乓
1年前
多孔结构sigmoid函数梯度渐变设计方法 视频展示了利用sigmoid函数内核制作的多孔晶格结构梯度渐变的设计方法,方法使用的是自定义nTop功能块实现的,方便大家实时设计。案例源文件稍后在评论区推出,感谢收看,有nTop软件教程需求和科研绘图、科研设计需求的朋友可以私信,再次感谢收看!
00:00 / 10:43
连播
清屏
智能
倍速
点赞
5
AI大模型入门教程
9月前
大模型训练中梯度消失和爆炸的解决方案 #后端开发#程序员#AI大模型#大模型#人工智能
00:00 / 10:58
连播
清屏
智能
倍速
点赞
209
十亿机器学习
7月前
逻辑回归的本质,是用 Sigmoid 函数 将线性模型的结果映射到 (0,1) 概率空间。 而参数求解并不像线性回归那样有解析解,因此我们借助 梯度下降 迭代优化。 在视频中,我将展示完整的计算过程:从损失函数、梯度公式,到参数迭代更新,帮助你直观理解逻辑回归背后的数学原理。#逻辑回归 #梯度下降法 #知识分享 #每天跟我涨知识 #涨知识
00:00 / 01:05
连播
清屏
智能
倍速
点赞
27
七哥不水科研
1周前
残差改了8版,注意力换了4种,精度一动不动,你管这叫科研?#残差连接 #注意力机制 #精度 #科研 #科研狗的日常
00:00 / 01:45
连播
清屏
智能
倍速
点赞
3033
事必亲躬
3周前
《理解深度学习》第13课-深度学习训练的初始化与实现 本课聚焦参数初始化与训练实践。重点推导了 **He 初始化**,旨在维持传播过程中激活值与梯度的方差稳定,从而有效解决梯度消失与爆炸问题。此外,还介绍了内存优化技术及支持超大模型训练的分布式并行方案。#He初始化 #梯度稳定性 #分布式训练
00:00 / 23:14
连播
清屏
智能
倍速
点赞
34
南风-论文指导
1周前
2026必冲科研方向!LSTM+注意力机制破解传统LSTM梯度消失、关键特征遗漏困境,兼顾长时序建模与聚焦精度,创新清晰易复现,适配顶会场景#SCI#计算机SCI#机器学习#LSTM#注意力机制
00:00 / 00:44
连播
清屏
智能
倍速
点赞
23
代码 lin
1年前
CNN模型训练时梯度直接消失成零,加了Relu也没用啊,难道要换成sigmoid,跟我聊聊,带你解决算法。创新改进优化的问题#算法创新#数据 #人工智能#计算机 #深度学习
00:00 / 00:07
连播
清屏
智能
倍速
点赞
68
吃个东西
2月前
一分钟复习八股之 #优化器 #深度学习 #真实生活分享计划
00:00 / 01:36
连播
清屏
智能
倍速
点赞
4030
顽皮的程序员
2周前
学习率优化器梯度 微调必懂核心🔥 大模型微调超参数第二弹!用期末复习、写材料类比讲透 learning rate、scheduler、AdamW 优化器,通俗解释梯度、梯度消失爆炸、warmup 预热,小白也能秒懂训练逻辑~ #大模型微调 #AI教程 #深度学习 #学习率 #梯度下降
00:00 / 06:43
连播
清屏
智能
倍速
点赞
8
云博士的AI课堂
3周前
PyTorch梯度可视化 pytorch入门_可视化梯度
00:00 / 03:45
连播
清屏
智能
倍速
点赞
14
AI-Signal
6天前
常见的模型中,Qwen3,Deepseek-v3,字节开源系列,Yolo当前较新模型使用的基本是SiLU/SwiLU(LLaMA系标配)。 而刚刚发布的Gemma4,以及sam大模型使用的主要是GeLU/GeGLU。通常来讲GeGLU的稳定性强于SwiLU,但相应地,表达性稍弱。 Transformer原始模型的激活函数选用了ReLU。#深度学习 #大模型 #人工智能 #激活函数 #非线性
00:00 / 01:05
连播
清屏
智能
倍速
点赞
2755
茉莉AI
3天前
层归一化 #人工智能 #chatgpt #层归一化 介绍当代大模型Transfomer架构中的层归一化。讲解层归一化的作用和计算方法。
00:00 / 02:16
连播
清屏
智能
倍速
点赞
90
AI向先生
3周前
👉马斯克点赞:Transformer最核心的一行代码,改了 马斯克点赞了一篇论文。 但这次,问题不在Attention。 👉 被改的,是Residual。 从 何凯明 的ResNet,到 Transformer,再到Attention Residual。 本质只有一个问题: 👉 信息,在深度中怎么被重新组织? 这可能是Transformer的下一次进化。 你觉得,这个方向能成吗? #ai #马斯克 #kimi #注意力残差 #何凯明
00:00 / 02:43
连播
清屏
智能
倍速
点赞
23
i
3周前
机器学习 LSTM openclaw 生成视频#openclaw#养龙虾
00:00 / 01:07
连播
清屏
智能
倍速
点赞
42
技术王
2月前
Relu激活函数的铁拳 你以为Relu激活函数就这么简单?结合到深度神经网络中,再加上浓郁的八股味,你就会体验到什么是真正的铁拳了,一起来接受铁拳吧!#深度学习 #ai面试
00:00 / 05:59
连播
清屏
智能
倍速
点赞
15
巴郎的模型有点大(誉天教育)
5月前
为啥神经网络会“梯度消失”或“爆炸”#AI #大模型 #大模型训练 #机器学习 #深度学习
00:00 / 01:27
连播
清屏
智能
倍速
点赞
8
AI变现进行时
2周前
ResNet人工智能领域最具影响力的论文之一 #人工智能 #深度学习 #agent #热门 #学习
00:00 / 01:16
连播
清屏
智能
倍速
点赞
27
在搞AI科研,憋烦姐
11月前
剑指Softmax注意力梯度下降,实在厉害!深度学习大升级 #注意力机制#深度学习#机器学习 #人工智能 #论文
00:00 / 00:53
连播
清屏
智能
倍速
点赞
21
老诸的Ai朋友圈
3周前
高中生改写AI底层,马斯克点赞#Kimi #AttentionResiduals #陈广宇 #AI逆袭 #老诸的Ai朋友圈
00:00 / 02:10
连播
清屏
智能
倍速
点赞
31
寻
2月前
Weak-Driven Learning: How Weak #WMSS提出“弱代强”范式 利用弱代理(如历史检查点)的纠错信号引导强模型优化。通过混合逻辑层(Logit Mixing)和课程学习,该方法有效解决了后期训练的优化饱和与梯度消失问题。实验证明,它能显著提升模型在数学和代码任务中的表现,且不增加推理成本。 arXiv: 2602.08222 #AI #Research #Arxiv #MachineLearning
00:00 / 06:46
连播
清屏
智能
倍速
点赞
0
殷殷之言
3周前
#神经网络 #人工智能 #数学之美 #ai #梯度
00:00 / 03:58
连播
清屏
智能
倍速
点赞
6
金蓝海
3年前
如何缓解梯度消失和梯度膨胀(微调、梯度截断、改良激活函数等)#人工智能 #服务器 #机器学习 #高性能计算 #算法
00:00 / 01:11
连播
清屏
智能
倍速
点赞
7
金蓝海
3年前
缓解梯度消失和梯度爆炸的方法有哪些?#人工智能 #机器学习 #服务器 #生命科学 #算法
00:00 / 00:47
连播
清屏
智能
倍速
点赞
5
分子知识 Knowlecule
1月前
AI训练中的隐藏灾难,循环神经网络优化难题 循环神经网络在理论上可以记住很久以前的信息,但在实践中却经常“学崩”。这篇论文系统分析了RNN训练中两个核心问题:梯度消失与梯度爆炸。作者从线性代数角度证明,当循环权重矩阵的最大特征值大于1时,梯度会指数级爆炸;当小于1时,梯度会指数级消失。论文进一步从动力系统视角解释了为什么RNN会在不同吸引子之间跳跃导致训练不稳定,并提出了梯度裁剪(gradient clipping)作为一种简单有效的解决方案。这篇工作不仅奠定了RNN稳定训练的理论基础,也成为后来LSTM、Transformer优化方法的重要理论来源。本期内容基于论文《On the difficulty of training Recurrent Neural Networks》,作者为 Razvan Pascanu、Tomas Mikolov 和 Yoshua Bengio,2013年发表于 arXiv。 #AI #人工智能 #科普 #科研 #大模型
00:00 / 05:00
连播
清屏
智能
倍速
点赞
23
不如语冰
4月前
AI大模型入门2.5.2-激活函数2-深度学习时期 跟着问题学——AI大模型入门的激活函数,介绍深度学习时期的激活函数sigmoid,tanh,relu及其变体。 代码和笔记(更新中)https://github.com/zyf-ngu/Qmatter,欢迎讨论交流。#大模型 #激活函数 #sigmoid #relu
00:00 / 06:26
连播
清屏
智能
倍速
点赞
24
zidea
5年前
自然语言处理(5)—循环神经网络反向传播
00:00 / 13:04
连播
清屏
智能
倍速
点赞
3
辣弟伏特加
5月前
小猫学AI #萌宠出道计划 #AI #金渐层 #毛孩子 #人工智能
00:00 / 01:42
连播
清屏
智能
倍速
点赞
5
北邮景睿
1年前
CNN模型训练时梯度直接消失成零,加了ru也没用,真的太难了。#算法创新 #大模型 #多模态
00:00 / 00:07
连播
清屏
智能
倍速
点赞
49
不如语冰
4月前
AI大模型入门2.6.2-梯度消失与爆炸解决方法 跟着问题学——AI大模型入门的梯度消失与爆炸的解决方法。 代码和笔记(更新中)https://github.com/zyf-ngu/Qmatter,欢迎讨论交流。#梯度消失 #梯度爆炸 #大模型
00:00 / 03:48
连播
清屏
智能
倍速
点赞
28
云博士的AI课堂
7月前
激活函数解决梯度消失问题。#机器学习 #人工智能 #深度学习
00:00 / 00:21
连播
清屏
智能
倍速
点赞
8
茉莉AI
4月前
大语言模型训练6 #人工智能 #神经网络 #前馈神经网络 #动画说AI 大语言模型训练第六期,通过动画理解梯度消失原因,看懂残差网络,并解决梯度消失问题。
00:00 / 01:50
连播
清屏
智能
倍速
点赞
19
和森致远知识社区
1年前
IndependentComponentsAnalysis 介绍了将混合后信号通过unmixing matrix进行原始信号恢复的方法,介绍了信号的条件(如不能为高斯分布),在这里采用了sigmoid作为cdf来对p(s)进行建模,并通过对数似然函数对W(unmixing matrix)进行求导进行梯度下降进行参数更新求解。
00:00 / 38:11
连播
清屏
智能
倍速
点赞
6
AI编程杰克
2年前
#梯度消失 #干货分享 #一分钟干货教学 #计算机 #人工智能
00:00 / 02:08
连播
清屏
智能
倍速
点赞
10
科研牛马
1周前
#科研狗的日常 #科研 #计算机科学与技术 #大模型
00:00 / 01:38
连播
清屏
智能
倍速
点赞
4
吃个东西
2月前
一分钟复习八股之#数值初始化 #深度学习
00:00 / 01:39
连播
清屏
智能
倍速
点赞
176
算法与AI
3月前
残差网络(ResNet)#知识科普 #涨知识 #人工智能算法 #科技创新 #ai应用教学
00:00 / 01:52
连播
清屏
智能
倍速
点赞
9
张居然
4月前
研究生科研工具分享,三用三不用#研究生 #干货分享 #万兴图示
00:00 / 00:31
连播
清屏
智能
倍速
点赞
8371
卧龙先生
10月前
Berkeley伯克利PINNs论文复现 Berkeley伯克利PINNs论文复现,解决大参数,长时间方程pinn训练失败问题 本视频复现了加州大学伯克利分校在物理信息神经网络(PINNs)领域的代表性研究,聚焦于大参数刚性方程与长时间演化问题中PINNs训练失败(如发散、梯度消失、误差累积等)现象,通过引入课程学习(Curriculum Learning)、时间推进策略(Time-Marching)、等关键机制,实现了对高反应率反应扩散方程、长时间动态系统等典型问题的稳定高精度建模,为复杂物理系统的神经网络建模提供了可扩展的训练范式。 #长时间预测 #物理信息神经网络 #大参数问题 #人工智能 #PINN
00:00 / 08:38
连播
清屏
智能
倍速
点赞
7
面部提升夏志冉
4月前
30+抗衰最大误区,还在折腾五官?救脸先救轮廓! #面部提升#抖出健康知识宝藏#健康科普破圈计划#修复型抗衰
00:00 / 00:57
连播
清屏
智能
倍速
点赞
17
啊~是沈老师
1年前
#沈炜松工作室 #爱眼护眼
00:00 / 00:48
连播
清屏
智能
倍速
点赞
15
荔枝-论文指导
1周前
时序预测新范式!Transformer 重构长序列依赖,精准捕捉趋势与周期#sci论文#深度学习#机器学习#transformer#时间序列
00:00 / 00:46
连播
清屏
智能
倍速
点赞
22
小戴动漫
1年前
第九章#爽文#修仙#修真
00:00 / 03:35
连播
清屏
智能
倍速
点赞
9
芒果-论文指导
3周前
Transformer 捕获长程依赖,精准建模时序动态,预测精度与鲁棒性双提升#sci论文#transformer#时间序列#研究生论文#深度学习
00:00 / 00:46
连播
清屏
智能
倍速
点赞
20
AI大模型杰睿
4月前
大模型面试题:大模型训练中梯度消失和爆炸的解决方案(上集) #大模型#ai#互联网大厂#人工智能就业#大模型面试题
00:00 / 05:21
连播
清屏
智能
倍速
点赞
24
AI求职陪跑-peter黄
7月前
35:MLP 反向传播细节!梯度咋流动?参数咋更新? 上次没吃透?深挖隐藏层细节: 梯度消失 / 爆炸:激活函数咋影响梯度?咋用 ReLU 缓解? 批量更新 vs 单样本:为啥 Batch 训练更稳定?(附公式对比) 调试技巧:梯度为 0 咋排查?学习率咋调整? 解决反向传播 “卡壳点”,调参不再凭感觉!#ai #就业 #python #大模型学习
00:00 / 03:57
连播
清屏
智能
倍速
点赞
4
AI图图酱
1年前
魔改ResNet反超Transformer性能登顶发文无压力 为克服这些挑战,研究者们基于原始的ResNet架构设计了多种变体,比如性能反超Transformer的ConvNeXt、准确率高达98.42%的FC-ResNet等。这些改进方案解决了深层网络训练中的梯度消失问题,并简化了学习过程,在提高模型精度和训练效率方面表现出色。#transformer #深度学习 #机器学习 #时间序列 #算法
00:00 / 00:36
连播
清屏
智能
倍速
点赞
14
简介:
您在查找“
sigmoid梯度消失怎么解决
”短视频信息吗?
帮您找到更多更精彩的短视频内容!
最新发布时间:2026-04-11 07:09
最新推荐:
妈妈当宝贝一天不知听多少
霍立克科技有限公司法人是谁
烈火犬和哪个果实刷异色
leez童装为什么小h不卖
噩梦污染精灵净化奇异血脉是什么
干这几件事
nasa实况图怎么下
东平2026烟花燃放时间
李佳琦新尝试是什么
马丁格尔倍投法
相关推荐:
粉心耳兔忘记换血脉进化了怎么办
者来女的身世背景是什么?
龙神和寄灵什么关系小唯
一公为什么没有曾沛慈
你觉得我最好的朋友是谁
Gemma426B能办公吗
今天北京多少人
安徽交通职业学院什么时候出录取结果
陈昊宇张月互动
永恒之塔2最新更新内容是什么
热门推荐:
优思益youthit淘宝怎么退
行者禅脚meme教程
wooting键盘怎么写好评
迅雷怎么看钢铁森林
如何解锁微信支付
苹果13怎么查找18.7.7版本
同乘精灵不用棱彩用什么
小宇宙播客怎么用静心来学习
苹果提示wechat是什么
workbuddy锁屏后还能运行没