31
抢首评
15
2
举报
发布时间:2026-03-25 08:01
人工智能学习室
人工智能学习室

粉丝543获赞2563

相关视频

  • OPUS: Towards Efficient and Pr #这份研究介绍了一种名为 OPUS 的新型预训练数据选择算法,旨在提升大语言模型的训练效率。与传统方法不同,OPUS 充分考虑了 AdamW 和 Muon 等现代优化器的几何特性,通过投影技术在低维空间内高效评估数据的效用。该算法的核心在于建立一个与目标评测集对齐的 代理数据集,并结合 玻尔兹曼采样 来平衡数据的针对性与多样性。实验证明,该方法在从头预训练和增量预训练场景中均表现优异,仅需极少的数据量即可达到甚至超越全量训练的效果。通过这种 优化器感知的选择机制,模型能够更精准地吸收高价值信息,显著降低了计算成本。 
arXiv: 2602.05400
#AI #Research #Arxiv #MachineLearning
    07:51
    OPUS: Towards Efficient and Pr #这份研究介绍了一种名为 OPUS 的新型预训练数据选择算法,旨在提升大语言模型的训练效率。与传统方法不同,OPUS 充分考虑了 AdamW 和 Muon 等现代优化器的几何特性,通过投影技术在低维空间内高效评估数据的效用。该算法的核心在于建立一个与目标评测集对齐的 代理数据集,并结合 玻尔兹曼采样 来平衡数据的针对性与多样性。实验证明,该方法在从头预训练和增量预训练场景中均表现优异,仅需极少的数据量即可达到甚至超越全量训练的效果。通过这种 优化器感知的选择机制,模型能够更精准地吸收高价值信息,显著降低了计算成本。
    arXiv: 2602.05400
    #AI #Research #Arxiv #MachineLearning
    查看AI文稿
  • 《理解深度学习》第11课-优化算法:动量、Adam与超参数 本课聚焦提升优化效率的进阶算法。核心介绍了动量法,通过累积历史梯度平滑搜索轨迹并加速收敛。详细阐述了 Adam 优化器,结合一阶和二阶矩估计实现参数级自适应学习率。最后强调了超参数搜索在模型拟合中的“艺术”属性。#深度学习 #动量算法 #Adam优化器 #自适应学习率
    23:46
    查看AI文稿
  • 新iPhone到手!这几个设置能救续航 新iPhone手机到手后必做的几个设置,尤其是更新iOS26以后有续航焦虑,晚上待机掉电严重的,视频较长请耐心观看。#iphone小技巧 #苹果手机 #省电小技巧
    04:22
    查看AI文稿
  • CS336第四讲精华: 优化器和梯度裁剪是工程问题 【CS336第四讲精华: 优化器和梯度裁剪是工程问题】优化器AdamW为什么会在Adam后面有个W? 大规模分布式训练大模型时,梯度裁剪的阈值怎么选择?怎么预先判断模型收敛能力?怎么平衡收敛速度和GPU显存的利用率?这些都是实打实的工程问题。 #大模型  #斯坦福cS336 #ai人工智能  #大模型分布式训练 #梯度优化
    04:29
    查看AI文稿
  • 原来AdamW优化器就是让我下山小心、平路快走和指明方向! #手撕AI大模型
    06:53
    查看AI文稿
  • 全面碾压AdamW!谷歌新出优化器Lion:内存小,效率高#人工智能 #论文 #ai #计算机视觉 #优化器
    00:15
    查看AI文稿
  • 你的权重衰减为什么总失效?AdamW 的核心秘密全在这 铁子们可以把你们的看法发在评论中~视频制作不易,如果这期视频对你有帮助的话呢,麻烦各位观众老爷点赞收藏一波,你们的支持是我做视频的最大动力!感谢!#ai新星计划#AdamW #优化器 #深度学习 #算法学习
    05:09
    查看AI文稿
  • 使用这个提示词,可以让A智商增加10倍,秘密在于模拟人类#人工智能 #提示词#涂津豪 #AI#智能体搭建
    01:01
    查看AI文稿