转自MathWorks陈炜-MATLAB高级编程之性能加速：从代码优化到并行计算（2）#Matlab #代码优化 #并行计算 #编程 #教程

MATLAB并行池使用教程

28

抢首评

10

2

举报

发布时间：2026-01-27 09:57

会发光的猪

粉丝912获赞4115

相关视频

33:23
转自MathWorks-MATLAB高级编程之性能加速：从代码优化到并行计算（1）
#Matlab #代码优化 #并行计算 #编程 #教程
158会发光的猪
06:28
基于MATLAB的多策略图像去雾系统基于MATLAB的多策略图像去雾系统实现多种去雾算法的并行处理与效果对比涵盖客观质量评价如局部对比度提升和主观视觉改善评估GUI界面直观展示并提供从算法原理到项目答辩的完整指导服务
查看AI文稿
AI文稿
接下来呢来和大家交流一下图像去物里面集中按通道这种算法。首先呢我们来介绍一下这个算法的一个基本原理，按通道的一个原理呢，其实就是对大量没有雾霾的图像进行归纳而得到的一般规律。那么没有雾霾的图片呢，我们可以看到在绝大多数飞天空的这个区域里面，总会存在最少一个颜色通道几乎接近零的值的现象，是什么意思呢？也就是说光照强度最小的值是一个特别小的一个数，比如说二三这种根据大量的没有雾霾的图像总结出来的规律呢，我们可以对任意图像测试的图像 j 用这么一个数学表达式来进行定位，也就是在一幅图像里面呢，我们分别去提取出第一通道，第二通道和第三通道每一个通道像素值的最小值来做一个按通道的一个结果图。按通道的一个原理呢，分几个步骤，第一步呢就是确定浅色区域及相邻区域的一个区间，第二步呢就是去确定透视率 t 的一个大概的一个值。第三步呢就是去求它其中的这个 a 值，好，这边呢就是按通道图像去物的一个原理，大家如果对我的视频感兴趣的，可以一键三连，并且在视频下方留言，各位宝子们你们好，本期视频来和大家交流 matlab 的图像去物系统。首先让各位宝子们一键三连本视频，让更多需要的同学看到，这是设计的一个人机交互可视化界面，点击运行按钮，进入倒演示端口，我们点击打开按钮，选择一张测试图片，接着选择所测试的方法进行去雾操作，我们可以看到经过了图像去雾之后的图片，相比原来含有雾霾的图片清晰了非常多，我们可以去求出原始图像和图像去物了的图像的灰度直方图，从灰度直方图呢，我们可以很客观的看到像素进行一个平均分布，从而使图像更加清晰了。有喜欢我视频的学弟学妹们可以把我的视频进行一键三连转发关注和收藏，有需要代码的同学可以添加我的微信，谢谢大家。各位同学你们好，那么下面呢，我跟大家来讲解一下图像去路，他在代码层面是如何进行实现的，那么不得不说呢，我们设计的这么一个人机交互界面，他是怎么进行设计的？这个也是老师经常会问我们的问题。首先这边有四个方框，他呢是利用这一个空间进行设计的，我们点击这个空键，那么在这个空白的地方呢，按住鼠标的左键，把他拉到我们所想要的大小以及相对应的位置。这边呢有一个静态的一个标签，标题是通过这个按钮，那么这边呢，它有一个用来提示当前程序所运行的步骤的一个方框，它所对应的地方呢是空间里面的这一个元素，那么可以改变这个空间的颜色，就是双击你所要操作的空间，点击我们所想要的颜色，那么他就会变成各种不同的颜色。这边有四个按钮，分别是对应这个空间。好，我们下面呢来看一下它实现的一个底层原理，我们先从这个图像去物这边看齐，点击按钮，点击鼠标的右键进入到回调函数，那么回调函数这边的可以调用我们的测试图片，然后呢去选择下拉框里面的第几个，那么这边呢就是第一个调用这个函数来实现一个图像取物，那么我们把这个子函数呢给调取出来看一下，好的，那么这一个子函数呢，它就是图像全区直方图均衡化的一个底层代码了，这边呢分别去提取出彩色图像的第一，第二第三通道，分别对应红色通道，绿色通道，蓝色通道，对每一个通道呢分别进行一个均衡，这个是一个均衡函数，最后呢将三个通道均衡之后的变量进行重组，最后呢进行一个输出，输出之后的图像呢返还给第二个图像这个变量，然后将图像去物之后的图像呢显示到第二个方框，并且给他一个标题，这个呢就是图像局局直方图均衡画的一个代码实现，那么我们来看一下它的一个实现的一个原理，经过了图像全区直方图均衡化，也就是说把像素没有的地方，比如说零到五十这个灰度级别，两百到两百五十这个灰度级别也给他分配了一些像素，最后呢就实现了一个全民富裕，所以大家的幸福感呢会普遍的提高，反馈到图像里面，就是对应信息量最大，也就是图像的越清晰。好了，如果大家喜欢我视频的话，记得一键三连加关注，也可以添加作者的微信在视频里面，谢谢。
0小王子
16:55
基于串行和并行ADMM算法的配电网优化研究 #ADMM #串行和并行 #综合能源 #配电网重构 #MATLAB 含参考文献、代码复现和详细代码注释。助力成为专项编程达人，交个朋友！链接如下：
单品链接（本作品）： https://mbd.pub/o/bread/ZZecm5dy
系列打包链接（160套）： https://mbd.pub/o/bread/ZJiZk5xw
2Chan、快意江湖
21:28
【79】如何让C++运行得更快.mp4 #编程 #计算机 #人工智能 #软件开发 #英语
29青青草原没有羊
04:40
3分钟彻底理解并行和并发 #一分钟干货教学 #程序员 #计算机 #编程
174码农的荒岛求生
05:42
智能体设计模式-4-并行化 #人工智能 #青年创作者成长计划 #抖音合集升级计划 #来自热心市民的溜达建议 #智能体
查看AI文稿
AI文稿
哈喽，大家好啊，今天我们来聊一个特别有意思的话题，一个能让 ai 智能体，就是我们说的 agent 跑得更快，效率更高的设计模式。它叫什么呢？并形化。哎，你有没有过这种感觉？就是用那些 ai 助手的时候，你给他一个指令，然后就只能眼巴巴地看着他，好像在那儿一步一步地慢慢算，心里头那叫一个急啊，对不对？嗯，没错，这种慢吞吞的感觉啊，它的罪魁祸首啊，往往就是一种叫做串行处理的工作方式。什么意思呢？说白了，就是所有任务都得排队，一个干完了，下一个才能上来。咱们看一个特具体的例子就明白了。比如说一个研究型的 ai 智能体，它需要整合两个不同来源的信息，那在串行模式下，他是怎么干活的呢？他会先去搜索来源 a，好，等结果出来了，再吭哧吭哧的把来源 a 的内容总结一下，然后呢，他才能腾数出来去处理来源 b，又是搜索又是总结，最后才把这两个总结给拼到一块儿。你看，这中间的每一步啊，都得等上一步彻底搞定才行，时间不就这么一点点被浪费掉了吗？所以你看，这就暴露了一个特别关键的瓶颈，一个任务不结束，下一个就绝对不能开始，这种等待呀，会造成巨大的延迟。尤其是你想想，如果任务本身就很慢，比如说要去网上搜东西，或者调用一个外部的 api，那效率简直是低的可怜。那问题就来了，咱们肯定会想，难道就没法打破这种傻傻排队的模式吗？有没有可能让这些任务嗯，同时进行呢？答案是，当然有。这就是我们今天要讲的并行化模式要解决的核心问题。简单一句话，他就是教 ai 怎么学会一心多用，而且还是高效的一心多用。那到底什么是并行化模式呢？其实啊，它的核心思想特别直接，特别清晰，它就是一种设计方法，目的就是找出整个工作流程里那些可以自己干自己的互补影响的独立任务，然后别让他们排队了，让他们同时开工。我特别喜欢用一个比喻来解释，这个，一下子就懂了。你想啊，串行处理就像是一条单行道，所有的车都得排成一队，一个跟一个，稍微有点事就堵死了。但是并行处理呢？那就不一样了，它就像一条宽敞的多车道、高速公路，大家各走各的道，互不干扰，一起往前开，那到达终点的速度可不就快太多了？好，那咱们现在回到刚才那个研究智能体的例子上，用了病形化之后，你再看他的工作流程，哇，那简直是天壤之别。第一步，他直接同时去搜索来源 a 和来源 b，等这两个搜索都有结果了，再同时对他俩进行总结。最后一步才是把总结好的东西整合起来，你感觉到了吗？效率是不是嗖的一下就上来了？这就是并行画的魔力所在，理论上听起来很棒，对吧？那在咱们的现实世界里，这个模式到底有多大用处呢？咱们就来看看它在哪些地方能大显身手。他的应用场景啊，说实话，真的非常非常广。比如说你要收集信息，那就可以让他同时去搜新闻、查股票、刷社交媒体，你要分析数据，那情感分析和关键词提取也可以一起跑。还有大家可能都用得到的一个旅行规划的 ai，它可以同时帮你查航班、定酒店、看租车信息，甚至你让它写封邮件，它都可以把标题、政文还有最后的号召性用语一块给你生成出来。所有这些最终带来的都是响应速度和拥护体验的巨大提升。咱们就挑一个例子，就拿这个旅行规划智能体来说吧，因为它特别直观，能让你一眼就看出效果有多么惊人。你看这张图，简直是一目了然，用老办法就是串行处理，规划一次旅行可能要滑掉三十秒，为啥呢？因为他得先查完航班，然后查酒店，最后再查租车，一步步来。但是一旦用了病醒的方法，所有查询指令同时发出去，可能刷一下十秒钟，所有结果就都回来了。你想想这二十秒的差距，对于咱们用户来说，那可就是爽和不爽的本质区别。好了，说了这么多，那这次分享最核心的信息是什么呢？其实就一句话，在 ai 智能体的世界里，效率真的就代表着未来。咱们来快速总结下今天的几个重点，第一，记住并形化，就是让那些能自己干的活同时开工。第二，这么做最大的好处就是能大大缩短总的执行时间。第三，对于那些追求高性能、快速响应的 ai 智能体来说，这一点可以说是生死攸关。最后呢，也是个好消息，就是现在的开发者们其实很幸福，不用从零开始造轮子，像现在很火的 luncheon，还有 google 的 adgoo，这些现代框架里面都给你准备好了实现并形化的工具。最后，我想留给大家一个开放性的问题，可以一起畅想一下。试想一下，如果未来所有的 ai 智能体，它们不仅自己内部能并行思考，他们之间还能并行地协调工作，那我们的整个世界运转速度会变得有多快？这个未来光是想一想就足够让人激动了。
81实验报告shuAI
18:16
一口气游苏州古城，看完还想来吗？ #苏州 #苏州旅游 #避雷 #园林 #攻略
1.4万隔壁刘同学
04:10
别再瞎调达芬奇！3 种节点搞懂，调色直接开挂！ iPad 达芬奇节点系统保姆级教程！用「炒土豆丝 / 煮面条 / 盖浇饭」的做菜类比，讲透串行 / 并行 / 图层 3 种核心节点，新手一看就懂～
本期干货多，建议收藏慢慢看！
评论区说说你最常用的节点是哪个？
关注我，下期实操教你用节点调出电影感画面！
#青年创作者成长计划 #iPad达芬奇 #达芬奇调色教程 #达芬奇调色 #iPad
查看AI文稿
AI文稿
达芬奇为什么能被称为调色领域的专业标杆？核心就是靠这个节点系统。今天我将用通俗易懂的语言来为你介绍达芬奇的节点系统，新手也能一看就懂。本期视频比较长，可以收藏起来慢慢看。很多刚用达芬奇调色的朋友一看到节点就蒙了，这玩意到底是个啥？为啥调个色还要搞这么复杂的东西？其实不用怕，节点系统的本质就是个调色工序台，咱们用最常见的做菜来类比，你很快就能明白，你炒一道菜要先洗菜，再切菜，最后炒菜，一步一步来。调色也一样。节点就是把调曝光、较颜色加风格，类似这样的步骤分开装在不同的小盒子里，互不干扰，还能随时修改。简单说，每个节点就是一次独立的调色操作。学会节点，你就能从瞎调一通变成精准控色，画面质感直接升级。在 ipad 上节点面板上方点击这个小图标，就可以分别添加串行节点、并行节点和图层节点。若按键被折叠，直接单机默认添加串行节点。长按串行节点图标，可以选择添加其他节点。先搞懂这三个核心节点，就像做菜的三种基础工序，不用记专业名词，记住做菜逻辑就行。首先就是咱们最常见的串形节点，他就像一步一步的流水线操作，就好比我们炒一盘土豆丝，先洗土豆，再切土豆，最后炒土豆，上一步做完才能做下一步，下一步的起点就是上一步的终点。顺序不能乱，核心作用就是按顺序叠加调色效果，后一个节点会继承前一个的结果，比如先还原灰片，再调整一下亮度，最后给画面加点饱和度，步骤清晰，修改起来也方便。想重新调整亮度，直接修改节点二就行，不影响后面的操作。接下来就是变形节点。所谓变形，就是几个节点平等且同时作用于画面。就像煮一锅面条，同时丢进三个独立的调味料，互不干扰，少放哪样都能单独补佳。三个调味料会直接平等的融入面条里，觉得太咸了，只需要少放半勺盐就行，香油和葱花的香味一点不受影响。每个效果都是独立的，也没有谁压过谁的优先级。核心作用就是给画面同时添加多种风格化，调整效果会限性叠加。比如你想给画面同时添加胶片，颗粒感和轻微锐化，就可以用两个并行节点，一个装颗粒感，一个装锐化。觉得颗粒感太重，直接改对应节点就行，其他节点完全不受影响，它是真正的并行，比串行节点更灵活。串行节点的逻辑是先这样，再那样，先加颗粒，再加锐化，而改颗粒就会连带影响后续锐化的视觉效果。最后就是图层节点，他看起来好像和变形节点类似，实则大不相同。他类似于修图时的图层或剪辑时的多轨道，有着明确的先后关系，默认顶层覆盖，底层可手动调整柔和方式，以及随时在便携节点和图层节点之间来回切换。就像你做一份盖浇饭，米饭打底，上面铺一层鱼香肉丝，你可以选择覆盖多少以及如果把鱼香肉丝换成咖喱牛腩，也不会影响下面的米饭，但怎么拌着吃？也就是它的混合模式会改变整体口感。当你需要叠加不同画面素材，或需要用混合模式控制画面融合方式时，选择图层节点，比如画面合成，还有幻天空之类的局部替换，这是病性节点做不到的。以上说了很多节点和做菜的共同点，那不同点就是你做菜是一锅炖，等你炖完了，发现盐放多了，很难去补救，但节点系统可以让你精准回到放盐的这一步操作，然后选择少放一点盐。除此以外，你还可以点击某个节点编号，可以临时开关这个节点，用来快速判断这个节点的调整对整个画面的影响，这就是节点系统的魅力。总结一下，串行逐级来地推，新手调色不踩雷，变形多效齐发力，调整之间不扯皮，图层分层有高低合成，效果超给力。好了，本期视频就到这里，你们最常用的节点是哪一个呢？还有什么疑问，欢迎在评论区交流关注我，下期我们上实操，讲讲达芬奇必学的节点用法，教你简单几步调出电影感画面，我们下期再见！
4557波波 Cine
01:13:41
GTL三周目第八十二期！ #我的世界 #Minecraft #游戏 #整合包 #格雷科技
18自己这种西瓜
07:59
拼好机！2500元装一台AI服务器！vLLM张量并行性能暴涨 💥2400元预算挑战AI算力天花板！本期视频，我们解决了Radeon VII / MI50 等 gfx906 架构显卡长期以来无法使用 vLLM 张量并行的痛点！
我们将全程展示如何用两张“过气”Radeon VII显卡，搭配X99“洋垃圾”平台，组装一台总价仅2397元的AI算力服务器。通过社区大神 nlzy 提供的特制Docker容器，我们成功解锁了vLLM的张量并行功能，在Qwen3 32B量化模型上实现了98 tokens/s的并发推理速度，性能是Ollama的6倍以上！
视频最后，我们还将通过Open WebUI，实战演示8个用户同时访问这台服务器的流畅体验！
本期硬件配置清单 (总计: ~2397元)
显卡 (GPU): AMD Radeon VII 16GB x 2 (二手 ~1600元)
主板 (Motherboard): 精粤 X99M-PLUS (~300元)
处理器 (CPU): Intel Xeon E5-2680 v4 (56元)
内存 (RAM): 海力士 ECC REG DDR4 8GB x 4 (176元)
硬盘 (Storage): 512GB NVMe SSD (~150元)
电源 (PSU): 额定850W 金牌认证电源 (二手 115元)
【本期方案超详细文字版教程】
为了方便大家复现，我们已经把今天所有用到的命令、链接，以及一份超详细的文字版部署教程，全部整理好，放到了UP主的Gitee主页上！
直达链接：https://gitee.com/spoto/R7vllm
如果觉得本期视频对你有帮助，请务-务-务必点赞、投币、收藏三连支持一下UP主！你们的支持是我爆肝更新的最大动力！感谢大家！
#AI #AMD #vllm #服务器 #装机
4912司波图
02:35
瑞德克斯平台：平台透明度与运营规范并行 #RadexMarkets瑞德克斯 #瑞德克斯外汇 #瑞德克斯平台
0草莓牛奶冰
52:43
52分钟搭完一个App！8个AI员工同时给我打工你还在一行一行写代码？我用 Codex 同时启动 8 个 AI 员工：写代码、做营销、定路线图并行跑，睡觉时任务还在继续。52 分钟从零想法到应用上线！ #ClaudeCode #程序员 #AI编程 #Codex #独立开发
208AI编程-赖老师
08:00
用KerasHub和tf.distribute做数据并行训练#人工智能 #KerasHub #案例拆解 #数据并行
查看AI文稿
AI文稿
如何使用 kars hub 和 tf 点 distribute 来进行数据并行的训练？呃，具体来说就是怎么用数据并行的方式，在多个 gpu 或者多台机器上面更高效地训练 beta 这样的语言模型？是的，这个话题非常实用啊，那我们就直接开始吧。首先我们要知道什么是分布式训练，以及为什么我们要使用它。然后 chaos hub 又是在这个过程当中扮演什么样的角色呢？就是说分布式训练其实就是让你可以同时在多个设备或者多台机器上面训练你的深度学习模型。这样做的好处就是可以大大缩短训练的时间，同时也可以让你用更大的模型和更多的数据来训练。嗯，那 keras hub 其实就是一个专门为自然语言处理设计的一个库，它里面有很多工具，可以帮助你更方便地进行分布式训练。明白了，那我们在这个教程当中具体会用到哪种类型的数据并行？然后它的工作原理是怎么样的？我们这里用的是同步数据并行，就是每一个加速器，不管是 gpu 还是 tpu，它都会完整地复制一份模型，然后每一个加速器都会拿到不同的一部分小批量数据，接着各自计算梯度，之后这些梯度会被聚合起来，用来更新大局的模型参数。那这种方式具体会用在哪些环境下面呢？它既可以跑在单机多卡上面，就是你这台机器里面插了比如说两张到八张 gpu。这也是很多研究人员或者是小型的企业里面经常会遇到的一个情况，他也可以跑在多机多卡的集群上面，就是你有很多台机器，每台机器上面又有多个 gpu，这种一般就是在大型的工业场景里面会用到，比如说你要在几十甚至上百张 gpu 上面去训练一个超大的文本招标模型，然后数据集可能有数十亿的等词。了解了，我们接下来就要进入到实战环节了，就是怎么去设置你的环境和分布式的策略。 ok，在这之前我们要先做一些准备工作，比如我们要先配置一下 tensor flow 和 kress，还有 kress hump 这几个库，其实这个配置也很简单，就几行代码，首先你要设置一下你的环境变量，就是把 kress 的后端设置成 tensor flow，然后就是把这几个库都 import 进来就可以了。如果说我们现在只有一块儿 gpu，但是我们又想模拟这种多卡的分布式训练，那要怎么操作呢？其实很有意思，就是你可以用 tensor flow 的 api 把你这一块儿物理 gpu 划分成两块儿逻辑 gpu，这样的话就可以在 collab 这种只有一块儿 gpu 的环境下去模拟。这个真实的分布式训练是怎么进行的。听起来很巧妙啊，那我们要怎么用 tensor flow 来实现这个呢？你可以先通过 nvi 到 smi 去看一下你这张 gpu 的总内存是多少，然后通过 t f dot c o n f i g dot list physical devices gpu 来获取你这张物理 gpu。接着通过 t f dot c o n f i g dot set logical device configuration 这个函数，把你的物理 gpu 划分成两块逻辑 gpu，每一块逻辑 gpu 占用的内存是总内存的一半。 ok，那我们就来看看怎么使用 mirrored strategy 来做这个单机多卡的分布式训练。具体要怎么来实现呢？首先你要创建一个 mirrored strategy 的实力，你也可以通过参数来指定你要使用哪些 gpu，如果不指定的话，它会默认使用所有的 gpu。然后你要在这个 strategy 里边儿 scope 的上下文环境里面去创建和编辑你的模型，这样的话 kris 就会知道它需要把你的模型变量复制到所有的 gpu 上面。是不是说我们后面的代码就跟我们单卡训练的代码基本一样？没错没错，就是你 model fit 的调用方式是完全不变的。然后 mirror 的 strategy 会帮你在后台把数据分发到各个 gpu，把梯度聚合起来，以及所有的这些并行的操作，你都不需要再手动去管理了。了解了，那我们这个 batch size 和学习率在分布式训练的时候，要怎么根据 gpu 的数量来进行调整呢？很简单，就是你的新的 batch size 就等于你原来的 batch size 乘以 gpu 的数量，然后你的新的学习率也等于你原来的学习率乘以 gpu 的数量。对，这样的话就可以充分的利用到多卡的这个并行计算的能力。好，下面我们要讲的是关于数据集的下载和预处理。 ok，那我们具体是下了一个什么样的数据集，然后对它做了哪些操作呢？我们这次用的是 wikitext 二、这个数据集，它是一个包含了两百万个单词的一个为几百克的文章的数据集，然后我们会用 keras 里面的一个函数直接把它下载下来并且解压。然后在代码里面是怎么去读这个数据集，并且去做一些初步的处理的呢？其实就是用 tensor flow 的 tf data text line data set 这个函数，然后把训练级、验证级和测试级分别读进来。接着我们会用 filter 函数把那些长度小于一百的行给过滤掉，之后我们会对它进行 shuffle， batch 和 prefetch 这些操作，来让我们的训练更加高效。最后我们会用 cash 把它缓存起来，这样的话可以减少文件 i o 的开销。行，我们现在来讲一下学习率的调度和回调函数的设置。 ok，在我们这个 nlp 的任务当中，我们一般是怎么去设置学习率的调度策略的呢？其实很常见的一个做法就是使用多项式衰减的策略。对，那在我们这个代码里面，我们首先要计算出我们总的训练部署，就是用我们训练级的 batch 的数量乘以我们的 epoch 数，然后我们再用这个 tf dot curves， dot algorithms， dot schedules， dot polygon decay 这个函数来生成一个学习率调度器，它其实就是一个从我们初始的学习率一直衰减到零的一个过程，它是一个多项式的形式。那除了这个学习率调度之外，我们在训练的过程当中还用到了哪些回调函数呢？我们用到了两个回调函数，一个是 tensor board，它会帮我们在训练的过程当中记录一些日记，然后我们可以在 tensor board 里面去看我们这个模型的训练的过程，比如说我们的 loss 是怎么变化的？我们的准确率是怎么变化的？嗯，然后另外一个是我们自定义的一个回调函数，它的作用就是在每一个 epoch 结束的时候，打印出我们当前的学习率。明白了，我们接下来就要进入到这个模型的定义和训练的环节了，我们要怎么在多卡的环境下面去出土化和翻译我们的模型呢？其实你只要把你的模型的创建和编辑都放在 strategy csv 的这个上下文里面就可以了，然后其他的部分就跟你原来的代码是一模一样的。那我们这个模型在训练的过程当中，这个 loss optimizer 和 matrix 具体是怎么设置的呢？我们这个 bert 的 mask language model，它用的是 sparse categorical cross entropy 作为我们的 loss function，然后用的是 adam w 作为我们的 optimizer，并且我们也会监控 sparse categorical 这个指标。对，然后其他的就跟你原来的单卡训练是一样的。 ok，那我们这个模型训练完了之后，我们要怎么去评估这个模型在测试级上面的表现呢？直接调用 model evaluate，然后把我们的测试级传进去就可以了，它会返回给我们那个 loss 和一个准确率。下面我们来讨论一下多机分布式训练的一些策略。嗯，那在 tensor flow 里面支持哪几种多机的分布式训练的策略呢？然后它们分别适用于什么样的场景呢？主要是有两种策略。嗯，第一种是 multi worker manager strategy，它是同步的分布式训练，就是所有的 worker 都会一起计算梯度，然后一起更新这种方式，它是适合于所有的 gpu 和 cpu 的集群。然后另外一种是 parameter server strategy，它是一种异步的方式，就是参数是放在 parameter server 上面的，然后各个 worker 是自己去计算梯度并且去更新参数的，这种方式的话它的扩展性会更好一些。嗯，但是它的这个训练的过程会更难去调试。好的，我们今天其实从最基本的分布式训练的概念，然后讲到了怎么去用 chaos hub 和 tensor flow 来实现单机多卡以及多机多卡的训练，然后中间也包括了一些数据的预处理，模型的搭建以及一些训练的细节。没错，希望大家听完之后能够对分布式训练有一个更清晰的认识，然后也能够自己动手去跑一些分布式的实验。
15陶老师
04:56
零基础！小白也能看懂的大模型训练有哪些方式，本期布懂就问图解系列带您简单了解大模型并行训练的几种方式。
#AI #大模型 #大模型训练 #OpenAI #人工智能
查看AI文稿
AI文稿
哈喽，大家好，欢迎来到本期的不懂就问图解系列播课。我听说训练大模型得有好多好多算力，就像咱们炒菜得有好几个厨师一起忙活似的。这个比喻还挺形象的，其实训练大模型就像开一家大餐厅，光靠一个厨师肯定忙不过来，得有不同的分工才行。今天咱们就用 ai 大厨的视角聊聊大模型训练里的几种并行方式，保证让你一听就懂。好啊，那咱们先从最简单的开始吧。我记得有一种叫数据并行的，是不是就像好多厨师一起切菜，差不多这个意思？数据并行就像是把一大盆菜分给好几个厨师，每个厨师都拿到一部分食材，然后各自去切。比如训练数据有一千条，分给十个厨师，每个厨师就负责处理一百条，等大家都切完了，再把切好的菜汇总到一起，看看整体效果怎么样。哦，那这样是不是就能加快速度了？就像人多力量大吗？对，但也不是完全没有问题。比如每个厨师切菜的方式可能不太一样，有的切的粗，有的切的细，最后汇总的时候就得想办法统一。而且如果食材太多，厨师之间的沟通成本也会增加，得有个好的协调机制才行。那流水线并行呢？这个听起来像是工厂里的流水线作业。没错，流水线并行就像是把做菜的过程分成好几个步骤，每个厨师负责其中一个环节，比如第一步洗菜，第二步切菜，第三步炒菜，第四步装盘。每个厨师只需要专注于自己的那一步，做完了就传给下一个人，这样一来，整个流程就能像流水线一样高效运转起来。那这样是不是就能避免重复劳动了？比如洗菜的厨师不用管切菜的事，各司其职。对，但也有个小问题，如果某个环节的厨师速度慢了，后面的人就得等着，就像堵车一样。比如炒菜的厨师动作慢了，装盘的厨师就只能干等着，所以得想办法让每个环节的速度都差不多，这样才能发挥流水线的最大优势。那张良并行呢？这名字听起来有点复杂，是不是和数学有关？嗯，张良其实就是一种多维数组，在 ai 模型里用来表示数据和参数。张良并行就像是把一道菜的配方拆分成好几份，每个厨师负责其中一部分。比如一道菜需要放盐、糖、酱油，每个厨师就负责放其中一种调料，等大家都放完了，再把调料混合到一起，看看味道怎么样。哦，那这样是不是就能让每个厨师都专注于自己的那部分工作，不用管其他的？对，但也得注意调料的比例。如果某个厨师放多了盐，整个菜的味道就会受影响。所以得有个好的协调机制，让每个厨师都知道自己该放多少调料，这样才能保证最终的味道是对的。那专家并行呢？这个听起来像是请了好多专家来一起做菜差不多。专家并行就像是把一道菜的不同部分分给不同的专家来做。比如一道鱼香肉丝，有的专家负责炒肉，有的负责炒配菜，有的负责炒酱汁。每个专家都在自己擅长的领域发挥作用，最后再把大家的成果组合到一起，那这样是不是就能让菜的每个部分都做的特别好？对，但也得注意整体的协调性，比如炒肉的专家把肉炒的太老了，或者调酱汁的专家把酱汁调的太咸了，都会影响整个菜的口感，所以得有个总厨来协调大家的工作，让每个部分都能完美配合。那这几种并行方式能不能组合起来用呢？比如同时用数据并行和流水线并行。当然可以，而且现在很多大模型训练都采用了这种组合方式，也就是所谓的三 d 并行架构。比如先把数据分给不同的厨师，每个厨师在用流水线的方式处理自己的数据，同时在处理过程中还可以用张亮并行和专家并行来优化，这样一来就能充分发挥各种并行方式的优势，让训练速度更快，效率更高哦。那这样是不是就像一家大餐厅，既有好多厨师一起切菜，又有流水线作业，还有专家负责不同的环节，最后总厨来协调大家的工作？对，差不多就是这个意思。三 d 并行架构就像是把各种并行方式有机的结合起来，形成一个高效的整体，这样一来，即使是训练非常大的模型，也能在合理的时间内完成。那这些并行方式是不是也有各自的适用场景呢？比如有的适合训练小模型，有的适合训练大模型。没错，比如数据并行比较适合训练数据量很大的模型，因为它可以把数据分给多个厨师同时处理。流水线并行比较适合训练步骤比较多的模型，因为它可以把步骤拆分成多个环节，提高效率。张亮并行和专家并行则比较适合训练参数很多的模型，因为他们可以把参数拆分成多个部分，让每个厨师都能专注于自己的那部分工作。那在实际应用中，该怎么选择合适的运行方式呢？这得根据具体的情况来定。比如，首先要看模型的大小和数据量，如果模型很大，数据量也很大，可能就需要用到多种运行方式的组合。其次要看硬件资源，如果有很多 gpu 或者 cpu，就可以采用更复杂的运行方式。最后还要看训练的目标，如果追求速度，可能就需要用到更多的运行方式。如果追求精度，可能就需要在运行的同时注意协调和优化。哦，原来如此，那今天听你这么一说，我对大模型训练的病情方式有了更深入的了解，感觉就像是开了一家大餐厅，需要各种不同的分工和协助，才能做出一道美味的菜肴。对，其实 ai 模型训练和做菜有很多相似之处，都需要合理的分工、高效的协助以及不断的尝试和优化，只有这样才能做出让人满意的成果。那今天的节目就到这里吧，希望通过我们的讲解，大家对大模型训练的病情方式有了更清晰的认识。如果你还有什么问题，欢迎在评论区留言，我们会尽力为你解答。好的，感谢大家的收听，我们下期再见！
8布懂就问了
02:23
003：五款电脑必备软件
查看AI文稿
AI文稿
跟大家分享五款必备软件，在咱们平时右键的时候，总是有一群乱七八糟的东西影响着咱们视野，而 context 巴拉巴拉巴就是一个完美解决此问题的工具。在这里取消自己不想见到的选项，然后再刷新，就可以见到简洁的新键了。当你在网上看到一个好视频，想要保存下来慢慢欣赏，但是现在束手无策。安装完这个软件，并在浏览器上加载它，你就可以保存网页上的任何视频和音乐。它的运行下载功能也特别的强大，速度多少看你心情。对于随便一个文件，如果你直接用笔记本打开，那就会发现这他妈什么玩意，一点逻辑都看不出来。但是如果你用 sublane text 的话，它就会自动识别对应的语言，并为它打上高光。注视是注视，关键词是关键词，对于一个不想在自己电脑装各种环境的程序员来说，简直是最好不过的了。当你采用电脑的原声搜索搜索的时候，再来看看 everything，我的天呐，这么神奇吗？并且还支持多种搜索方式，就比如说选择匹配目录，粘贴一个目录空格，再输入名称，就可以找到指定文件夹下的东西。如果你们想删除一个应用，怎么删呢？更多人还是在应用商店进行一键卸载吧，很多时候是可以，但有些时候就不咋好用，就比如三六零卸载不了三六零，而又有些像 a 制一样的死皮赖脸的软件就是卸不成，并且有些软件就像金针菇一样，老跟你 see you tomorrow。而 gek 就是解决这些问题的大师，它的强制卸载，无论它允许不允许卸载，都能给它卸载掉。最后还为你检查一遍所有的残余文件，不给任何软件死灰复燃的机会。
9907咖啡茶
00:55
一款电子产品？也能成为最懂你的同事？#平板电脑#生产力 #办公室 #科技改变生活
查看AI文稿
AI文稿
你说要一台真正懂你的平板替你干活？行，那今天就来带你认识下这位新同事，华为 matepad air，他可不太一样，不爱喊口号，只会默默帮你。普通平板在桌面一放，秒变镜子反光劝退。而这位呢，柔光屏加持，光线直射也完不虚，他都像自带阅读灯，清晰不眨眼。毕竟靠谱的助手，总不能动不动就见光死吧。当然，好的同事不止看得清，更要写的手，用它记笔记，莎莎声跟写在纸上一样真实，笔尖划过字迹，仿佛能渗进屏幕里。照率不是多干活，而是少动手。面对八千字报告，他安静三秒，地上提纲重点四倍导图一键生成，带往资料圈选翻译加多技术里同步完成。你以为这是多窗口变形，其实是电脑级的分屏浮窗，多重操作不卡顿，这才是高效该有的样子。如果平板界有年度贴心助手奖，那大概率会颁给这位华为 matepad air。毕竟，你的下一代生产力，何必是拼命？
1.7万Mia科技创想
01:46
Hydra的持续进化之路面对防御机制升级挑战，Hydra 迭代并行性能、扩展协议与攻击方式，强化批量测试能力，在攻防对抗中推动安全实践提升。#NextCyber #网络安全实训平台 #网络安全 #黑客技术
查看AI文稿
AI文稿
任何工具在长期发展中都会面临挑战，哈哲也不例外。随着网络安全的引进，各种服务增加了防御机制，例如账户锁定策略、验证码、多因素认证等，这给在线密码破解带来更大难度。哈哲团队和社区也意识到，单纯依赖字典爆破的效率和成功率会受影响，因此不断优化工具的核心能力。例如，他们提升 hdr 的并行处理性能，并改进任务调度，以加快测试速度并减少触发防御的概率。同时， hdr 加强了对复杂场景的支持，比如允许通过 s 参数指定非标准端口适应各种部署环境。社区还丰富了攻击方式。除了传统的字典爆破，还支持空密码试探以及基于特定用户名和密码组合的试探，提高了针对绕口令的检测效率。另一个重要方向是扩展协议支持的范围，例如增加对 h t、 t p、 postform 等 web 登录方式的破解，这使得 hydra 能适应更多现代应用。不过， hydra 也存在局限性，例如在面对带有验证码的 web 登录界面时难以直接破解。此外，为了提升应用性， hydra 提供了详细的输出选项和进度显示，方便用户监控长时间运行的任务。在应对大型目标时， hydra 引入了 m 参数，支持目标列表文件，并配合替参数控制总任务数，增强了批量测试能力。这些改进大多源于用户反馈和实际需求，体现了 hackler 在实用中的自我迭代。虽然 hackler 本身不直接提供防御功能，但它的存在和演化促使系统管理员更加重视密码策略和账户安全，例如强制使用复杂密码实施登录失败锁定等。从某种意义上说，他这在工与房的对抗中间接推动了安全实践的提升。面对持续变化的技术 landscape，他这通过社区协助保持活力，这本身就是对工具价值的最好证明。
0白帽大白
02:23
沉浸式观看AI编程使用Trae solo多任务并行模式帮我完成功能的开发
#ai #aiagent #ai编程 #trae #青年创作者成长计划
24程序员阿伟
03:33
带你手搓YOLOv11的C3k2结构 #深度学习 #人工智能 #目标检测 #yolov5 #yolov11
查看AI文稿
AI文稿
我们来看第十七小节泰尼手搓优乐威十一的 c 三 k 二结构。好，下面这个图的话，就是我们 c 三 k 二的一个网络结构图，然后它这里面使用的是 c 三 k，然后这个 c 三 k 又使用了若干个 bottleneck，这个 bottleneck 的一个结构就是它，只不过它和我们 c f 的一个区别就是这个卷积是一个深度可分离的卷积，所以它的参数量会减少，那么它和我们 c f 的一个主要区别就是它在中间又附用了一下 c 三 k，然后这个的话，那么它直接在我们这个 c f 里面直接使用了 botanek，那么它的区别就是先使用了一个 c 三 k，然后再在 c 三 k 里边使用了一个 botanek，这个 c 三 k 是由我们的 uluv 五的一个 c 三来的，嗯，所以这个 c 三 k 二结构融合了我们 uluv 的 c 三结构以及我们 uluv 八的一个 cf 结构。 uluback 去首测一下这个 c 三 k 二的一个结构，我们创建一个文件夹叫做 c 三 k 二，那么这个就是我们 c f 的一个结，我们把它复制一下，然后把这个卷积，它是一个深度可分离的一个卷积，然后把这个 bottle neck 去替换一下，那么我们再把这个 c 三结构也复制到里面，他也使用了这个 bottle neck，我们只需要复制这个就可以了。 c 三，然后把它放到这里面，嗯，我们首先把这个 cf 改成 c 三 k 二， e 三 k 二，然后把这个 model nike 也替换一下，那么再让它加个 k，然后这个是 model nike k k，那么这个是 c 三 k，然后这个 c o n v 就不用动，那么我们首先把这个卷积变成我们这个 c 三 k 二的一个单独的一个卷积，它的核很大，所以我们可以任意的替代这个核的大小，所以我们要在这里面指定一下我们这个 kernel，那么就在这里面指定一下 k 等于默认是三吧，然后让它等于它，让它等于 k，然后波特奈克 k， k 也写好了，那么我们再写好这个 c 三 k 的一个结构，我们把它也替换一下，把它变成波特奈克 k，那么这个的话就是 k 等于五，一般这个和是一个大和，再在上面指定一下 k 等于五，然后这个应该是 k 等于 k，这个就是我们这个 c 三 k 的一个结构。哦，我们在在这里面去修改一下这个 c 三 k，替换这里面的 botnik，然后让这个 k 也等于五 k 等于 k，然后这里面输入的话默认是 k 等于五，然后下面这个 c 三 k 变成我们这个 c，那么这个代码我就写好了，那么这个就是我们这个 c 三 k 二的一个结构，我们跑一下，看它是不是能跑得通，说明我们这个网络结构是通畅的，那么这个就是本次要给大家分享的单机手搓 uov 十一的个 c 三 k 二结构，它融合了我们 uov 五的一个 c 三结构，以及我们 uov 八的一个 c f 结构，然后把它变成了我们这个 c 三 k 二结构。如果你觉得我讲的不错的话，可以进行一个一键闪连，拜拜。
63宋大水
01:31
Claude Code 创始人亲授的13条使用秘籍一：效率倍增-并行思维 #ClaudeCode #claude #AICoding #AI编程 #Vibecoding
查看AI文稿
AI文稿
传统的工程师写代码是串型思维，写完 a 功能再去写 b 功能，但有了 cloud code，你可以彻底变成并行思维，去倍增你的效率。 orace 的第一条建议是在本地同时跑五和 cloud code 的实力，终端的标签页编号从一编到五，每个处理独立任务。当我 cloud 需要输入时，系统通知会提醒你接入一下就好。但他觉得这些还不够。他的第二条建议是在可拉酷狗的网页版上同时跑五到十个网页端绘画，配合本地终端，再加上手机端的 ios 应用，三端协同本地干活，网页监控，手机查禁。最绝的是可以用案的命令把本地绘画交接给网页端，用杠杠 type port 参数来回传送，真正实现了人在外面跑，代码在家写。他认为这并不是多任务的切换，这是真正的多任务并行。接下来会是本系列的第二集，模型是选 opus 还是选 so net 看完这个系列，相信你使用 cloud code 乃至你的 ai coding 能力都会有一个全新的提升。后面的每一集都是干货，千万别错过。欢迎你继续观看，点赞加关注，获取更多的有价值的 ai 新信息！
37森哥·AI产品创业者

热门推荐

热门分类