Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
精选
推荐
AI抖音
探索
直播
放映厅
短剧
搜索
您是不是在找:
agent智能体入门书籍
ozon点击付费怎么不用自动策略
加刀补报警补偿干涉怎么改程式
上门医护小程序开发
ctf中脚本一般怎么命名
开了k模型左下角的代码怎么关闭
998aa换哪个域名了
怎么把豆包里的内容转成qord
DeepAudit开源意义
QAM瑞利衰落信道的特性有哪些
迪哥AI课堂
4月前
强化学习PPO算法代码实战入门案例-月球登录器训练/通俗讲解 #强化学习 #人工智能 #机器学习 #深度学习 #PPO算法
00:00 / 47:56
连播
清屏
智能
倍速
点赞
392
迪哥AI课堂
5月前
强化学习ppo算法详解公式推导算法教程数学原理Python #强化学习 #PPO算法 #人工智能 #机器学习 #机器学习入门
00:00 / 55:22
连播
清屏
智能
倍速
点赞
1587
(教程在主页)我的小助手
5月前
50分钟彻底弄懂强化学习原理+代码实现,小白也能吃透大模型 #ai #人工智能 #大模型 #程序员 #计算机
00:00 / 49:49
连播
清屏
智能
倍速
点赞
202
迪哥AI课堂
5月前
强化学习通俗讲解工作流程算法教程ppo/DQN算法详解 #强化学习 #机器学习 #人工智能 #深度学习 #ai新星计划
00:00 / 30:48
连播
清屏
智能
倍速
点赞
419
上海交大张伟楠
1年前
第19集|张伟楠强化学习课程:深度强化学习策略方法II 本期知识点为PPO算法,内容对应《动手学强化学习》第12章:PPO算法#强化学习 #人工智能 #上海交通大学 #跟我学AI #AI在抖音
00:00 / 14:46
连播
清屏
智能
倍速
点赞
1041
AI算法工程师Power
4月前
DeepSeek R1核心原来是这个?怪不得一路开挂! 作为 DeepSeek R1 的核心算法,GRPO到底牛在哪?#机器学习 #深度学习 #强化学习 #GRPO #deepseek
00:00 / 06:13
连播
清屏
智能
倍速
点赞
1929
上海交大张伟楠
1年前
第18集|张伟楠强化学习课程:深度强化学习策略方法I 本期知识点为基于神经网络的策略梯度、A3C、确定性策略梯度、TROP,内容对应《动手学强化学习》第12章:PPO算法#强化学习 #人工智能 #上海交通大学 #跟我学AI #AI在抖音
00:00 / 36:17
连播
清屏
智能
倍速
点赞
113
大模型CC
9月前
20分钟实现大模型强化学习(PPO),基于人类反馈的强化学习 #大模型 #AI #人工智能 #大语言模型 #强化学习
00:00 / 48:14
连播
清屏
智能
倍速
点赞
55
迪哥谈AI
8月前
一口气学完强化学习算法,原理+实操 从零基础出发,系统讲解强化学习的核心原理与实践应用,涵盖Q-Learning、DQN、PPO、DPO等算法的原理+实操,并结合Python编程实现游戏AI、机器人控制等个实战项目。通过本系列学习,你将具备独立开发智能决策系统的能力,并能将强化学习应用于金融交易、资源调度、推荐系统等实际场景。 #强化学习 ##人工智能 #计算机视觉 #计算机技术 #DQN
00:00 / 01:28
连播
清屏
智能
倍速
点赞
227
工业电控站
2年前
PROFINET IO 控制ABB传动报文结构(PPO类型) #profinet通讯 #ABB变频器 #电气工程 #电工知识
00:00 / 05:23
连播
清屏
智能
倍速
点赞
460
文俊Sam
9月前
什么平板可以不插卡也可以随时上网?#oppo #oppopad4pro #数码
00:00 / 04:25
连播
清屏
智能
倍速
点赞
3297
鲨鱼喜欢步瑶
11月前
抖鹏第一打手OPPO酱拿带词条的双p90出征单人四排迷雾荒岛,如果不是窥屏仔,就要被打崩溃了!#游戏解说 #地铁逃生
00:00 / 05:14
连播
清屏
智能
倍速
点赞
1371
狼🐾
10月前
所有手机声音@小猫包
00:00 / 05:33
连播
清屏
智能
倍速
点赞
3160
左芸攸YoYo
5月前
#强烈推荐 #vlog日常 #性价比极高 #抖音推广 #oppofindx8 哈哈哈哈,百亿大补贴加平台补,12+512,安全下车
00:00 / 02:51
连播
清屏
智能
倍速
点赞
696
废品刚哥机械设备
4年前
花4000回收的PS废旧塑料,挑选出来PPO废旧塑料可以卖7000多
00:00 / 03:17
连播
清屏
智能
倍速
点赞
194
柏阳兄(添柴吧小哥)
8月前
8个OPPO Find X8s隐藏神操作,让你一秒回本! 1、XPAN哈苏模式 2、DeepSeek文生图 3、隔空互传+远控电脑 4、AI 一键闪记 5、AI 灵感成片 6、天气特效 7、流体云 8、一键问屏 #OPPOFindX8 #OPPOFindX8s #带我一起夜出发 #ColorOS15
00:00 / 02:53
连播
清屏
智能
倍速
点赞
NaN
英杰美术馆
1年前
倪萍的幽默有趣有性情#上热门 #倪萍#苏晓明#娱乐 #国画
00:00 / 02:52
连播
清屏
智能
倍速
点赞
8354
李多鱼
5月前
OPPO Pad4 Pro两个月体验:这几点最满意。#OPPOPad4Pro #平板电脑 #OPPO平板
00:00 / 01:41
连播
清屏
智能
倍速
点赞
2628
吉鑫公子
9月前
码住‼️8个OPPO手机的实用功能不允许你不知道 #手机 #数码科技 #玩机技巧 #oppo #手机使用技巧 @DOU+小助手 @抖音创作小助手 @DOU+上热门
00:00 / 02:42
连播
清屏
智能
倍速
点赞
1614
加一竹笛🪈
7月前
美丽的神话 回复 @釋懷的评论 #美丽的神话 #笛子 #竹笛 #民族乐器 #器乐演奏 万事沧桑唯有爱是永远的神话
00:00 / 01:00
连播
清屏
智能
倍速
点赞
4539
小Miki🐼
2年前
“姜爷爷与福宝🐼的日常生活 福宝特别依赖姜爷爷 因为它知道姜爷爷爱它和对它好也懂它 所以它也爱姜爷爷”#熊猫🐼 #动物萌时刻 #大熊猫福宝
00:00 / 06:30
连播
清屏
智能
倍速
点赞
NaN
AI唐宇迪
1月前
强化学习!第2章:PPO算法与公式推导 #人工智能 #深度学习 #机器学习
00:00 / 53:46
连播
清屏
智能
倍速
点赞
562
₋七七¹²
2年前
来看看昨天马天龙的第二顿ppox吧(小声bb一句 我听了好多遍马天龙那句话我都没听懂啥意思)#亦十二 #直播录屏分享 #亦与十二 #屏幕录制 @抖音小助手 @DOU+小助手
00:00 / 00:52
连播
清屏
智能
倍速
点赞
1745
马腾飞每天更新
10月前
PPO算法 1-PolicyGradient #PPO
00:00 / 09:32
连播
清屏
智能
倍速
点赞
58
非程序员老杨
1周前
被大模型算法虐哭的第N天,我找到了救命稻草#大模型 #算法工程师 #人工智能 #微调 #强化学习
00:00 / 00:55
连播
清屏
智能
倍速
点赞
26
chaofa用代码打点酱油
2月前
300行代码从零实现GRPO算法 手把手教你实现 Agent RL,训练 Agentic RAG (DeepSeek R1 同款技术) 📚 本期内容: ✅ GRPO算法核心原理详解(vs PPO算法对比) ✅ 5个关键问题理解强化学习本质 ✅ Search R1训练流程完整拆解 ✅ 300行代码手写Agent RL项目 ✅ Trajectory生成与Policy更新实战 ✅ Reward计算与Advantage优化技巧 ✅ 重要性采样与KL散度实现细节 #大模型 #强化学习 #grpo #featurize #LLM
00:00 / 44:26
连播
清屏
智能
倍速
点赞
501
刘智勇频道
3周前
现代强化学习算法演进:PPO、CISPO与DRO的关键解析[刘智勇频道] #现代 #强化 #学习 #算法 #演进 #真#机#c#机#硅#A#猛#人风投高科人形纪元猛虎财经AI之星硅基科学机器洞察cZomZhenMeta机智能
00:00 / 04:50
连播
清屏
智能
倍速
点赞
1
和森致远知识社区
1年前
PPO算法原理和原型实验实现 介绍PPO算法基本原理和原型实验实现,包括异策略算法的数据采样复用思路以及重要性采样原理,以及基于Actor-Critic算法框架的策略网络和价值网络联合训练、广义优先函数的定义等。 #重要性采样 #广义优先函数 #目标函数裁剪
00:00 / 36:48
连播
清屏
智能
倍速
点赞
48
小飞鱼学算法
2周前
算法面试考点 [LLM-RL-PPO](2)
00:00 / 00:18
连播
清屏
智能
倍速
点赞
1
电脑糖糖。
2年前
AMD新手超频案例pbo2超频。 #超频
00:00 / 04:22
连播
清屏
智能
倍速
点赞
1311
OpenMMLab
6月前
过去的PPO算法依赖于四个神经网络来进行稳定训练,近期以DAPO为代表的算法只需要一个policy model,是什么带来了模型训练稳定性的提升?4位嘉宾对此发表了许多精彩观点,快来一睹为快吧! 本期圆桌讨论主题:RL 强化学习发展趋势洞见 《AI Insight Talk 直击RL强化学习前沿专场直播》 #人工智能 #大模型 #强化学习 #大语言模型 #多模态大模型
00:00 / 09:26
连播
清屏
智能
倍速
点赞
0
赋范课堂
4月前
【大模型面试·必问八股文】PPO与GRPO算法原理对比分析 刷100+面试题通过率飙升,2步做出满分答卷,拿下高薪offer! | 强化学习算法原理 | 高效微调算法原理#面试#RAG#大模型#ai新星计划#微调
00:00 / 07:38
连播
清屏
智能
倍速
点赞
16
卡皮巴拉顶个球
4月前
鼠鼠得吃日记:用强化学习 “拿捏” 简单倒立摆问题 #有所事事的暑假 #人工智能 #三角洲 #曼波 #强化学习
00:00 / 02:05
连播
清屏
智能
倍速
点赞
4
InfoQ
4月前
阿里的强化学习算法突破与实践!#AI #InfoQ #阿里 #强化算法 #PPO算法
00:00 / 03:43
连播
清屏
智能
倍速
点赞
19
GEN
2年前
AI玩游戏强化学习PPO算法挑战Lunarlander 需要代码评论区留言
00:00 / 04:19
连播
清屏
智能
倍速
点赞
19
九天Hector
4月前
大模型面试|PPO VS GRPO强化学习原理对比 大模型秋招面试必考题解析|【算法原理】PPO VS GRPO强化学习原理对比 #大模型 #秋招 #大模型八股文 #微调 #ai新星计划
00:00 / 07:33
连播
清屏
智能
倍速
点赞
142
晓唦
5年前
[晓唦带你读]TensorFlow2深度学习14.1.先睹为快
00:00 / 29:09
连播
清屏
智能
倍速
点赞
1
夜子玩AI
2年前
AI人工智能玩超级马里奥,强化学习PPO算法 #超级玛丽 #怀旧游戏 #PPO算法 #强化学习
00:00 / 01:31
连播
清屏
智能
倍速
点赞
63
赋范课堂
3月前
【面试八股】Qwen3的GSPO算法原理是什么? 国产T0大模型核心技术精讲,0基础也能手撕前沿算法 | GRPO VS GSPO | PPO长度归一化#面试#微调#大模型#ai新星计划#GRPO
00:00 / 07:28
连播
清屏
智能
倍速
点赞
16
汀人工智能
2年前
人工智能玩转游戏[神经网络和基于强化学习PPO算法] #深度强化学习 #人工智能 #人工智能算法
00:00 / 10:37
连播
清屏
智能
倍速
点赞
3
高等智能研究所
11月前
PPO算法 rap打油诗#当代研究生精神状态 #chatgpt #读博 #人工智能 #强化学习
00:00 / 01:24
连播
清屏
智能
倍速
点赞
7
汀人工智能
2年前
AI学习战斗OK游戏基于PPO算法的强化学习项目展示 #人工智能 #深度强化学习 #人工智能玩游戏
00:00 / 23:09
连播
清屏
智能
倍速
点赞
2
丁师兄大模型(面试陪跑)
3月前
面试官:DeepSeek-R1的GRPO到底比PPO好在哪 从一个秋招LLM面试真题展开,详细聊聊Deepseek中的强化学习算法GRPO,如果你在面试现场被问到相关题目,应该如何作答? #大模型面试 #ai大模型 #大模型 #大模型算法 #算法秋招
00:00 / 05:29
连播
清屏
智能
倍速
点赞
130
汀人工智能
2年前
人工智能踢足球(神经网络和强化学习PPO算法)
00:00 / 11:05
连播
清屏
智能
倍速
点赞
2
AI大模型老杨
5月前
零基础学习PPO #人工智能 #大模型 #AI #程序员 #大模型应用
00:00 / 28:04
连播
清屏
智能
倍速
点赞
96
极客开源
7月前
大模型偏好对齐面试题PPO和DPO有什么区别 #大模型面试 #算法面试 #学习资料分享 #算法面试题 #人工智能
00:00 / 00:22
连播
清屏
智能
倍速
点赞
11
夜子玩AI
2年前
AI如此轻松通关超级马里奥关卡1-2 #超级玛丽 #算法 #PPO #强化学习 #人工智能
00:00 / 01:38
连播
清屏
智能
倍速
点赞
7
贵锅雲上微型注塑机
2月前
最难加工的五大塑料 #塑料颗粒 #注塑成型 #改性塑料 #知识前沿派对 #注塑成型疑难问题解答
00:00 / 01:21
连播
清屏
智能
倍速
点赞
272
🍁小乐¹²
1月前
ppox~谁ppox谁😏#亦十二 #直播录屏分享 @亦十二 #粉丝奔赴之约 @亦与十二 @亦十二(恋爱版) @亦十二(不是本人)
00:00 / 02:01
连播
清屏
智能
倍速
点赞
674
技术探险家
3月前
94%性能提升!小模型靠“抄作业”逆袭 SAPO算法 🔥94%性能提升的AI黑科技!Gensyn团队最新研究证明:8个0.5B小模型通过互相“抄作业”,推理能力接近翻倍!👉核心突破:去中心化蜂群训练(SAPO算法),不用天价GPU,你的笔记本也能参与AI训练!📊实验揭秘:4本地/4外部经验共享=最优解,过度“抄作业”反而会精神分裂?🎧配套播客:11分钟搞懂小模型逆袭的底层逻辑,AI平民化时代要来了?#AI前沿 #机器学习 #算法科普 #开源项目 #科技黑箱 标签推荐 #AI #机器学习 #算法 #开源 #科技前沿 #深度学习 #论文解读 #小模型 #去中心化 #B站知识分享
00:00 / 06:25
连播
清屏
智能
倍速
点赞
25
孛恩新材料
5天前
一分钟带你了解PPO材料#工程材料 #新材料#PPO
00:00 / 00:28
连播
清屏
智能
倍速
点赞
1
MySpring之千问LLM系列
8月前
两分钟带你了解DPO、PPO、GRPO三种算法,轻松入门! 想快速掌握强化学习?两分钟带你了解DPO、PPO、GRPO三种算法,轻松入门!#LLM #AI #RL #强化学习
00:00 / 01:24
连播
清屏
智能
倍速
点赞
27
加倍
4月前
Agent算法岗,ppo与grpo #大模型面试 #Agent #MCP #GQA #RAG
00:00 / 03:10
连播
清屏
智能
倍速
点赞
6
无情火羽白
5天前
聚醚胺有些什么结构和不同,一条视频说清楚#干货知识分享 #有机化学#环氧
00:00 / 06:38
连播
清屏
智能
倍速
点赞
44
SK超频装机
2周前
9800X3D终极玩法。一个视频教会你。小白也能看的懂 #9800X3D #PUBG #超频
00:00 / 01:31
连播
清屏
智能
倍速
点赞
1635
野生博士(邪修版)小魔头
10月前
deepseek的评价算法GRPO解析:原作者都不敢像抖音这样标榜!#deepseek #论文解析 #算法解析
00:00 / 06:16
连播
清屏
智能
倍速
点赞
134
AI费曼
4月前
[250811]阿里只用两个trick,RL效果超越GRPO 阿里提出新的RL算法Lite PPO arxiv: 2508.08221 Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
00:00 / 03:02
连播
清屏
智能
倍速
点赞
79
AI大白
8月前
这波AI浪潮你赶上了吗? 4月12日 1️⃣ 神秘双星降临! • Quasar Alpha登顶编程类榜首 • 百万token窗口+完全免费 • OpenAI:这波操作有点眼熟?👀 2️⃣ 伯克利新算法封神! AssistanceZero横空出世 • 碾压PPO算法 • 操作减少30%,任务完成率飙升 • 大模型救星来了! #算法界的超人 3️⃣ ChatGPT记忆升级! • Plus/Pro用户专享 • 全量聊天记录随时调取 • GPT-4.5训练超1000万GPU小时 AI:你的每一句话我都记得❤️ 4️⃣ 医学影像大突破! • FairGenMed数据集问世 • FairDiffusion方法性能提升40% • 医疗AI公平性难题有解了! #AI医生的春天 5️⃣ 华为云生态大会炸场! • 昇腾AI适配160+大模型 • 服务600+企业 • 算力输出 芜湖起飞不是梦!✈️ 🔥今日金句: "未来已来,只是分布不均" ——这波AI浪潮你赶上了吗?
00:00 / 01:55
连播
清屏
智能
倍速
点赞
0
简介:
您在查找“
ppo算法
”短视频信息吗?
帮您找到更多更精彩的短视频内容!
最新发布时间:2025-12-25 07:06
最新推荐:
baby现在还在工作吗
鳄鱼小顽皮爱洗澡水族工具怎么过
碎言是什么意思
你不口腔溃疡吗
从外地来陕西的骆驼现在走到哪了
小洛熙妈妈怎么保的胎
航天发展是深市还是沪市
韦山教学钻木取火意义
影响女孩子三观的话
如意女团困困资料
相关推荐:
唐诡奇谭瑞秋配音演员是谁
轻享服打造石头怎么获得
你找别人聊天或者干嘛我都不会去管
只有中音的歌曲
喜茶星星人徽章怎么佩戴
到底从哪来的这么稀奇古怪的BGM
荒坂特战利刃怎么打头
唱歌最好戴着帽子
最好的朋友双男主
场内基金lof是t0还是t1
热门推荐:
达人投流发票在哪里开
苹果手机怎么修改合同上传e签宝
天选什么人
天猫圈品免息的取消流程是怎样的?
声卡可以搭配转接器使用吗
苹果手机把健康功能删除了怎么恢复
病毒大逃杀怎么卸载
番茄自动验证的书更新要求
SAP PFCG怎么用
快手沦陷了是谁干的