MDP马尔可夫决策过程与强化学习 - 抖音

您是不是在找：

上海交大张伟楠1年前

第5集|张伟楠强化学习课程：马尔可夫决策过程I 本期知识点为随机过程、马尔可夫过程、马尔可夫奖励过程、马尔可夫决策过程，内容对应《动手学强化学习》第3章：马尔可夫决策过程#强化学习 #人工智能 #上海交通大学 #AI在抖音 #跟我学AI

00:00 / 21:32

连播

清屏

智能

倍速

点赞1996

AI灵魂拷问5月前

马尔可夫决策过程#AI #强化学习 #机器学习

00:00 / 01:11

连播

清屏

智能

倍速

点赞79

AI算法水七酱6月前

60分钟手把手带你动画深入理解马尔可夫链算法原理 #人工智能 #机器学习 #神经网络 #神经网络与深度学习 #计算机技术

00:00 / 57:25

连播

清屏

智能

倍速

点赞5536

境随心转！4周前

马尔可夫过程马尔可夫过程是一种具有“无记忆性”的随机过程，由俄国数学家安德雷·马尔可夫于1906年首次提出。其核心特性是“马尔可夫性”，即系统未来状态仅依赖于当前状态，而与过去状态无关。这一特性使其在物理学、化学、生物学、经济学、人工智能等领域展现出强大的建模能力，成为现代概率论与统计学中不可或缺的工具。理论基础与数学定义。马尔可夫过程的数学本质可由状态空间和转移概率描述。设随机序列的状态空间为，若对任意时间及状态，满足：则该过程称为马尔可夫过程。若时间与状态均离散，称为马尔可夫链；若时间连续，则需用转移速率矩阵描述，如泊松过程。转移概率矩阵是分析离散马尔可夫链的关键。以天气模型为例，假设某地天气仅“晴”“雨”两种状态，转移矩阵为：表示晴天次日仍晴的概率为90%，转为雨的概率为10%。通过矩阵幂运算可预测多步后的状态分布。分类与应用场景。离散时间马尔可夫链，适用于阶段性决策问题，如搜索引擎的页面排名算法（PageRank）。Google早期通过网页间的链接关系构建转移矩阵，将网页重要性视为马尔可夫链的稳态分布，解决了海量网页排序的难题。连续时间马尔可夫过程，常用于排队论与可靠性工程。例如，医院急诊室的病人到达服从泊松过程，服务时间服从指数分布，可用CTMC建模分析平均等待时间。隐马尔可夫模型，在语音识别和基因序列分析中，HMM通过观测数据反推隐含状态。如语音识别中，声学信号是观测值，对应的文字是隐藏状态，维特比算法能高效解码最可能的状态序列。马尔可夫决策过程，强化学习的理论基础。智能体在环境中选择动作以获得最大累积奖励，其策略优化依赖于贝尔曼方程。AlphaGo的决策过程即基于MDP的扩展——部分可观察马尔可夫决策过程（POMDP）。实际案例解析。自然语言处理，马尔可夫链可用于文本生成。通过分析语料库中单词的转移概率，可生成看似合理的句子。例如，基于“今天→天气→晴朗”的统计频率，模型可能输出“今天天气晴朗”。尽管缺乏长程语义，该方法在早期聊天机器人中广泛应用。马尔可夫过程以其简洁的数学形式和强大的适应性，成为连接理论与实践的桥梁。从天气预报到自动驾驶，其应用不断拓展边界。然而，面对现实世界的复杂依赖性，如何在模型精度与计算可行性间取得平衡，仍是未来研究的核心命题。正如诺贝尔奖得主保罗·萨缪尔森所言：“马尔可夫链不仅是工具，更是一种思考世界的方式。”

00:00 / 02:35

连播

清屏

智能

倍速

点赞1

大勇任卷舒2年前

11.强化学习MDP四元组S，A，P，R-1 强化学习，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 #深度学习 #机器学习 #强化学习 #人工智能 #MDP

00:00 / 04:14

连播

清屏

智能

倍速

点赞16

zidea4年前

强化学习(5)—马尔可夫决策过程(中)

00:00 / 10:34

连播

清屏

智能

倍速

点赞4

LLM张老师学堂1年前

《强化学习》第3.6-3.8章 MDP 马尔可夫决策过程 #强化学习 #RL 视频中代码：https://github.com/waylandzhang/learn-reinforcement-learning

00:00 / 18:07

连播

清屏

智能

倍速

点赞43

狄利克雷卷积2年前

马尔科夫决策过程2

00:00 / 02:35

连播

清屏

智能

倍速

点赞44

江哥伴你学5年前

资深程序员告诉你，马尔科夫性质、隐马尔科夫模型如何理解！

00:00 / 12:36

连播

清屏

智能

倍速

点赞186

AI抱抱1年前

马尔可夫决策过程#干货分享 #认知 #每天学习一点点 #科普一下 #科技

00:00 / 01:48

连播

清屏

智能

倍速

点赞23

上海交大张伟楠1年前

第6集|张伟楠强化学习课程：马尔可夫决策过程II 本期知识点为占用度量和累计奖励、MDP中策略的目标、策略评估、策略提升，内容对应《动手学强化学习》第3章：马尔可夫决策过程#强化学习 #人工智能 #上海交通大学 #AI在抖音 #跟我学AI

00:00 / 24:32

连播

清屏

智能

倍速

点赞142

编程知识导航1年前

人工智能-马尔可夫算法 #计算机 #计算机科学 #计算机软件 #算法 #代码 #算法 #人工智能 #科学

00:00 / 03:17

连播

清屏

智能

倍速

点赞105

和森致远知识社区1年前

MDP(免模型-蒙特卡洛-Sarsa-QLearning）介绍了马尔可夫决策过程的免模型算法，如蒙特卡洛算法，时间差分算法（Sarsa和QLearning）以及介绍了on policy的Sarsa算法和off policy的Q Learning算法关于同策略和异策略的不同的特性。 #MentoCarlo #Sarsa #QLearning #TemporalDifference

00:00 / 48:51

连播

清屏

智能

倍速

点赞12

XAI8月前

彻底理解人工智能NLP数学模型马尔可夫链的原理 #人工智能 #科技 #教育校园 #机器学习 #计算机技术

00:00 / 04:49

连播

清屏

智能

倍速

点赞NaN

Matthew学长8月前

GM(1,1)-马尔可夫链，灰色马尔可夫，使用马尔可夫链模型修正GM(1,1)预测结果 #灰色马尔可夫 #灰色预测 #毕业论文 #马尔可夫 #马尔可夫链

00:00 / 28:53

连播

清屏

智能

倍速

点赞33

和森致远知识社区1年前

MDP（贝尔曼方程，价值函数，Q函数，策略评估）介绍马尔可夫决策过程的相关知识技术原理，包括价值函数，贝尔曼方程，价值函数的不同求解方法（解析解，蒙特卡咯解，动态规划迭代求解）以及策略的评估等。 #Bellman #Q函数 #Policy #马尔可夫决策过程

00:00 / 59:25

连播

清屏

智能

倍速

点赞46

思维螺旋2年前

用马尔可夫模型透视财富底层逻辑 #认知思维 #个人成长 #财富思维 #财富密码 #认知觉醒

00:00 / 02:47

连播

清屏

智能

倍速

点赞279

姜老板聊认知6月前

境随心转，心强则念正，念正则行动合乎道，行动合乎道则至高境 #创作灵感 #认知 #强者思维 #道 @DOU+小助手

00:00 / 04:42

连播

清屏

智能

倍速

点赞1137

和森致远知识社区1年前

MDP-2(策略迭代-价值迭代及其实验分析和演示) 介绍了基于马尔可夫决策过程中基于bellman方程的动态规划更新的相关算法：策略迭代和价值迭代，并辅以cliffwalk迷宫游戏环境进行了相关的实验实现分析和演示。 #PolicyIteration #ValueIteration #BellmanEquation

00:00 / 44:38

连播

清屏

智能

倍速

点赞11

数模加油站1周前

预测类算法——马尔可夫算法原理精讲 #数学建模 #数模 #数模加油站

00:00 / 41:40

连播

清屏

智能

倍速

点赞26

伟哥的AI生意5月前

7 天破解深度强化学习难题！揭秘马尔可夫决策过程隐藏捷径，90%人错了！#认知思维#干货分享

00:00 / 00:59

连播

清屏

智能

倍速

点赞1

搞算法的蒂普榭尔1年前

火遍油管！大佬把马尔可夫链做成动画了！从模型理论到核心概念，附讲解视频和资料#人工智能 #马尔可夫链 #机器学习 #深度学习

00:00 / 00:52

连播

清屏

智能

倍速

点赞107

拓端tecdat10月前

Matlab用BUGS马尔可夫区制转换Markov

00:00 / 02:36

连播

清屏

智能

倍速

点赞2

猴哥带你学数学10月前

又见马尔可夫链，还不会的同学，赶紧进来学习 #2025成都二诊 #马尔可夫链 #概率大题 #高中数学每日一题 #猴哥带你学数学

00:00 / 17:45

连播

清屏

智能

倍速

点赞730

数学大师兄3周前

概率之马尔可夫链 #高考 #数学 #高中数学 #高考数学 #高二数学

00:00 / 03:23

连播

清屏

智能

倍速

点赞81

以梦成长培优规划中心官方号8月前

有意思的马尔可夫链问题，你会了吗？#高中数学 #家长必读 #高二#济宁北湖 #学霸秘籍

00:00 / 05:04

连播

清屏

智能

倍速

点赞91

数学王子悦老师8月前

为什么你开车出门总碰红灯？#抖音校园#2025高考#抖音公开课#高考#数学思维

00:00 / 02:36

连播

清屏

智能

倍速

点赞402

必过源码3年前

POMDP：部分可观测马尔可夫决策过程的强化学习算法的实现 #编程 #Matlab

00:00 / 01:07

连播

清屏

智能

倍速

点赞10

FC小花子2天前

第52集［海外翻译］球员测评｜时间扭曲马尔塔 #fc26 #FC26周赛 #fc26球员测评 #fc26开包 #fc26进化

00:00 / 01:02

连播

清屏

智能

倍速

点赞6

蓦然回首7月前

马尔科夫链问题关键是学会全概率分析。抓住两个特性：1）第n次状态只与前一次即第n一1次状态有关，与第n-1次以前的状态无关；2）每一次几种状态的概念之和为1。要学会把第n次的某种状态用第n-1次的几种状态进行全概率分析。最后，马尔科夫链问题都可以进行简化，即只看成两种状态。#马尔科夫链问题 #全概率分析 #全概率公式 #数列构造

00:00 / 17:37

连播

清屏

智能

倍速

点赞33

玄哥数学3天前

概率压轴大题，难度偏大，马尔可夫链结合无穷数列极限求和！

00:00 / 23:16

连播

清屏

智能

倍速

点赞26

阿糕今天学多少了7月前

马尔可夫链模型马尔可夫链--拿分技巧 #数学 #高考 #学习 #上热门

00:00 / 10:45

连播

清屏

智能

倍速

点赞3364

数苑统计2年前

长江水质污染情况的预测——王楠茜

00:00 / 09:21

连播

清屏

智能

倍速

点赞20

GFL-苏苏特别棒7月前

2025年全国二数学压轴题 #2025高考 #高考数学 #数学压轴 #全国二卷数学 #高考

00:00 / 26:20

连播

清屏

智能

倍速

点赞180

小白哥哥🍀4月前

金融专业MBA的时间序列分析教材 #量化分析 #数据分析 #统计学 #金融学 #金融工程

00:00 / 00:48

连播

清屏

智能

倍速

点赞0

Wiener过程的Ito方程3年前

21年的那个夏天，是个快乐的夏天！！！

00:00 / 04:13

连播

清屏

智能

倍速

点赞8

奶龙-论文指导1月前

通俗易懂的讲解马尔可夫链视频素材来源于normalized nerd #深度学习#人工智能#马尔可夫链

00:00 / 06:20

连播

清屏

智能

倍速

点赞39

Miu同学7月前

深度强化学习的必备书籍深度强化学习的必备书籍，这本书从基础概念出发，逐步深入到DRL的核心算法和最新研究进展。它不仅涵盖了DRL的理论基础，如马尔可夫决策过程（MDP）、Q学习、策略梯度等，还详细介绍了如何将深度学习技术与强化学习相结合，以解决复杂的决策问题。这本书的特色在于它将理论与实践紧密结合。王树森在书中不仅提供了深度强化学习的理论框架，还通过大量的案例分析和实验结果，展示了DRL在不同领域的应用#深度学习 #机器学习 #大语言模型 #transformer #算法

00:00 / 00:30

连播

清屏

智能

倍速

点赞14

AhaDeepchain深链1月前

强化学习入门强调了价值在强化学习中的重要性，并解释了如何衡量价值。价值可以通过期望来描述，期望是样本的加权和，权重是概率。接着，引入了马尔可夫性的概念，即下一步的状态只取决于当前的状态，而不依赖于过去的状态。此外，讨论了策略在强化学习中的重要性，包括决策型策略、概率型策略、UCB、贝叶斯策略以及神经网络的梯度策略等。最后，讨论了时序#差分（TD）在强化学习中的作用，它是结合了蒙特卡罗和动态规划（DP）的方法。

00:00 / 33:12

连播

清屏

智能

倍速

点赞4

zidea5年前

强化学习(4)—马尔可夫决策过程 #人工智能 #AI #马尔可夫过程 #马尔可夫决策过程

00:00 / 11:32

连播

清屏

智能

倍速

点赞4

汤昀暄6月前

速学一下MDP #RL #强化学习 #AI #马尔可夫链

00:00 / 09:54

连播

清屏

智能

倍速

点赞10

数模加油站1周前

预测类算法——马尔可夫算法Matlab代码实现 #数学建模 #数模 #数模加油站

00:00 / 10:52

连播

清屏

智能

倍速

点赞4

清晖2周前

北大学长带你了解概率与统计中的马尔可夫链！#四川新高考 #高中数学 #马尔可夫链 #经验分享 #概率与统计

00:00 / 04:13

连播

清屏

智能

倍速

点赞25

江哥伴你学5年前

资深程序员讲马尔科夫决策过程翻车现场，被女人带偏、讲歪了

00:00 / 03:19

连播

清屏

智能

倍速

点赞61

醉心妄1年前

#高考数学题型分析重视教材，冲刺ke带大家一起回归教材，所用书是人教b版，重要性不言而喻！马尔可夫链真题，所有真题均可以教材里找归宿！#高考加油

00:00 / 00:12

连播

清屏

智能

倍速

点赞NaN

数模加油站1周前

预测类算法——马尔可夫算法Python 代码实现 #数学建模 #数模 #数模加油站

00:00 / 29:05

连播

清屏

智能

倍速

点赞7

复旦魏忠钰10月前

复旦大学《人工智能导论》第三十讲马尔可夫决策过程 #AI在抖音 #2025开学季 #抖音精选 #人工智能

00:00 / 19:58

连播

清屏

智能

倍速

点赞21

小翟博士(准备预答辩)3年前

#6马尔可夫过程MRP【RL强化学习】Markov process

00:00 / 11:36

连播

清屏

智能

倍速

点赞11

飞天王1年前

数学理论———马尔可夫决策过程 #数学学科史

00:00 / 04:03

连播

清屏

智能

倍速

点赞4

阿糕今天学多少了7月前

马尔可夫链与数列放缩压轴题 #数学 #高考 #学习 #教育信息差 #上热门

00:00 / 12:08

连播

清屏

智能

倍速

点赞270

星野书界2天前

看漫画学会机器学习#图解机器学习

00:00 / 00:32

连播

清屏

智能

倍速

点赞2

实力花瓶1周前

为什么“休假”难以治愈上班的“死感” 为什么“休假”难以治愈上班的“死感”？ ——用马尔可夫模型（Markov Models）重写你的命运算法今天我们要共读的书是斯科特·佩奇（Scott E. Page）的思维著作《模型思维》（The Model Thinker）。我们要调用的，是书中第17章那个冰冷而精准的数学工具——马尔可夫模型（Markov Models）。我们将用它来解构一个困扰许多当代人的深层难题：为什么我们常常在“崩溃”与“自愈”之间反复横跳？这是一场关于“命运算法”的深度拆解。

00:00 / 15:58

连播

清屏

智能

倍速

点赞0

洋葱画圈圈-精读好书10月前

马尔可夫模型：帮你看清状态转换概率的作用#认知提升 #每天学习一点点 #思想交换局 #一起学习 #解读

00:00 / 02:55

连播

清屏

智能

倍速

点赞26

简介:

您在查找“MDP马尔可夫决策过程与强化学习”短视频信息吗？帮您找到更多更精彩的短视频内容！最新发布时间：2026-01-09 06:14

最新推荐:

相关推荐:

热门推荐: