粉丝63获赞290

强化学习 reinforcement learning 是机器学习的一个分支,更适合解决博弈类问题,其基本逻辑是训练智能体在环境中采取行动,并获得相应的奖励分支。 强化学习其实并不是一个新兴的概念,早在一九五四年的时候,美国科学家 miski 就在其博士论文中提出了强化学习的概念。然而在过去几十年中,他却少有出现在大众面前。 让强化学习技术走进大众视野,还要感谢 google 旗下公司 define 开发的电脑危机程序 lfogo。 通过成千上万次的自我对议练习强化 lfogo 在二零一六年以四比一的比分击败了人类顶尖职业选手李世石, 不仅震动了围棋界,也轰动了全世界。大家惊喜的意识到,这种人类训练出来的 ai 程序竟然可以击败人类了哦!未来十年,强化学习将在各个领域都有所应用,比如自动驾驶、机器人控 推荐系统和网络投放、网络安全攻防等等。强化学习为什么这么厉害?他的原理到底是什么?他和传统监督学习最大的不同之处在于,他不需要对数据进行标注,也就是说在学习过程中不需要知道正确答案。 相反,强化学习的重点在于探索未知领域和开发现有知识,并找到一个平衡。想象一下,我们今天刚从宠物商店买了一只可爱的狗狗,刚到家的时候他什么也不懂,我们希望能教会他一些东西,但狗狗没有办法明白我们说的话。我们只能建立一个奖惩机制,如果狗狗听话的听指令坐下,我们就奖励他, 比如给他零食。如果狗狗不听话,随地大便,我们就要表现出很生气,并且给予一定的惩罚。经过一段时间之后,狗狗就明白了,当他不定点上厕所,不听话就会被惩罚,那么出于生物趋利避害的本能,他就明白了该怎么做。强化学习的原 其实和训练宠物狗类似,狗狗就相当于需要被训练的智能体。家就是训练的虚拟环境,我们通过代码和程序制定规则, 智能体做出不同的动作,改变自己在环境中所处的状态。环境根据我们制定的规则给予不同的分数。智能体的目的就是要尽可能的拿到最多的奖励分。这种学习机制其实非常有趣, 好像狗狗听不懂我们说话一样。机器也并不明白我们到底设置了什么奖励规则,只能根据自己一通操作后得到的分数来猜测自己到底是哪些行为得到了奖励。所以强化学习算法有时候会给我们一些惊喜,用我们自己都想不到的奇葩操作 来获取奖励。举个例子,如果我们使用强化学习算法训练这个小白船,在这个竞赛游戏中能赢得胜利,那么如果我们希望小船在赛道上迅速完成一圈赢得比赛,最简单的方法似乎就是沿着赛道设置奖励值,像吃豆豆一样,小船踩到一个奖励点就得一分。这种思 路乍一看是没毛病的,但是在实际训练中就会遇到问题。经过一段时间训练之后,小船找到了出乎意料的方法,看他在一开始的时候就开始往反方向跑,因为他发现往反方向跑,并且找到一个奖励点密集的地方不停绕圈,比规规矩矩老老实实玩赛能积累更多的奖励。因为智能局并不会像人一样 对一些常识、规则有潜意识的认知。智能体的知识储备是一张白纸,为了得到更多的奖励,他可是什么事情都做的出来。所以想要让智能体真正按照我们的意愿学习,合理的设置奖励可是一门很重要的艺术。 好了,最后来总结一下这条视频里的核心知识点。强化学习的五个核心要素分别是我们想要去训练的智能体。智能体做出一系列的行为和环境产生交互,改变在环境中的状态,并获得奖励。和传统监督学习相比,强化学习的优势很明显。由于人类在设置好规则后,智能体会自行在环境中进行训, 我们不需要人工进行标记,一定程度上解放了人类的劳动力。同时,智能体在探索环境时并没有正确答案去指引或者参照,他只能通过每次得到的奖励值来优化下次的策略,所以可能会做出出乎我们意料的行为。他的学习方式 不仅仅局限于模仿,更有可能超越人类表现,就好像 f go 击败李世石一样,强化学习技术可能在未来几年时间里给我们带来新的惊喜。


乔爵这个词我估计大家都听过,那他究竟是要去做些什么事呢?就比如说现在我们要去那个智能体,这个智能体一开始他叫做啥也不是,就是啥也不知道是什么,然后接下来我在训练他过程当中我并不是说一个样,每一个标签,但是呢我要给他一些规则,规则比如说我说你撞人了给你扣五分, 撞树了扣三分,撞这个撞那个分别有扣分。若说你什么都不撞能走出这个屋子,那我说我给你加一百分, 那接下来的智能体在学的过程中,可能这一次装点东西,下一次又装点东西,然后出去之后他发现我们得分比原来少了,没有达到一个最高值。 那所以这个时候智能体教学我该怎么去做,能让我们的全局说一次最大的。而且呢,他在走每一步的时候考虑的都不是当前这个事,我们要考虑一下当前这一步对未来的一个影响。想一想一六年阿尔法购怎么打 李氏时呢?好比说李氏时下这么一步棋,阿法哥我就能猜到了,他每走一步,我们接下来要对未来一百步棋的一个影响。所以说呢,我们在始终寻找这样过程怎么走呢?全局数据是最大的, 当智能体不断在学习过程当中,他就发现了,哎,我什么都不撞,走出这个屋子,这样才能使得我收益最高的。这个故事就是强学习本质上是在怎么解决问题的,记得点赞关注哦。
