有一个主体,一只喵,有一个环境,喵面前摆着的萝卜和纸巾,以及主人的指令。萝卜 设主体在 t 时刻的状态为 st, 即还没有做出选择。喵在 t 时刻执行了一个动作, a t 选择了左边的萝卜,状态就从 st 变成了 st。 加一,即选择了左边的萝卜,与环境发生了一次交互, 这时候奖励模型,也就是主人会给予一个反馈,在主人说萝卜且喵选对了萝卜时,就会得到真棒加冻干的奖励。 其实这就是强化学习的核心思想,交互加奖励,让模型在一次次交互中找到能获得最大奖励的策略。 在往下走之前,我们先回过头定义一些十分重要的概念,单步奖励。主体在当前时刻做出一个动作所获得的及时奖励是 s t, a t 和 s t 加一的函数累积奖励 主体从当前时刻开始做出一系列动作所获得的单部奖励的加权和用来衡量长期回报。伽马是一个超餐衰减系数状态价值函数从某一个状态出发所能获得的累积奖励的期望来评价某个状态的好坏。 动作价值函数从某一个状态出发,并采取了某个动作所能获得的累积奖励的期望来评价在当前状态下执行某个动作的好坏。再让我们介绍一下强化学习的分类,强化学习有很多种分类维度,这里就挑三个最常被提起的, 按照学什么来划分,分为 value based 和 policy based。 value based 学习的是动作价值函数 q, 推理时只要选择当前状态下 q 值最大的 action 即可。 policy based 更加直接学习的是每个动作的概率分布,表示在当前状态下,每个动作被选中的概率是多大。按照数据来源来划分,分为 on policy 和 off policy, 看的是负责和环境交互并产生数据的主体和自我更新的主体是不是同一个?是 on policy, 不是 off policy。 比如我在 b 站学习滑雪就是 off policy, 因为实际和雪场交互的不是我,是视频中的人,而学习的人是我, 我自己去雪场学滑雪就是 on policy。 按照是否显示建模环境来划分,分为 model free 和 model based。 model based 会先尝试理解环境,然后基于这个理解来计划最优行动。 model free 更强调从实践中获得奖励,直接学习策略更贴近真实复杂的环境。 再来看一些经典的强化学习算法都属于哪一类?重点介绍一下 ppo 和 grpo。 ppo 和 grpo 都是基于策略的直接学习动作概率分布, 它们属于 on policy, 数据必须由当前策略采集,更新几轮之后,旧数据就不能继续使用,需要重新采样。同时它们是 model free, 不 会显示建模环境,而是通过与环境交互直接学习策略。 再让我们看一下强化学习和监督学习的区别。第一个区别,从对不对到好不好。以一个自动驾驶任务举例,蓝色是模型预测的轨迹,红色是真实轨迹。监督学习是模仿, 让预测和真值尽量进而强化学习是探索。从巴掌和甜枣中摸索出最佳策略。面对越来越复杂的环境,给出正确答案这件事越来越困难,且很多情况下,正确答案不止一个,监督学习就会略显乏力了。 第二个区别,因果性监督学习。学习的是大量数据级下的增值和输入之间的相关性,学习过程是不可控的,不能根据我们的需求定制模型表现。但强化学习中的奖励是人为设置的,主体会朝着我们定义的更好的方向前进, 这是因模型的表现自然会符合我们设置的奖励标准。这是果大语言模型训练的最后一趴,通常就是用强化学习来对其人类的偏好,标准放在监督学习上是做不到的。 强化学习的大火是从二二年 chad gpt 的 出现到现在,已经在越来越多的领域得到应用, 比如自动驾驶、居身智能等等。未来在很长的一段时间内,强化学习估计也是研究的热点方向。 接下来我会推出强化学习的系列视频,从策略梯度到 ppo 再到 jrp。 如果大家对这个主题感兴趣,还请大家伙点个赞,这是我坚持下去的动力,那么下期视频再见喽!
粉丝1328获赞7945

纸巾,坐好,纸巾。对对对对,纸巾。对对对。纸巾,嗯。 纸巾,嗯。纸巾呢?对了,可以了,纸巾,对了。哇塞,纸巾 纸巾,嗯。真棒真棒。纸巾纸巾,嗯。真棒真棒。你并没有想吃,嗯,真棒真棒。

家人们,谁还没刷到胡萝卜纸巾真棒的魔性视频?今天手把手教你把狗子训练成梗王, 全程正向激励,傻狗也能学会!第一步,拿着胡萝卜轻轻碰狗狗鼻子,反复喊胡萝卜,胡萝卜碰完立刻给零食奖励,重复十五到二十次,让狗子把胡萝卜的声音和食物绑定。第二部,手里举着胡萝卜不动,只喊胡萝卜。 等狗狗主动用鼻子碰它,马上夸真棒,夹给奖励,强化它的主动反应。第三步,把胡萝卜放地上,后期可挪远喊胡萝卜在哪里,狗狗找到病,鼻子触碰后疯狂夸真棒,夹给大奖品。 熟练后混上纸巾、玩具等杂物,让它精准指认胡萝卜纸巾棒!胡萝卜的魔性视频,秒上热门胡萝卜棒!

最近这个纸巾萝卜这个视频挺火的,然后相信大家也都看见了,咱们今天讲一下怎么训练。首先第一步,用狗爪子辅助他碰这个纸巾,碰一下,然后给奖励,碰一下给奖励, 当他明白明白用爪子碰到这个东西就等于得到奖励的时候,你就可以加入口令了,你说纸巾 碰给奖励,纸巾碰给奖励,这是第一步,当你每次说纸巾他都会用爪子主动去碰的时候,咱们就进行下一步植入这个萝卜,这两个东西一定要放在同一个场景啊。 当你说纸巾他是会碰,这是因为他已经会了,那当你说萝卜他碰纸巾没有奖励,碰萝卜有奖励,就这么简单,如果不碰的话就用手辅助他,截图一下就是。

智力不详,察言观色能力极强。这只长得像查查玩的三花猫,是博主超级无敌大开门捡来的流浪猫。刚开始博主只训练一些站立握手的指令,后来博主开始训练,他认识纸巾和胡萝卜,答对了给零食,没想到小猫纯靠瞎蒙,把纸巾胡萝卜挨个摸一遍。纸巾, 真棒!有时候摸一个就有零食,有时候要摸两个,有时候要摸三个才有零食。蒙错了就偷感十足的看博主脸色换答案。萝卜萝卜, 真棒!实在蒙不对就哼哼唧唧纸巾纸巾,每次蒙对了,博主就会发出米老鼠式夸夸,萝卜,真棒!萝卜,真棒! 纸巾,哎,真棒!博主把纸巾和胡萝卜换成米老鼠和手表后,大家还以为这只大笨猫变聪明了,没想到他来了个消息,米老鼠,真棒! 米老鼠米老鼠 说他聪明,他听不懂指令,说他笨,他又懂得萌答案,还能乖巧的陪主人玩游戏。大笨猫凭一猫之力给全网的宠物来了一场期末考试。萝卜, 萝卜,砖吧萝卜,对了,真棒!萝卜, 真棒!网友们也集体开启二创狂欢。砖吧!砖吧!砖吧!萝卜, 真棒!萝卜,真棒!米老鼠,真棒!

萝卜纸巾真棒!最近这个技能很火,很多朋友让我出这个视频,其实训练很简单,三十分钟猫咪就能够学会。准备好一把小猫爱吃的零食。第一步,想办法让猫咪用手触碰到物品。我们以萝卜为例, 首先我们手里抓一把零食给小猫闻一下,再把拿零食的手同时拿起胡萝卜,等小猫用手来。啊好,小猫的手触不到萝卜,我们喊好的口令,同时给小猫奖励。好, 为什么不直接下拿萝卜的口令?后面告诉你,小猫适应后手里不拿零食,这一步多练习几遍,好 好。第二步,小猫熟悉后,把萝卜放地上,手轻轻扶着不要拿开。 为什么不直接放地上?这一步不是多此一举吗?你们太高估猫的智商了,有些猫你放在地上或者手里不拿着,它就不知道碰了,所以需要逐步引导小猫学会后把手拿开。当小猫的手触碰到萝卜后,下达萝卜的口令。萝卜 萝卜真棒!为什么一开始不直接下达口令?如果开始就下达口令,猫就会把过程和结果混淆,它理解不了你的口令想要表达的是开始时候的动作还是结果的动作。所以下达口令一般要在接近成功的时候下达,猫才更容易理解。 当猫知道用手触碰物品这个流程后,就可以换其他物品,循环练习。好 好 纸巾真棒!这个训练大洋学习了二十多分钟就会了,是不是很简单,萝卜 不对,萝卜萝卜好,纸巾纸巾,哎,真棒,学起来,下一个百万达人就可能是你家主子。

欢迎来到这个世界,请完成指令,萝卜纸巾,萝卜 真棒, 闯关成功,真棒,真棒。

是胡萝卜,这个是纸巾。我说胡萝卜,你就指胡萝卜。我说纸巾,你就说纸巾,好不好?来,胡萝卜。胡萝卜是哪个?胡萝卜指它。胡萝卜,真棒, 胡萝卜,胡萝卜,真棒。来,换。换个位置啊。来,胡萝卜,胡萝卜,真棒。 坐胡萝卜,坐,坐。胡萝卜,对,真棒。 胡萝卜,这是纸巾。胡萝卜, 真棒,胡萝卜, 对,真棒。好,胡萝卜。 嗯,你要吃好停。胡萝卜,胡萝卜,胡萝卜,对,真棒。 再加大难度啊, 呵呵。胡萝卜, 放胡萝卜,掉一头。胡萝卜,胡萝卜,胡萝卜。对,好的,喵喵。来,握手, 坐好,握另外一只手,握另外一只手。 好的,坐好了再来一遍,过来, 停,握手,握手,好,好宝。

萝卜纸巾猫爆火开启全网期末大考,一句魔性抽象的真棒,让这些打工人直呼上头。新京报的消息显示啊,近日,达人超级无敌打开门,一岁半的三花猫打开门,凭着分不清萝卜和纸巾,连蒙带猜拿奖励的操作爆火出圈, 三月涨粉五十八万,狂揽三千多万点赞。视频中,面对摆在地上的萝卜和纸巾,猫咪要么盯着空气发呆,要么用爪子随便扒拉两下,反正不是这边就是那边, 全靠偷瞄主人的表情找答案。一旦猫咪勉强蒙对了,主人就会用魔性的语调喊出夸张兴奋,真棒!还递上了小零食奖励,情绪价值拉满。当你以为小猫真的能够分清时,但凡主人的真棒,晚了那么一秒,他就要改主意了。这种瞎蒙也能被夸爆的反差萌,配上小猫 憨憨的表情,可爱的让人越看越想看。智力不详,但察言观色很强,养过猫的都知道,能坐那配合就已经很厉害了。除了自己走红,这只猫还凭借一己之力开启了宠物界的期末大考。各地的什么小猫小狗、小兔子,还有鹦鹉、乌龟等等,都被主人拉来 纸巾和萝卜,就连动物园的老虎也没逃过,甚至还出现了人传人现象。有拿出粉底和高光考验男朋友的, 拿出心爱的球鞋考验女朋友的,二次元和周边也没落下,主打一个万物皆可参与。不仅如此,这只猫还跨界闯进了文旅赛道。 我们湖北文旅端出了各地的美食,贵州文旅把萝卜换成了洋芋吧,扬州文旅把题目变成了诗词,各地官方账号玩梗那叫一个不重样。网友笑称,但凡网瘾小一点都不知道这是啥。这只猫的二创堪比 甄嬛传呢!从萌种圈到文旅圈,这场狂欢越来越抽象,也越来越让人上头。为啥一只学渣猫能够让大家疯狂的追捧我们从心理学角度来看,这个背后啊藏着成年人的情绪刚需,他戳中了我们心底的柔软, 即使做错了,也渴望听到,真棒!我们在职场里要拼业绩,在生活中要扛压力,犯错了只会被批评,哪有瞎选也能被夸,真棒的好事啊!但这只猫替我们实现了。就像网友说的,这只猫演的不是萝卜纸巾的选择题,而是我的人生大卷。 我们在生活里匆匆忙忙,连滚带爬,生怕出错。可是这只猫告诉我们,就算啥也不会,就算全靠蒙,也能够得到真诚的认可和奖励。这是很多人一生都在寻找,却很少真正感受过的情 感体验。不是你做的好我才爱你,而是你在,我就爱你。这种不完美也值得被爱的信号。这种简单纯粹不参杂志的快乐,比任何大道理都管用。 更何况,年末的我们正处于情绪低电量的状态,什么工作考核、财务结算、社交压力接踵而至。在这种被持续评判的时候,我们被一声声的真棒 无条件的接住了。猫咪在夸奖中变得放松,我们在笑声中释放压力,这正是当下稀缺的治愈体验。所以,不要小看这只笨猫的魔力,它的每一次瞎蒙,主人的每一句真棒, 都是给成年人的情绪加油站!愿我们都能够在生活里找到属于自己的奖励,哪怕只是一点小小的进步,别忘了对自己说一声,真棒,爱你老几哦。

赛博手游第四十九期胡萝卜纸巾猫萝卜萝卜砖吧! 眼前这只正在认真学习的狸花猫,是博主超级无敌大开门养的一只超级大笨猫,每次主人训练它扔纸巾和胡萝卜,全靠瞎蒙,因为它压根不认识什么纸巾和胡萝卜, 每次都在看主人的脸色做排除法,选完还会摆出一副小心翼翼察言观色的模样来判断自己蒙的对不对。而且这只大笨猫的察言观色的能力已经强到一旦蒙错,主人不奖励零食,就会一直换另一个选项继续蒙的程度,直到蒙对。但随着训练的加强,他依旧没有学会扔纸巾和胡萝卜。米老鼠 真棒!米老鼠摸地这一下能绷住的可以确诊为植物人了,而且一旦多蒙错几次就要弃考,要不就是手忙脚乱的差点死机。关键是蒙对了,主人还会特别夸张的来一句,真棒!纸巾 纸巾纸巾!真棒!也不知道到底在扮啥,这大笨猫明显就是在蒙题吧,但凡这网说一秒真棒,感觉这只大笨猫就要改选项了,智商堪比一根成年香蕉罐罐罐罐 罐罐!多叫几声,小猫都要以为自己叫罐头了。估计大笨猫自己也很疑惑,有时候摸一个就有零食吃,有时候摸两个才有,有时候又要摸三个才有,真是让小猫摸不着头脑啊!不 过管你这的那的,我哪认识啥胡萝卜纸巾啊,看主人脸色行事就完了。那这时有人就要问了,训练一只小猫认纸巾有什么用呢?你还别说,真有用,曾经的博主就因为上厕所没有纸,于是让家中小猫给他拿, 结果这只大笨猫每次都叼着那个胡萝卜鼠标过来,气的博主下定决心训练小猫,于是就有了开头这大笨猫瞎猜答案的那一幕。 再往前翻翻该博主的视频,才发现,原来这只小猫是个武将呀,难怪文化课都在瞎蒙。不过养过猫的都知道吧,这已经算是猫界爱因斯坦了,真正的笨猫是永远猜不到答案的那种,更别说老老实实坐在那考试了。


我就说 ai 怎么可能代替人类呢?萝卜纸巾这个梗已经二创到了我不敢想象的地步。起初只是博主训练自己的小猫认识物品,萝卜 萝卜真的,纸巾纸巾真的,大家也纷纷在网上加入二创大军跟风玩梗有姓老虎的萝卜,萝卜真的真的真的信狗的纸巾真的, 萝卜真棒,玩具真棒,训自己对象的高光高光真棒,训公交车的萝卜真棒,甚至还有狗训人的。 当我以为这个赛道已经饱和了时,抽香大王珍珠小子带着他的老鼠干上场了已经。 我以为这个游戏至少得是活物。只能说这些视频都看过的人前途一片抖音。

萝卜,你的小猫为什么拿不对香蕉纸巾?因为你教错了,今天用 b c, b a 的 方法,一天就让你教会它。首先选三样物品,而且每一样物品你要有一模一样的东西,因为第一关我们要练配对,让小猫看到一个东西的时候,能够选出跟它一模一样的,而且我们边展示就要边说出名字来,让它学习牛油果,它如果不动, 对,牛油果吃一个纸巾,对,纸巾,对了,吃一个。这是第一轮,当我们随意交换这三个物品的位置,随意拿一个东西,让他去找一样的,他都能找。对,我们就进入第二轮,不展示,直接说猫条,他如果不动或者是爪子,准备摸错误的答案,展示 对猫条,用手上的东西来做一个提示,让他去找一样的。最关键的是,哪怕我们给了提示,他做对了之后,还是要马上给吃的。学会吗?赶紧去试一试哦,一米一米星。

不好,萝卜纸巾块出现了,要带上封印物开门冒!快给我喂点!真棒,我快坚持不住了!我是调查员山竹,近期出现大量将萝卜和纸巾混淆的认知异常事件,有人萝卜吃到一半才发现满嘴都是纸巾,有人上厕所的时候发现擦的是萝卜,原本种萝卜的土地也长满了纸巾盒, 一片混乱。接到任务后,我们连夜调查情况,发现此异常来源于某种被传播的网络民音,导致人们对罗伯指津的认知在虚实之间切换。因此我们决定对症下药,向总部申请了一件特殊的封印物,开门帽。 此物出自哈基米德团队的一位天才机密之手。随后我们购置大量萝卜和纸巾堆放在仓库内,然后静静等待。随着时间推移,萝卜和纸巾不断来回变换,身边的队员不由陷入幻觉,越陷越深,他们手指来指去,不断喃喃低语, 这个,这个还是这个?就在此时,一直闭眼的我猛的戴上开门帽,仿佛迷雾中破开一道光芒,所有变幻中的幻象全部消失,眼前出现了一只由萝卜和纸巾融合而成 的不明生物,朝我愤怒地吼,在场队友们清醒过来,对他疯狂展开攻击。在戴着开门帽的过程中,我感觉到自己的脑力几乎要被榨干,一时越来越混沌失控,罗伯什金怪趁机化为无数幻象试图逃走,索性关键时刻,白桃在旁边及时投喂了我警科。 瞬间我精神大振,用开门冒赋予的能力虚空指路击破所有的幻象,并指挥队友们攻击怪物本星。很快,在我们的围角下,这只罗伯紫金怪终于哀嚎倒地,被调查队收容起来。我是调查员山竹,专门调查并处理不同寻常的异常事件,我们下期再见。

纸巾真棒。纸巾真棒。 纸巾纸巾。那是萝卜纸巾,真棒 真棒。萝卜萝卜,萝卜,萝卜,真棒。 纸巾纸巾。这边,这边纸巾纸巾, 血还清。纸巾真棒,萝卜,萝卜,萝卜。

来跟我来。来这个凳子上面上来。对坐。坐好了握手哎。握另外只手。再来一遍握另外只手。 好的,你说。啊哈 你。嗯你说。啊啊大声点大声一点。来去那个中间去那个中间。去那里去那里。对,来坐坐 去那个中间一点点。不要过来。坐好了啊坐好。我要我要胡萝卜。对,等一下我给你拿个食哦吃胡萝卜 纸巾真棒真棒胡萝卜真棒纸巾 真棒纸巾真棒。 胡萝卜真棒纸巾 真棒胡萝卜真棒。

再来一遍你看,好啊,这个放到这里边怎么拿怎么拿 在里边呢?你看,再想想,刚不吃了,再给你加码一颗。 坤老大,你看前面是什么东西,真是太神奇了。是教父灰子说坐在被窝里头的,脸白的,下面只见一只鹰的德宝和爱姑娘,直到脚护城消失。 哎,真棒呀,是脚步声,不是已经消失了,我们飞跑了,他们一开始是学脚掌着地,后面是骑脚尖走路的,一群阴损的玩意。 哎呀,真棒呀, 哎呀真棒呀,我开门看看 怎么吃,你刚才怎么吃的,想想,嗯,你刚才怎么吃的,你想想。 呦喂,小陈, 纸巾纸巾,超超纸巾纸巾。 哇,真棒呀,小陈 吃完糖就消失,而且一直都在记号的身旁,这是怎么回事?你们上次也出现了这种情况吗?春雅上次告诉阮他的名字就没提你了,莫非是因为这条蓝色旗袍?这条旗袍是你妈妈的旗袍吗?春雅只是笑笑,怎么吃 怎么吃怎么吃,聪明小茶怎么吃啊,真棒呀,晨晨。哎呀,先保管起来吧,保护期之后。