粉丝1890获赞2874

有一个主体,一只喵,有一个环境,喵面前摆着的萝卜和纸巾,以及主人的指令。萝卜 设主体在 t 时刻的状态为 st, 即还没有做出选择。喵在 t 时刻执行了一个动作, a t 选择了左边的萝卜,状态就从 st 变成了 st。 加一,即选择了左边的萝卜,与环境发生了一次交互, 这时候奖励模型,也就是主人会给予一个反馈,在主人说萝卜且喵选对了萝卜时,就会得到真棒加冻干的奖励。 其实这就是强化学习的核心思想,交互加奖励,让模型在一次次交互中找到能获得最大奖励的策略。 在往下走之前,我们先回过头定义一些十分重要的概念,单步奖励。主体在当前时刻做出一个动作所获得的及时奖励是 s t, a t 和 s t 加一的函数累积奖励 主体从当前时刻开始做出一系列动作所获得的单部奖励的加权和用来衡量长期回报。伽马是一个超餐衰减系数状态价值函数从某一个状态出发所能获得的累积奖励的期望来评价某个状态的好坏。 动作价值函数从某一个状态出发,并采取了某个动作所能获得的累积奖励的期望来评价在当前状态下执行某个动作的好坏。再让我们介绍一下强化学习的分类,强化学习有很多种分类维度,这里就挑三个最常被提起的, 按照学什么来划分,分为 value based 和 policy based。 value based 学习的是动作价值函数 q, 推理时只要选择当前状态下 q 值最大的 action 即可。 policy based 更加直接学习的是每个动作的概率分布,表示在当前状态下,每个动作被选中的概率是多大。按照数据来源来划分,分为 on policy 和 off policy, 看的是负责和环境交互并产生数据的主体和自我更新的主体是不是同一个?是 on policy, 不是 off policy。 比如我在 b 站学习滑雪就是 off policy, 因为实际和雪场交互的不是我,是视频中的人,而学习的人是我, 我自己去雪场学滑雪就是 on policy。 按照是否显示建模环境来划分,分为 model free 和 model based。 model based 会先尝试理解环境,然后基于这个理解来计划最优行动。 model free 更强调从实践中获得奖励,直接学习策略更贴近真实复杂的环境。 再来看一些经典的强化学习算法都属于哪一类?重点介绍一下 ppo 和 grpo。 ppo 和 grpo 都是基于策略的直接学习动作概率分布, 它们属于 on policy, 数据必须由当前策略采集,更新几轮之后,旧数据就不能继续使用,需要重新采样。同时它们是 model free, 不 会显示建模环境,而是通过与环境交互直接学习策略。 再让我们看一下强化学习和监督学习的区别。第一个区别,从对不对到好不好。以一个自动驾驶任务举例,蓝色是模型预测的轨迹,红色是真实轨迹。监督学习是模仿, 让预测和真值尽量进而强化学习是探索。从巴掌和甜枣中摸索出最佳策略。面对越来越复杂的环境,给出正确答案这件事越来越困难,且很多情况下,正确答案不止一个,监督学习就会略显乏力了。 第二个区别,因果性监督学习。学习的是大量数据级下的增值和输入之间的相关性,学习过程是不可控的,不能根据我们的需求定制模型表现。但强化学习中的奖励是人为设置的,主体会朝着我们定义的更好的方向前进, 这是因模型的表现自然会符合我们设置的奖励标准。这是果大语言模型训练的最后一趴,通常就是用强化学习来对其人类的偏好,标准放在监督学习上是做不到的。 强化学习的大火是从二二年 chad gpt 的 出现到现在,已经在越来越多的领域得到应用, 比如自动驾驶、居身智能等等。未来在很长的一段时间内,强化学习估计也是研究的热点方向。 接下来我会推出强化学习的系列视频,从策略梯度到 ppo 再到 jrp。 如果大家对这个主题感兴趣,还请大家伙点个赞,这是我坚持下去的动力,那么下期视频再见喽!

自动求和,真棒!智能填充,真棒耶,转为超级表, 嗯,真棒耶!设置单元格格式设置单元格格式,真棒!插入新工作表,真棒耶,你学会了吗?

今天做这个又笨又狡猾的纸巾萝卜猫转场,萝卜真棒! 导入五点六秒,白底节拍自动裁点画中画导入素材对齐白底打开基础属性触放三十一,复制素材拉底部对齐,利用基础属性调整 x 轴或者 y 轴,让复制的五张图片这样排列,便于操作和替换后保持参数不变,都靠近尾部打关键帧,替换相对应的素材, 纸巾和萝卜位置是固定的。新增笨猫素材,抠像色度,抠图移动取色器去除绿色,放到合适位置,猫爪伸出位置分割纸巾。素材 后段替换素材,前段出场动画镜像翻转,后段入场动画翻转时长都是零点二秒。这个节拍中间贴纸中搜索十字,添加打三个关键针,中间关键针放大并且旋转一定角度,萝卜同理,猫爪伸向另一侧位置分割萝卜素材替换分别加镜像翻转动画 真棒!猪鬼导入图片分别占一个节拍,点击任意小白块添加闪回全军应用,最后添加这两个特效,幺九九八特效滤镜零纹理。二十,这还学不会吗?回答我,萝卜 萝卜真棒!

智力不详,察言观色能力极强。这只长得像查查玩的三花猫,是博主超级无敌大开门捡来的流浪猫。刚开始博主只训练一些站立握手的指令,后来博主开始训练,他认识纸巾和胡萝卜,答对了给零食,没想到小猫纯靠瞎蒙,把纸巾胡萝卜挨个摸一遍。纸巾, 真棒!有时候摸一个就有零食,有时候要摸两个,有时候要摸三个才有零食。蒙错了就偷感十足的看博主脸色换答案。萝卜萝卜, 真棒!实在蒙不对就哼哼唧唧纸巾纸巾,每次蒙对了,博主就会发出米老鼠式夸夸,萝卜,真棒!萝卜,真棒! 纸巾,哎,真棒!博主把纸巾和胡萝卜换成米老鼠和手表后,大家还以为这只大笨猫变聪明了,没想到他来了个消息,米老鼠,真棒! 米老鼠米老鼠 说他聪明,他听不懂指令,说他笨,他又懂得萌答案,还能乖巧的陪主人玩游戏。大笨猫凭一猫之力给全网的宠物来了一场期末考试。萝卜, 萝卜,砖吧萝卜,对了,真棒!萝卜, 真棒!网友们也集体开启二创狂欢。砖吧!砖吧!砖吧!萝卜, 真棒!萝卜,真棒!米老鼠,真棒!


芋头,星星星星星星,都说了星 星,哎,星星,这个,哎,对了,真棒!看下手机支付宝,到账一千元。土豆,哎,土豆, 哎对了,真棒!再看一下手机支付宝到账一千元,心心, 哎对了,再看一下手机支付宝到账一万元, 哎,真聪明,真棒!心心,哎,真棒。

哪有萝卜?萝卜。哪有?哪有萝卜?这是萝卜。哪有萝卜?哪有萝卜?这是萝卜,知道吗?这是纸巾。纸巾 纸巾纸巾纸巾纸巾纸巾。哪有纸巾纸巾。哎,对,真棒。 萝卜萝卜萝卜萝卜。宝宝。这个是萝卜萝卜。哎,对,真棒。 萝卜。没有萝卜。萝卜萝卜。哎,对,真棒。纸巾纸巾。对,没错。 now 纸巾。 now 纸巾。对,就是它, nice。

萝卜,萝卜沾吧。纸巾, 纸巾沾吧。

萝卜纸巾真棒!最近这个技能很火,很多朋友让我出这个视频,其实训练很简单,三十分钟猫咪就能够学会。准备好一把小猫爱吃的零食。第一步,想办法让猫咪用手触碰到物品。我们以萝卜为例, 首先我们手里抓一把零食给小猫闻一下,再把拿零食的手同时拿起胡萝卜,等小猫用手来。啊好,小猫的手触不到萝卜,我们喊好的口令,同时给小猫奖励。好, 为什么不直接下拿萝卜的口令?后面告诉你,小猫适应后手里不拿零食,这一步多练习几遍,好 好。第二步,小猫熟悉后,把萝卜放地上,手轻轻扶着不要拿开。 为什么不直接放地上?这一步不是多此一举吗?你们太高估猫的智商了,有些猫你放在地上或者手里不拿着,它就不知道碰了,所以需要逐步引导小猫学会后把手拿开。当小猫的手触碰到萝卜后,下达萝卜的口令。萝卜 萝卜真棒!为什么一开始不直接下达口令?如果开始就下达口令,猫就会把过程和结果混淆,它理解不了你的口令想要表达的是开始时候的动作还是结果的动作。所以下达口令一般要在接近成功的时候下达,猫才更容易理解。 当猫知道用手触碰物品这个流程后,就可以换其他物品,循环练习。好 好 纸巾真棒!这个训练大洋学习了二十多分钟就会了,是不是很简单,萝卜 不对,萝卜萝卜好,纸巾纸巾,哎,真棒,学起来,下一个百万达人就可能是你家主子。

考前复习萝卜写写萝卜纸巾纸巾第一关,开卷考。哎,这怎么还能抢答呢,谁给你透题了,我看大开门学姐就是这样做的呀写萝卜重新选萝卜 真棒!第二关,必卷考 西西萝卜哎对喽来,真棒。 ok 西西纸巾纸巾纸巾哦头选了。哎呦,真棒,好,先退出考场。第三关,盲盒考试 啊西西萝卜萝卜 这个 polo 不 对不棒啊,重新选。走了走了,不考了。

ok, 开始了。眉笔真棒哈哈哈哈下睫毛真棒 气垫真棒。我全猜对了 遮瑕刷遮瑕刷遮瑕刷真棒哈哈哈哈。 呃散粉扑真棒。你可以打开来看哪个是裸色 哪个是裸色?哪个是裸色真棒哈哈哈哈。

上有天堂,下有上航,真棒!北上广的上指的是上航真棒。除雀于横径不如当中的航,指的是 上航真棒。恋上江南的上,指的是上航真棒。

萝卜,纸巾。萝卜你怎样?我教你。萝卜萝卜萝卜,这就是萝卜。萝卜 真棒。哈哈哈。纸巾纸巾纸巾。 真棒。哈哈哈。萝卜真棒,纸巾真棒,萝卜 真棒。哈哈哈。 chloe, 厕所没纸了,帮我拿点纸。好嘞 弟真棒。

萝卜纸巾超长加根。铁板烧,准备纸巾是哪一个?纸巾是这一个,谁呀谁呀?棒棒棒铁板烧,铁板烧,棒棒棒,团团准备现在开始。纸巾是哪一个?纸巾是哪一个? 纸巾是这一个,谁呀谁呀?棒棒棒,团团团团。棒棒铁板烧,准备现在换题,玩具是哪一个?玩具是这一个,谁呀谁呀?棒棒棒,铁板烧,铁板烧,棒棒棒,团团准备认真听题,玩具是哪一个?玩具是这一个,谁呀谁呀?棒棒棒? 团团团?棒棒棒铁板烧,准备现在换题,手机壳是哪一个?手机壳是这一个,谁呀谁呀?棒棒棒,团团烧,铁板棒棒,不太对劲啊,你不应该认识这个东西呀,是不是我老拿一只手问你再来一次铁板烧。 听题,剪刀是哪一个?剪刀是这一个,谁呀谁呀?棒棒棒铁板烧,铁板烧,棒棒棒,团团准备现 在听题,钥匙是哪一个?钥匙是这一个,谁呀谁呀?棒棒棒,团团团团棒棒。谁呀谁呀?棒棒棒,团团团棒棒,等一下下,我要换皮。铁板烧,准备现在开始。 充电器是哪一个?充电器是这一个,谁呀谁呀?棒棒棒铁板烧,铁板烧,棒棒棒。谁呀谁呀?棒棒棒 铁板烧,铁板烧,棒棒棒,团团准备现在开始。牵引绳是哪一个?牵引绳是哪一个?牵引绳是这一个?牵引绳是哪一个?牵引绳是这一个?谁呀谁呀?棒棒棒,团团团团团。棒棒铁板烧,准备加大难度,我不信这一个。你还知道 头戴耳机哪一个?头戴耳机哪一个?头戴耳机?这一个肯定是你蒙的,再来一次。头戴耳机哪一个?铁板烧?准。 头戴耳机这一个,谁呀谁呀?棒棒棒,铁板上铁板上棒棒棒。团团准备加大难度。这个你应该不太认识,相机是哪一个?相机是哪一个?相机是哪一个? 相机是这个。等一下下,不太对劲,上次我教你们两个纸巾纸。上次我教你们两个餐巾纸。你们学了一个多小时。是不是我的问题?我是不是把答案透露太明显?


不好,萝卜纸巾块出现了,要带上封印物开门冒!快给我喂点!真棒,我快坚持不住了!我是调查员山竹,近期出现大量将萝卜和纸巾混淆的认知异常事件,有人萝卜吃到一半才发现满嘴都是纸巾,有人上厕所的时候发现擦的是萝卜,原本种萝卜的土地也长满了纸巾盒, 一片混乱。接到任务后,我们连夜调查情况,发现此异常来源于某种被传播的网络民音,导致人们对罗伯指津的认知在虚实之间切换。因此我们决定对症下药,向总部申请了一件特殊的封印物,开门帽。 此物出自哈基米德团队的一位天才机密之手。随后我们购置大量萝卜和纸巾堆放在仓库内,然后静静等待。随着时间推移,萝卜和纸巾不断来回变换,身边的队员不由陷入幻觉,越陷越深,他们手指来指去,不断喃喃低语, 这个,这个还是这个?就在此时,一直闭眼的我猛的戴上开门帽,仿佛迷雾中破开一道光芒,所有变幻中的幻象全部消失,眼前出现了一只由萝卜和纸巾融合而成 的不明生物,朝我愤怒地吼,在场队友们清醒过来,对他疯狂展开攻击。在戴着开门帽的过程中,我感觉到自己的脑力几乎要被榨干,一时越来越混沌失控,罗伯什金怪趁机化为无数幻象试图逃走,索性关键时刻,白桃在旁边及时投喂了我警科。 瞬间我精神大振,用开门冒赋予的能力虚空指路击破所有的幻象,并指挥队友们攻击怪物本星。很快,在我们的围角下,这只罗伯紫金怪终于哀嚎倒地,被调查队收容起来。我是调查员山竹,专门调查并处理不同寻常的异常事件,我们下期再见。