粉丝1.2万获赞2.3万



很多姐妹问这个六四八森林代币到底怎么用?六四八加送三十二单角色不限购,邮件会直接发过来,重点是它不止买一个池子,像直购这边大多数都能用,像这种收集类需求的玩家很适合入手。

今天我们来聊一个很有意思的话题, w d q n。 我 们会深入了解一下它是怎么修正人工智能里头一种还挺常见的毛病,也就是所谓的过度乐观。 哎,乐观是好事,对吧?但如果把它放到人工智能身上,有时候可就不是那么回事了,它反而可能做出一些让你意想不到的糟糕决定。 要想搞明白为什么,咱们得先认识一位重量级选手,就是那个开创性的算法,叫深度 q 网络,或者简称 dq n。 我 们会发现啊,他虽然厉害,但身上却藏着一个很小但又非常要命的缺陷。 d q n 问题的核心就出在一个叫过估计偏见的东西上。说白了,就是这个 ai 有 点自我感觉良好,他总是觉得自己的各种潜在选择比实际上能达到的效果要好得多。 哎,有意思的地方来了,就像这里说的,光是高估一点,其实问题不大,真正的麻烦在哪呢?在于它高估的不均匀。 也就是说啊, ai 可能对某个选项超级乐观,对其他选项就没那么乐观,这么一来,决策的天平就歪了。给你举个例子啊,比如说, ai 觉得往右走能拿三百分,往左走呢?两百八十分,那他肯定选往右走,对吧? 可万一,我是说万一啊,这个三百分是被吹出来的,它真实的价值其实是所有选项里最低的呢?那不就惨了吗?它就掉坑里了。 那该怎么办呢?怎么才能治好这个 ai 的 盲目乐观?哎,你别说,办法还挺巧妙的,给他找个参谋听听第二意见。 这就是我们今天的主角, double d q n, 简称 d d q n 闪亮登场的时候了,他就是专门为了提供我们刚才说的那种第二意见来解决这个过谷迹问题而生的。 它的核心武器是一个非常强大的概念,叫做解偶。什么意思呢?简单来说,就是把选动作和评价值这两件事给它彻底分开,从根子上改变了 ai 做决定的方式。 好,那咱们就钻进去看看这个解偶到底是怎么一回事。 d t q n 是 这么干的,它不再让一个网络又干这个又干那个,而是搞了个分工, 一个网络,我们叫他在线网络,他的任务就是出主意,选出他觉得最好的下一步。然后呢,另一个独立的目标网络,就来当这个裁判,专门评估这个主意到底好不好。 你看这个对比就非常清楚了, d q n 呢,就像是一个运动员,自己跑完了还要自己给自己打分,那肯定会偏向自己嘛。而 d d q n 呢,就聪明多了,他请来了一个独立的裁判来打分,这样一来,结果就客观多了。 这个解偶的想法直接就体现在了核心的数学公式里。你看这里面选动作,也就是这个 arc max 部分,用的是一套参数,就是在线网络的 set t。 但是给这个选出来的动作估值呢,用的是另一套完全独立的参数,也就是目标网络的 set t。 片儿就是这个小小的变化,把选择和评估给分开了,特别关键。 好了,说了这么多,这个设计这么巧妙,它到底能带来什么实实在在的好处呢? 效果可以说是立竿见影,首先过估偏见大大减少了,这样一来,整个学习过程就变得又稳定又可靠,最终呢, ai 就 能学到更好的策略,做出更明智的决策。而且最关键的是,它的底层架构都没变,只是行为模式变得更好了。 而且最牛的一点是什么?实现这一切几乎没增加什么额外的计算成分,这简直是太划算了! 所以你看 d d q n 就 告诉我们,有时候一个看似很小的改动就能带来翻天覆地的影响。这就让我们不禁去想啊,下一个能够彻底改变人工质的绝妙点子呢?