粉丝1.1万获赞8.0万



嗨,我是 cd, 真是从未如此有趣。当我还是继续学习小明星的时候,我最怕的一类算法就是跟概率统计强相关的,比如今天要盘的朴素背夜诗。 因为我读书的时候呢,概率论统计学一直都学的非常非常的烂,一看到什么估计呀,分布啊,先应后应啊,那就直接把我给整不会了。如果你也跟我一样啊,就请给我留言,让我看看有多少人被这坑爹的概率统计伤害过。 如果你也跟我一样,请你认真的把视频看完,看完你就会了。在开始之前,我先要提醒一下大家,如果你只想知道朴素贝耶斯是怎样进行分类的,那请直接跳到朴素贝耶斯分类这个章节即可。想要把整个来龙去脉搞清楚, 就先要把先验概率和后验概率整明白。最近啊,天气炎热,有一位靓仔骑着摩托车前来买瓜,但他没啥经验,不知道怎样才能挑出熟瓜, 但没吃过猪肉,还没见过猪跑吗?靓仔想着,摊主敢卖瓜,那这些瓜是熟瓜的概率怎么也有百分之六十吧? 那么这个概率就被称为鲜艳概率。也就是说,鲜艳概率是根据以往的经验分析得到的概率。鲜艳概率不需要样本数据, 不受任何条件的影响。就像靓仔只根据常识,而不是根据西瓜的状态来判断西瓜是否成熟,这就是鲜艳概率。假设现在又有一位六十九岁的老同志也来买瓜,这位老同志看的瓜比靓仔 吃的瓜还多,自然有点东西。他有一手看瓜绝活,就是看瓜地是否脱落,若是脱落,则有大概率是熟瓜,如果把瓜地脱落当做一种结果,然后去推测西瓜成熟的概率,那这个概率啊,就被称为后延概率。 怎么样?这个后引概率有没有像在做预测啊?没错,计算后引概率就是朴素背,也是最核心的一步。 明白了先应概率和后应概率,我们再来看看什么是联合概率。联合概率就是几个事件同时发生的概率, 比如老同志买西瓜的例子中,瓜地脱落并且刮熟,这样的概率啊,就称为联合概率。这个概率满足这两个式子,只要你不 虾,你肯定能看出来柿子里暗藏着这样的玄机。危险一下,我们最终目的是不是要算出后沿概率,因此需要对柿子变个形,然后呢,就变成了这个样子。 有了它之后,我们只需要关注一下刮地脱落的概率怎么算就可以了,因为前面这两个概率啊,是相当于是已知的。至于为什么,看完视频你就明白了, 刮地脱落的概率怎么算呢?实际上可以分成两种情况,一种是刮熟的状态下刮地脱落的概率,另一种就是刮生的状态下刮地脱落的概率。那刮地脱落的概率就是这两种情况的相加, 那这个就是所谓的全概率公式。 ok, 接下来我们来尝试把这些公式用起来啊,体验一下 计算过程。假设西瓜的状态分为两种,瓜熟、瓜生,概率分别为零点六、零点四。瓜熟时,瓜地脱落的概率是零点八,瓜生时,瓜地脱落的概率是零点四。那么如果现在挑到了一个瓜地脱落的瓜,这个瓜是熟瓜的概率是多少呢? 很明显,这是一个计算后应概率的问题。根据前面所提到的公式,可以算出瓜地脱落的瓜是熟瓜的概率是百分之七十五。那这个就是被也是定理, 懂了吗?如果我问你,瓜地脱落的瓜是生瓜的概率是多少?能不能一眼就看出来呢?能的话就给我点个赞吧! 为了买到一个熟瓜啊,这位靓仔也是拼了,专门在网上搜索了一下,知道判断一个瓜是否熟, 除了要看瓜地是否脱落,还要看瓜的形状和颜色。形状呢,有圆的,有尖的颜色,有深绿、浅绿、青色之分。要看这么多特征啊,靓仔就有点慌了。不过没关系,我们可以用刚刚所提到的贝叶斯的思想来尝试帮他解决这个问题。 现在特征由原来的一个变成了现在的三个,我们用 x 来表示特征, y 表示瓜的类型。那么根据这个背夜式定理啊,我们的后应概率就可以表达成这个样子。 其中 c k 表示类别, k 呢是类别的个数,在这个例子里面, k 等于一或者是二,那也就是说, c 一表示瓜熟, c 二表示瓜生。上面的公式看似有点复杂,但其实与刚刚单特征 的形式啊,是一模一样的。有一点需要注意的是,这里的特征 x 不再是单一的,而是包含了三个特征,因此这个概率 p, 他是假设不同概率特征之间是相互独立的,那这样呢,他就可以写成这个样子, 其中 n 是特征的个数, g 呢表示当前所属的特征。那针对这个例子的话,这个概率就可以写成他 这种条件独立性的假设啊,就是朴素背夜诗里面的朴素二字的由来,这样利用朴素背夜诗的思想,我们就可以把后人概率写成这个样子。 现在你可能会觉得,哇操,怎么这么多数学公式啊。你看右级这屌公式,看上去比较复杂,其实只是特征增加了而已。 而且呢,你不管有多少个特征,我们只需要关注分子,因为对于所有的 ck 来说都是一样的,因此分母可以省略,所以式子就简化成了这个。 这玩意到底怎么算安排?假设有这么个历史数据,我们来一起算一下,这样的西瓜是熟瓜的概率是多少? 瓜熟的概率是零点六,瓜熟了的情况下,瓜地脱落的概率是三分之二,瓜熟的情况下,瓜是圆形的,概率是三分之二,瓜熟的情况下是青涩的概率是三分之一,那么这个瓜是熟瓜的概率就等于四十五分之四, 简单吗?所以不要被这个公式给唬住啦,他就是个纸老虎,消除恐惧最好的办法就是面对 恐惧,加油奥利。同样的,这瓜是生瓜的概率就等于一百六十分之一,因为四十五分之四大于一百六十分之一,所以这个瓜我们就可以把它预测成熟瓜 到这,我相信你应该是可以想到朴素背夜思的训练流程啊,其实就是把该算的概率全部算好就完事了, 并不像什么线性回归啊,逻辑回归那样,还需要通过梯度下降来计算模型的参数,也不会像决策术那样啊,算个指标来递规构建。 所以朴素背夜诗有个特点,就是训练过程计算量非常小,就算是海量数据也不会训练太长时间。至于预测流程,其实就是把所有在训练阶段算出来的概率 全部乘起来,再比个大小就 ok 了,就是这么简单粗暴。不过缺点也很明显,由于整个朴素贝也斯是假设所有特征之间是相互独立的,但事实上很多特征之间是相互影响的,所以呢,预测的精度会有缺失。 谢谢观众老爷们把视频看到了最后,希望今天的视频能够对你有所帮助。如果你喜欢 cd 的视频,就请你订阅 cd 的频道,点赞分享给更多人,如果不小心点到了小铃铛,那就更好了,这样就不会错过 cd 给你带来的知识分享了,我们下一集再见!拜拜!
