你真的完全理解了泰勒展开吗?书本中关于这个概念的引入并不自然。你有没有发现,如果把展开式前三项拎出来,和我们中学学过的一个公式很像,从本质上甚至可以这么理解,泰勒展开是关于事物运动的命理学。然而,书本上只是这么介绍的。 一个光滑函数可以被展开为无穷多项密函数相加,然后通过不断求导的方式来确定每一项密函数前的系数。比如,我们可以不断添加密集数来逼近三角函数。这看似是一个巧妙的技巧,但也仅仅停留在技巧层面,他背后关联着一个深刻的物理学思想, 如何用先前得到的数据来预测未来?只有理解到这一层,你才明白为何泰勒展开被广泛应用于物理工程甚至机器学习中。 比如现在,让你来试着预测一下明天的气温会如何。假设今天是二十摄氏度,如果不知道其他信息会预测明天是多少度呢?当然也是二十度, 因为我们没有除今天之外的任何数据,自然没有理由认为温度会发生变化。但是,如果我们知道昨天温度是十六度呢?那么必然会猜想温度具有一个恒定变化率,大小为四摄氏度每天,于是可以预测明天的温度为二十度。 进一步,如果我们还知道前天的温度为十四摄氏度呢?哎,我们可以继续去找规律,十四到十六,温差是二十六到二十,温差是四,发现了吗?相邻两天温差的差值是一个定值,所以我们可以继续预测明天和今天的温差应当是六, 所以明天温度是二十六度。这就是人类探寻规律的基本方法,止谷之道与欲精之有归纳到演绎到实验。所以归根到底,一切的自然科学都只是经验科学,一切目前公认的理论仍然成立, 都只是因为我们的观察还处于适用范围内。如果从基本框架来看,世界就是一个巨大的函数,而泰勒展开的基本思想就是用以观测到的数据尽可能去拟合目标函数。 所以为了预测温度变化,我们的做法也是相当于在寻找温度与时间所遵循的函数关系。那么具体是靠计算什么来拟合这个函数呢?细心的观众可能意识到了,就是去找变化率。 当我们只用今天的温度去累推明天的温度时,这是临界近似。当我们会先计算温差变化,得出变化率,再来做预测时,这是一阶近似。也就是说,如果知道当前的温度和关于温度的一阶变化率,就会得到更为精准的预测。 继续看,当得知前天的温度数据时,我们甚至可以计算温度变化率的变化率,这就意味着,我可以把温度的一阶变化率、二阶变化率 都放在今天来做预测。所以,要让预测的结果更为贴合现实对应的函数,就需要知道关于这个时刻下的更多信息。今天的温度,一界变化率,二界变化率,三界变化率。 知道的信息越多,对未来的你和就越准。所以自然就会问一个问题,如果我知道这一时刻的数值以及关于该数值的所有变化率,是不是就能完整的预测未来呢?这便是泰勒展开, 他对应到物理学就是一个运动学通解的问题。任何一段运动都可以理解为是初驶的速度、加速度、加加速度等一堆变化率均不变的综合运动。那么只需要在 t 等于零时刻知道初驶位置及其全部变化率,就可以完整描述这个运动在未来的路径。做个通俗的比喻, 这就是在给这段运动算命。而我们不断去叠加变化率信息,是为了让最终的你和函数更为精确。所以应该这么理解。泰勒展开的前 n 项,其实是由一个 n 阶导数构成的微分方程的解,比如我们最熟悉的匀加速运动,它的加速度恒定为 a, 所以这个运动的微分方程是未知。关于时间的二阶变化率等于 a 解出来就是如此。其中的两个常数是初始时的位宜和速度,如果计算更高阶的也是一样的效果。 而泰勒展开的意义就相当于直接把通解写出来了,剩下的就是完形填空,只要变化率的项填的足够多,最后得到的函数就会足够接近目标函数。 所以如果从这个角度去理解,泰勒展开,就会感受到事物变化有着强烈的宿命感。在这一瞬间的全体变化率就已然决定了物体未来的运动轨迹,而这就是现代自然科学具有预测性的原因。 观流变之律,就能吸整体之行。从根本上看,泰勒展开皆是了人类认识世界的一种基本范式。 我们永远在有限的观测中提取变化模式并外推至未知。他不是单纯的计算技巧,而是一种通过微分构注整体,通过瞬间理解演化的认识论工具。 在这个意义上,泰勒展开所蕴涵的思想早已渗透进我们对一切连续变化现象的把握与预测之中。从行星轨道到温度变化, 从函数拟合到神经网络的训练,无不呼应着同一主题,局部如何决定大局,当下如何蕴涵未来。
粉丝24.2万获赞333.9万

好,姥姥看了山菊花,奶奶看了下面,那又说,我们姥姥看了都会的课堂啊,今天我来讲一下泰勒展开。泰勒展开是什么呢?我们上节课是不是学了两个超越不等式啊?我上节课就说了,两个超越不等式,不仅仅可以通过函数求导 来证明,还可以通过泰勒展开来证明。那什么是泰勒展开呢?一般来说,在高中阶段,我们学习泰勒展开,只需要记住他相应的结论就可以了,但是你大华老师的学生个个都聪明绝顶,所以我今天呢,就带领大家一起来 看一看什么是泰勒展开?泰勒展开是怎么来的?好泰勒展开的形式啊,就是我写的这个 f x 等于 f x 零加上 f x 零的一阶导比一的阶乘,然后再乘上 x 减 x 零的一次方 f x, 哎, f x 零的二阶导比上二的阶乘,再乘上 x x 减 x 零的二二次方,一直加加加,加到多少呢?加到 f x 零的 n 结导比上 n 的 结成,再乘上 x 减去 x 零的 n 子方,最后再加一个误差余项。哎,也什么叫误差余项呢?就是我这个 f x 是 可以用后面这个多项式表示,但是呢,它是有误差的,所以我们为了补齐这个误差,在后面加了一个误差余项 啊,这个你高中阶段知道就可以了。这个误差余象又分为两种,一个是皮亚诺余象,一个是拉格朗日余象。好,但是我们高中阶段对于你这两个余象呃的适用条件是不做说明的啊,也不需要做要求。 好,那我们想想,为什么 f x 可以 等于后面这个多项式呢?我们想一想,如果我想刻画一个 f x, 我 想用 f x, 哎,刻画一个,刻画出一个什么呢?刻画出一个多项式 p x, 那 我这个 f x 啊,数学家们就认为 f x 可以 等于什么呢?可以等于 a 零加上 a 一 乘上 x 减 x 零的 一次方,加上 a 二乘上 x 减 x 零的二次方,一直加加加加加,加到 a n 乘上 x 减 x 零的 n 次方,没有问题吧?那同学们,我问你啊,什么叫做刻画? 我是不是可以用这个多项式来刻画 f x? 什么叫刻画?刻画是什么意思?刻画,也就是说 在 x 零处啊, p x 零得等于 f x 零嘛,也就说它们函数值得相等。同时, p x 零的 e 结导是不也得等于 f x 零的 e 结导,也就说它们 e 结导数值也得相同。 一直到什么呢? p x 零的 n 结导是不是也得等于 f x 零的 n 结导?这才叫一个函数刻画完毕了,没有问题吧?在 x 零处, p x 零和 f x 零, p x 零和 f x 零函数值相等,导数值将导数值相等,对吧?从 e 阶导到 n 阶导,完全相等。好,根据这个理论,我们是不是我们就可以推出泰勒展开?怎么推呢?我用蓝色的笔,我用绿色的笔,来给大家写一下吧,你想一想, 我这个 f x 零应该等于什么? f 把 x 零往上面一带,是不是后面全部都消掉了呀?对吧? x 零是不是全部都消掉了?只剩下一个 a 零? 哎,我这个 a 零不就求出来了吗?我这个 a 零应该是等于 f x 零的,没有问题吧?那这是函数值相等,对吧?如果我这个 f 撇 x 零要等于 p 撇 x 零, 那应该等于什么?是不是应该等于对上面这个式子进行求导呀?对上面这个式子求导的话,它常数项没有了。第一个应该是 呃 a 一 吧。哎, a 一 这个应该是,它是呃,这是一个符合函数求导,对吧?所以它应该是二 a 二 x 减 x 零,然后再加上三 a 三 x 减 x 零的平方,一直加加加加,加到 n a n x 减 x 零的 n 减一次方,这个没有问题吧?然后因为我需要取 x 等于 x 零,所以后面是所有的 x 啊,我都要让它等于 x 零,你会发现什么呢?会发现好多项又没有了,后面的这些项是不是都没有了呀?所以我这个 a 一 啊,不就得出来了吗? a 一 就是等于 f 撇 x 零的, 这个没有问题吧?你看啊,我这个 a 零是等于 f x 零的, a 一 是等于 f 撇 x 零的,那我再来,我这二阶导,是不是要 x f x 零要等于 p x 零的二阶导呀? 没有问题, p x 零的二阶导,我对上面再求导,常说下,没有了。这边应该是二乘一 a 二,对吧?加上三乘二 a 三的 x 减 x 零的一次方,一直加加加加加到 n 乘 n 减一, x 减 x 零的 n 减二次方。好,我是不是还是需要利用另,后面这个 x 等于 x 零,我就得到了什么?是不是后面的这些项又没有了,对吧?是不是就是二倍的? 二倍的 a 二是等于 f 撇 x 零,是不是我这个 a 二就可以等于什么呢? f 撇撇 x 零的 除以二,没有问题吧?好,为了找到这个式子啊,大家可以一直往后推,推到什么呢? f 的 n 接到啊,最后你会得发现个什么呢?我这个 f 的 n 结导 x 零比上一个 n 结次方是等于 a n 呢,再把这里面你看啊,再把这里面的 a 零 a 一, 对吧, 还有这个 a 二,还有这个 a n 往回带,是不是就证明出来了?我这个 泰勒展开式,对吧?你看,这是不是 a 零啊?这个是 a 一 吧,一的阶乘,这是 a 二吧,对吧?然后这是是不是 a n 啊? 没有问题吧?哎,泰勒展开的证明还是比较好证明的好。那我们高中阶段用的是泰勒公式吗?其实不是,泰勒公式是用的是迈克劳伦公式。什么是迈克劳伦公式呢?泰勒展开式令里面所有的 x 零都等于零啊,等于这零 零零零,这些都是零,这是麦麦克劳伦公式。麦克劳伦公式是我们高中常用的公式啊,你想想,呃,那如果我不令这里边所有的 x 零都等于零了,那我 x 应该等于什么? f x 是 不是应该等于 f 零加上 f 撇零,一阶导 x 的 一次方加上 f 撇撇零,二阶导 x 的 二次方一直加加加加,加到 f f 的 n 结导零 n 次方, x n 次方,再加上一个误差余项呀,是吧?这个不是泰勒啊,这个叫什么? 这个叫迈克劳伦,知道吧?你们一直叫泰勒,这其实叫错了,人家这个叫迈克劳伦公式好吧。呃, 长这样啊,麦克劳伦,好吧,麦克劳伦公式。好,那通过麦克劳伦公式呢?我们看一看我们高中阶段常用的一些。呃,麦克劳伦公式啊,第一个 ex, ex 应该等于什么?它应该是 f 零, f 零是谁? f 零就应该是一,对不对, e 的 零次方还是一嘛,对吧对吧?然后是 e, 它不管求多少次啊,是不是都是 e x 本身啊? e x 求多少次都是 e x 本身,所以第二个应该是什么? 第二个是一次方,然后,然后上面还是一,然后再乘上一个 x 的 一次方,再把 x 移到上面嘛,对吧?哎,这就是 ex 的 展开,后面这个呢,大家可能不知道,后面这个其实就是拉格朗日, 拉格朗日一项好吧,这些啊,哎,都是拉格朗日一项, 这一部分啊,这一部分都是拉格朗的意向好, long x 加一展开没有问题,三 x 展开考三 x 展开,然后后面呢?这个是什么?这是 n 阶岛的无穷小啊,这是 n 阶岛无穷小,它是平安诺意向。 嗯,同学们也不需要去知道为什么是 n 阶岛的无穷小,因为这个在我们高数里面会证明啊,你就知道这个展开之后是这样的结果, 就没有问题了好吗?好,这些公式在我们高中阶段的应用啊,就一条,你记住了,应用就是使这个 x 的, 绝对只要小于零点一就可以用, 没问题吧?这些公式在高中阶段的运用,因为皮亚诺鱼象和拉格朗日鱼象的运用标准不一样,但是你不需要知道如何去区分,你只要知道,在高中阶段,我只要用了迈克罗伦展开之后,我的这个 x 的 曲值啊,绝对值一定要小于等于零点一, 就没有任何问题了好吗?然后啊,你发现了,我通过这个泰勒公式啊,还会得到一些我们以前比较难证明的不等式, 是不是我们上节课学的 e x 大 于等于一加 x 对 吧?还大于等于这个对吧?这是展开两项吧,这是展开了三项,是不是很简单呀?哎,这是展开两项, 这展开两项,也就说它展开了两项,后边的项不用了。那你这个三 a 肯定是大于等于它的呀,因为你后边还有展开的一些项啊,你把这些项都给扔了的话,那你三 a x 肯定要大于它呀, 没有问题吧?这同样的展开两项,展开两项。一般我们高中阶段学了麦克罗伦,展开的话,只需要展开三项就可以了,最多就是三项啊。啊,一些常用的 常用的泰勒展开式啊,大家自己看一看就可以了。这个我们之前应该都见过啊。第一个 long x long x 小 于等于 x, long x 小 于等于 x 减一,对吧?一减 x 分 之一小于等于 long x。 是 不是我们都是我们上节课学的呀,包括这后面的几个同学们,只要记住就可以了啊,记住就可以了。好,我们来看一看二二年的一个高考真题吧, 说这个 a 是 等于零点一的, e 的 零点一次方, b 是 等于九分之一, c 是 等于负的零点九的。哎,这个怎么展开呢? 看见没?这个怎么展开的?我们来一起看一下啊。呃,这个如果正常的话,我们是不是需要用构造来做呀?但是现在我们会了麦克劳伦,展开是不是就非常简单呀?你看你这个 e 的 零点一次方,我通过展开,你把这个东西想象成,想象成 x 嘛,它应该是约等于什么的,约等于一加上零点一加上二的结成零点一的 平方呢,对不对?它这个式子应该算出来是一点一零五。好,所以我这个零点 一一的,零点一,它就应该是约等于零点一一零五,对吧?它是小于九分之一的啊。九分之一是多少呢?九分之一是零点一一一,对吧?等于 b, 所以 你这个 a 肯定是小于 b 的。 好,我们再看 c, c 是 什么? c 是 等于负的平方零点九,对吧?是不是应该等于平方九分之十啊?九分之十是不是就相当于平方括号一加上 九分之一啊?是,我们还可以用麦克风展开啊,它应该是约等于什么?约等于九分之一减去二的阶乘九分之一的平方加上 三乘上九分之一的三次方,应该是等于九分之一,还是九分之一二?是,是一百六十二分之一加上二一八七分之一,应该是约等于九分之一减 零点零零零六的,对吧?他是,这肯定是小于。小于多少的,这还不能算小于呢,这个还是得算一下,他应该是 等于零点一零五。哎,零点一零五,这是小于 a 的, 所以我这个 a 啊,是大于 c 的, 没有问题吧? a 大 于 c, b 大 于 a, 所以 就是 b 大 于 a 大 于 c, 答案,选什么?选 c 吧。好,这个我们学的泰勒展开或者是麦克劳顿展开的话,大家一定要熟记啊,这些公式大家一定要熟记,包括一些泰勒展开的不等式啊, 你们也需要记住啊,我们最常用的都在这上面啊,就这几种形式都是最常用的。好,今天课就到这里,同学们再见啊。


taylor 和 taylor 长得几乎一模一样,可不就像数学家泰勒转身成了做衣服的裁缝吗?导数就像卷尺,一阶导数看斜度,二阶导数看曲率,泰勒多像是就是那条金线,局部的导数,塑造局的曲线。今天咱们要聊的是泰勒极数 这个东西呢,在数学分析和很多工程领域里面,都是一个非常核心的数学工具。嗯,然后我们会从它的基本的原理讲到它在深度学习,包括在物理学里面的一些应用。没错,泰勒极数其实是用简单的多项式去逼近复杂函数的一个东西,那我们就开始吧。 好的,咱们先来说说就是泰勒极数它的这个重要性,以及它到底是怎么用一种比较独特的视角去帮助我们理解世界的。其实泰勒极数它不光是在数学分析里面是一个很重要的工具,在优化算法里面,比如说梯度下降,它其实就是函数的一阶,泰勒展开的一个近似,那牛顿法就是用到了二阶近似。 听起来好像很多积极学习的模型都藏着这个泰勒极速的影子啊。对啊,像神经网络,它本身也是在做函数逼近嘛。然后泰勒极速它的核心思想是以直带曲,就是用简单的东西去模拟复杂的东西,然后把难题拆解成容易处理的小块。 这种思维其实经常会用到科学和工程的很多领域当中。是的,下面我们要讨论一个话题呢,叫做启程前的工具箱 啊,就是在正式构建泰勒极数之前,我们先来看一看有哪些数学工具是我们必须要掌握的。嗯,首先第一个呢,就是多项式, 对吧?为什么多项式会被称为是这个计算机的母语?这是因为多项式它的形式是非常简单的。嗯,就是无论你是求导还是积分,亦或者是做一些数值计算,都是很方便的,它只涉及到基本的四则运算,所以计算机处理起来会特别高效。原来如此, 那另外一个问题就是阶乘在泰勒极数当中到底扮演了一个什么样的角色?实际上阶乘在泰勒极数里面,它是作为修正系数出现的。 对,就比如说你看十的阶乘就已经是三百六十万了,然后二十的阶乘就已经比宇宙中的恒星数量还多了。嗯,就是它这种爆炸式的增长,就正好可以把这个分子上面的 x 的 n 次方给压制住, 这样的话就可以保证这个极数它是能够收敛的,它不会到处乱跑。确实啊,我想问一下,就是高阶导数到底是怎么解释出函数在某一个点的动态信息的?高阶导数它是有非常明确的物理意义和几何意义的。就零阶导数,它其实就是表示位置或者说高度, 然后一阶导数就是速度或者说斜率,二阶导数是加速度或者说曲率。那三阶导数在物理里面又叫做加加速度, 它其实是描述曲率变化快慢的。原来我们能从函数的导数里面读出这么多东西啊。对,感觉每一节都藏着一个小秘密。没错没错,然后有一个特别形象的例子,就是让你不舒服的不是电梯的速度,而是电梯的加加速度。 对,这就是为什么三阶导数它在实际生活中也是有意义的。明白了,那还有一个问题就是关于收敛性,为什么我们在处理无穷极数的时候一定要时刻关注它的收敛性?这是因为无穷项的求和它未必是有一个确定的值的。嗯, 所以我们要去搞清楚的就是到底 x 在 什么范围里面的时候,我们用这个级数去做径 c 才是合理的。对,这就是收敛性,它的意义相当于它是给我们的这个径四划了一个安全区。那我们现在要讲的这个主题呢?叫做重新发明轮子,就是构造径四引擎。 我们具体的目标到底是什么?然后我们打算用一个什么样的多项式来靠近这个复杂函数?是这样的,我们的目标就是要找一个多项式, p x, c 零加 c e, x 加 c 二, x 二加,让它能够在某个点,比如说 x 等于零。嗯,附近去模仿一个很复杂的函数,比如说 f, o, m, g, l, c, 那 我们肯定是希望它们两个在这一点的函数值是相等的,然后包括它们的斜率、凹凸性等等,这些都能一样, 就尽可能的让它们贴合在一起。好的,那具体来说,我们是怎么通过让多项式的各阶导数和原函数的各阶导数在某一点相等,来保证它们在这一点附近是非常接近的?对,这个其实就是整个构造的一个核心的技巧, 我们就是要让 p x 和 f x 它们在 x 等于零。这一点不光是函数值一样,它们的一阶导数、二阶导数全部都一样。嗯,你想函数值一样就意味着它们过同一个点,然后一阶导数一样,就意味着它们在这一点的倾斜程度是一样的, 那二阶导数一样,就意味着他们的弯曲方向和弯曲程度也是一样的,以此类推。哇,感觉每多匹配一阶导数,就像是让他们的每一寸肌肤都贴合的更紧密了一些。没错,既然如此,我们就来聊一聊这个逐阶逼近, 从零阶一直到二阶。嗯,每一步到底是给我们的这个多项式逼近带来了什么新的变化?从零阶开始,其实零阶就是让这个多项式过那个点 就 p x c 零,然后 p 零 f 零,那这个时候就确定了 c 零就等于 f 零。嗯,这个时候图像就是一条火零的线, 它只保证和这个函数有一个交点,听起来这个零界毕竟还挺粗糙的。对,那说一阶就已经让这个多项式在那个点附近开始跟着原函数去弯曲了。对,然后到了二阶的时候,我们再加上一个二次项, 就是 p x f 零 f 零 x 加 c 二 x 等于 f 零除以二, 这个时候你就不仅仅是斜率一样了,就连凹凸性也一样了。所以这时候就是用一个抛物线去捕捉这个函数的弯曲。对,它会在那个点的附近和原函数贴合的非常紧密。哎,那你这么说的话,我就想知道这个一般化的泰勒极数,它的形式到底是怎么得出来的?然后它的每一项的系数有什么规律? 这个其实我们可以通过刚才的这种方法一直类推下去。嗯,就是我们要让 p 的 n 阶导数在零处,等于 f 的 n 阶导数在零处,然后我们就可以反解出来这个通项公式就是 c, n 等于 f 的 n 阶导数在零处除以 n 的 阶乘。所以说这个系数其实就是把各阶导数的信息和阶乘做了一个精细的调整。 是的是的,然后整个这个泰勒极数在 x 等于零的时候,我们也叫麦克劳林极数,它的形式就是 f, x 等于 f 零, x 加上 f, 零除以二的阶乘, x 的 平方一直加下去。 嗯,然后它的这个一般的形式,我们可以写成求和的形式,就是 n 从零到无穷 f 的 n 阶导数在零处除以 n 的 阶乘,乘以 x 的 n 次方。如果我们把展开点从零移到任意点 a, 这个泰勒极数又会变成什么样子?这个其实也很简单,嗯,就你只要把原来的那个 x 都换成 x 减 a 就 可以了。那它的这个形式就是 f, x 等于求和, n 从零到无穷 f 的 n 阶导数在 a 处除以 n 的 阶乘,乘以 x 减 a 的 n 次方。那下面我们要讨论这个话题就有意思了。嗯,叫做经典函数的展开式画廊。 就我们来看看几个常见的函数,像指数函数、余弦函数、正弦函数和对数函数,它们的泰勒指数展开到底长什么样,然后各自有什么独特的性质。先来看指数函数 e 的 x 次方, 它的展开式是非常漂亮的,就是 e 的 x 次方等于一加上 x 加上 x 的 平方,除以二的阶乘,加上 x 的 三次方,除以三的阶乘一直加下去。 它的每一项的系数其实就是 f 的 n 阶导数在零处除以 n 的 阶乘。但对 e 的 x 四方来说,它的任意阶导数都是它本身,所以每一项的系数其实都是 e, 它的收敛半径是正无穷。确实是挺美的。这个展开式 感觉就像是有一种特殊的对称性。然后再来看余弦函数 cosine x, 它的展开式就只有偶次项。嗯, 是 cosine x 等于一减去 x 的 平方除以二的阶乘,加上 x 的 四次方除以四的阶乘,一直这样加减交替下去, 它也是一个全十轴上收敛的极数,收敛半径也是正无穷。然后它是一个偶函数嘛,所以它的展开式里面只有偶次幂。 所以说正弦函数的展开式是不是就只有奇次项了?没错没错, sine x 就 等于 x 减去 x 的 三次方除以三的阶乘也是这样一正一负交替, 然后它的收敛半径同样是正无穷。它是一个奇函数,所以它只有奇次幂的项。听起来这三个函数的展开式还挺有规律的。那对数函数 l n 括号一加 x 是 不是也有类似的特点?这个的话, l n 括号一加 x 就 等于 x 的 平方除以二,加上 x 的 三次方除以三,也是一正一负交替,但是它的这个分母就没有接成了。嗯, 所以它的收敛性就没有上面那几个函数那么好了,它的收敛半径是一,就只有在 x 属于一一的时候,这个极数才是收敛的。了解了,下面我们来看看这个泰勒极数的收敛性以及它的一些局限性。 为什么我们要引入收敛半径这个概念,然后它跟这个函数在负平面上的起点到底有什么联系?其实原因就是泰勒极数,它并不是说对于所有的 x 都是成立的,它是有一个有效的范围的。 对,这个收敛半径 r 就 规定了一个区间,就是 r, r 在 这个区间里面,这个级数才是收敛的,超出这个区间,这个级数就发散了。所以说这个收敛半径其实就是给我们的这个展开式划了一个安全区,是吗? 对,然后它的这个收敛半径其实是跟这个函数在负平面上面的七点是直接相关的,就是它等于这个展开中心到离它最近的那个七点的距离。 嗯,比如说 l n 括号一加 x, 它在十轴上 x 等于负一的时候是没有定义的,但是其实它真正的原因是因为在负平面上面, g 等于负一这个点是它的一个起点,所以它的这个收敛半径就是一。我有个问题啊,就是有没有一个函数它是无穷解可微的, 但是它的泰勒极数却不能完全还原它?有啊,就是这个函数 f x 等于 e 的 负的 x 平方分之一,当 x 不 等于零的时候, 然后 f 零等于零,嗯,这个函数它在 x 等于零这一点是非常非常光滑的,就是你求任意阶导数,它都是存在的,而且都等于零,也就是说这个函数的泰勒极数就是一条平线。对啊, 它的泰勒极数就是零,加上零乘以 x, 加上零乘以 x 的 平方,一直加下去,嗯,就是横等于零。 但是你会发现原来的那个函数除了 x 等于零这一点之外,其他地方都不是零。所以这就是一个非常好的例子。就是说一个函数,它即使是无穷皆可微的,它的泰勒极数也有可能只是在某一个点等于这个函数,而不是在整个区间上都等于这个函数, 看来这个光滑性和解析性之间还是有一道鸿沟的。对,那我们现在把这个话题就引到多元泰勒展开和深度学习的优化上面。在深度学习里面我们经常会遇到这种多元的损失函数, 嗯,那这个时候多元的泰勒极数到底是怎么帮我们来做优化的?然后这个梯度下降和牛顿法它们两个到底有什么本质的区别?因为我们在实际的深度学习的问题当中,这个损失函数 l 一 般都是一个关于参数 theta 的 多元函数, 那这个时候我们其实就是用多元的泰勒极数来做径四。那梯度下降其实就是用的一阶泰勒展开,它就是把这个复杂的损失曲面用一个平面来代替, 然后我们每次就沿着这个负梯度的方向去走一步,也就是说梯度下降它只关心这个当前点的坡度。嗯,那牛顿法是不是就会把这个曲面的弯曲程度也考虑进去? 是这样的,牛顿法它是用到了二阶泰勒展开,所以它的这个近似就是一个抛物面,它的这个信息里面就不光是有梯度,还有这个海森矩阵就是这个曲率的信息。嗯, 然后它每一步的这个更新就是直接跳到这个抛物面的最低点,所以它的这个迭代公式里面就会有一个海森矩阵的逆。哦,那我有一个疑问啊,就是这个梯度下降,它的这个更新公式和牛顿法的这个更新公式,它们俩的这个向量形式到底有什么不一样?然后每一个部分到底都代表什么? t 度下降的这个公式就是 theta 下划线 new 等于 theta 的 零减,叫 alpha l, 就是 新的这个参数,等于老的参数减去一个学习率乘以这个 t 度。 对,那这个负的 t 度方向其实就是函数值下降最快的方向。然后牛顿法的话,它的这个公式是 theta 乘 theta 的 零减 h e l 就是 它是用海森矩阵的逆左乘这个 t 度,它是考虑了这个曲面的曲率的,所以它的这个收敛速度一般会更快一些。 听起来这两种方法各有千秋啊,那它们在实际使用的时候会有什么明显的区别吗?当然有了,就是梯度下降,它只用到了一阶导数,所以它的计算量是比较小的,但是它的收敛速度会比较慢。然后牛顿法它是用到了二阶导数,就是海森矩阵, 嗯,所以它的这个方向会更准一些。但是求这个海森矩阵的逆的话,是非常耗费计算资源的, 所以在高维的问题里面,这个就会变得非常棘手。原来是这样,然后我们要讲的下一个话题呢,就是泰勒极数在物理学、计算机科学和图像处理当中的一些具体的应用。嗯, 然后我特别想知道,就是在物理学里面,我们是怎么用向量化来简化这个复杂的运动方程呢?好,就比如说这个单摆运动,它的这个运动方程是一个二阶的微分方程,就是 d 方, theta 比 d t 方等于负的 g b l 乘以 sine theta 这个方程直接解是很困难的,但是如果我们在这个角度 theta 很 小的时候,用这个一阶的泰勒展开,把这个 sine theta 近似成 theta, 那 我们的这个方程就变成了 d 方, theta 比 d t 方约等于负的 g b l 乘以 theta, 这个时候它就变成了一个剪斜振动的方程,然后就可以很容易的写出它的解。哎,这个现代化真的是威力巨大啊,感觉一下子就让这个问题简单了很多。这个其实就是在物理学里面很常用的一个手段,就是把一个复杂的非限性的问题在一个很小的范围内用限性来径次, 然后很多的我们所熟知的物理定律其实都是这样得来的。那我还有一个问题啊,就是这个计算机,它在计算这个三角函数、指数函数这些特殊函数的时候, 它里面的这个芯片到底是怎么工作的?其实芯片它里面是没有什么三角板,也没有什么对数表的,它本质上用的还是这个泰勒极数,或者说一些更优化的变形,比如说 coordinate 算法。对,那它其实就是不断地去计算这个多项式的每一项,然后一直加到它满足这个精度要求为止。哦, 原来我们用计算器摁出来的那些结果背后都是这些多项式在拼命地运算。是的,就包括你在计算这个 sine 三十七度的时候,嗯, 芯片可能就是用 x 减去 x 的 三次方除以六,加上 x 的 五次方除以一百二十这样的一些项来不断地累加,然后一直算到,比如说它的误差已经小于这个十的负六次方,那它就停下来,然后把结果输出给你。 既然泰勒极数在芯片计算中这么好用,那它在图像处理,比如说边缘检测里面,它又是怎么起作用的呢?这个说起来也很巧妙,就是我们可以把这个图像看成是一个二元函数 i x, 然后这个图像的边缘其实就是这个函数值变化很剧烈的地方,也就是这个梯度的模长很大的地方。 嗯,那我们怎么去求这个梯度呢?其实像 sobel 算子这种常用的边缘检测算子,它本质上就是用这个差分来近似这个偏导数。 对,而这个差分其实就是这个一阶泰勒展开的一个离散的版本。好吧,然后我们接下来要讲的是这个误差的精确控制和余项理论。 那这个拉格朗日余项它到底是怎么来帮助我们去估计这个泰勒多项式的误差的?拉格朗日余项它其实就是给出了这个泰勒展开式的一个精确的误差表达式,嗯,就是 r n x 等于 f 的 n 加一的阶乘乘以 x 减 a 的 n 加一次方, 然后这里的这个 c 是 在 a 和 x 之间的某个我们不知道的点,所以说我们是没有办法写出这个误差项的一个精确的值的,是吗?确实没有办法写出精确的值,但是我们可以通过找到这个 f 的 n 加一阶导数在这个区间 a x 上的一个最大值,嗯,来给出这个误差的一个上界, 所以我们就可以根据这个上界来判断说我要取多少项才能够让我的这个误差小于我给定的这个值,对,这个在工程上面是非常非常重要的。 那我们具体在计算这个 e 的 零点五次幄的时候,我们怎么通过这个余项理论来确定到底要取多少项才能够保证我们的这个误差是小于十的负六次方呢?首先我们要写出这个 e 的 x 次方的这个泰勒展开式的余项, 就是 r n 零点五的绝对值等于 e 的 x 一 除以 n 加一的阶乘乘以零点五的 n 加一次方,然后这里的 x 一 是在零到零点五之间的, 嗯,那我们就知道这个 e 的 x 一 是小于 e 的 零点五次方的,而 e 的 零点五次方是小于二的,这样的话就把这个误差项放缩成了一个只和 n 有 关的一个式子。没错没错,那我们就解这个不等式,二乘以零点五的 n 加一次方,除以 n 加一的阶乘小于十的负六次方。嗯, 然后我们就一项一项的去试,我们会发现当 n 等于七的时候,就满足这个精度要求了。所以我们就知道我们要取前八项,就是从 n 等于零一直加到 n 等于七。明白了,然后我们来聊一聊这个计算技巧和数值稳定性。那这个获纳法则,它到底是通过什么样的方式来让这个多项式的求值变得高效的? 互纳法则其实就是一个重新组织这个多项式计算的一个方法。比如说我们有一个多项式是 p x 等于 a, 零加上 a 一 x 加上 a 二 x 平方加上 a 三 x 三次方。 嗯,那我们可以把它改写成 p, x 等于 a, 零加上 x 乘以括号, a 一 加上 x 乘以括号 a 二加上 a 三 x。 对, 就是这样的一个数,加上 x 乘以一个括号, 感觉好像可以省很多事。是的是的,就是你这样从内向外算的话,你就只需要 n 次乘法和 n 次加法。嗯,那如果你是直接去算每一项,然后再加起来的话,你可能要做 n 方次乘法,所以 这个在计算机上面是会快很多的,而且这个也是现在很多数值计算的标准的做法。原来是这样,那在使用泰勒极数做数值计算的时候,到底什么情况下会出现这种灾难性抵消?然后我们要怎么去避免它 灾难性抵消?其实就是在你用这个泰勒极数去计算的时候,比如说你要算这个一的负二十次方,那你直接带进去算的话,就是一减二十加上二百分之四十等等这样的一些项, 那你会发现就是前面的几项它是正的很大,然后后面的几项是负的很大,那你在做这个加减运算的时候,就会把你的有效数字都抵消掉,然后最后你得到的结果就只有很小的一点精度,甚至可能是错误的。 听上去就很危险啊。那我们在实际计算的时候,有什么简单有效的方法可以避开这个陷阱吗?有的,有的,就是你可以先去算这个一的二十次方,那这个时候你所有的这些项都是正的,所以就不会有这个相消的问题。嗯,然后你最后再取倒数,算出来的结果就是一的负二十次方,那这个就会精确很多。 对,其实这个里面的核心的原则就是要尽量的避免让两个很接近的大数去相减。确实啊, 然后我们要聊的下一个话题呢,是两种分解世界的哲学,嗯,就是泰勒极数和伏立叶极数到底在选举基函数、获取信息逼近函数这三个方面有什么本质的不同?其实它们两个都是在把一个复杂的函数拆成一堆简单函数的叠加, 嗯,但是它们的这个基函数是完全不一样的,就是泰勒极数,它用的是一 x 平方, x 三次方等等这样的一 cosax, sine, cosine, 二 x 等等这样的一些三角函数,所以它们在采集这个函数的特征的时候,这个方式也是完全不一样的,是吗?对,泰勒极数它只关心你在某一个点的各阶导数值,嗯,它是一个局部的信息, 然后负利率极数它是把这个函数在整个周期上面做积分,它是一个全局的信息。那这就导致了就是泰勒极数它的这个展开是有点极面的。嗯,然后它更适合去做一些光滑函数的局部的逼近, 而负利率极数它是在整个区间上面同时去逼近,所以它比较适合去处理一些周期性的问题,或者说做频谱分析。如果我们现在站在现行代数的这个角度来看的话, 泰勒展开和富力页展开到底有什么共性?其实从现行代数的角度来看的话,无论是泰勒展开还是富力页展开,它们都可以看成是函数在一个基函数空间里面的投影。 对,那这个函数 f x 就 可以写成一个求和,就是 c n 乘以这个 c n 乘以这个 to mean 的 系数。所以说这两种展开其实都是把函数拆解成了一组基函数的限性组合。没错没错,只是说它们的这个基函数是不一样的,就是泰勒基数,它的这个基函数是密函数, 然后富立业基数,它的这个基函数是三角函数,嗯,但是它们的这个底层的这个限性代数的逻辑是一模一样的。那这个泰勒和富立业的这个思想 在深度学习里面会有什么具体的体现吗?当然会有了,就是比如说我们的这个梯度下降,它的这个局部性化,其实就是用了泰勒的这个思想,然后包括我们的这个 c n n 里面用这个频谱分析 transformer 里面用这个位置编码,其实都是富力页的这个频域分解的一个思路。了解了, 下面我们就来看看这个欧拉公式。嗯,它是怎么通过这个泰勒极数把这个指数函数和三角函数联系在一起的。 其实我们只需要把这个 i x 带到这个 e 的 x 次方的这个泰勒极数展开式里面,你就会得到 e 的 i x 等于一,加上 i x, 减去 x 的 平方除以二的阶乘,减去 i x 的 三次方除以三的阶乘,加上 x 的 四次方除以四的阶乘,加上 i x 的 五次方除以五的阶乘等等这样的一些项, 感觉好像这个虚数 i 一 出现,这个指数函数和三角函数之间就开始有一些奇妙的联系了。是的,然后你再把这个实部和虚部分别合并,你就会发现,其实这个 e 的 i x, 它就等于 cos x 加上 i i c n x, 嗯, 然后这个就是欧拉公式,它非常漂亮地把这个指数函数和三角函数统一在了一起。确实啊,那欧拉公式为什么会被称为是数学中最美的公式?这是因为如果我们在这个欧拉公式里面让 x 等于 pi 的 话,我们就会得到 e 的 ip 加一等于零。 你看这个式子,它把数学里面最最重要的五个常数就是零、 e、 e、 i、 pad, 然后还有三个基本的运算,加法、乘法和密运算全部都统一在了一个式子里面。 对,所以它这个极度的简洁和这个深刻的内涵就会让人觉得非常的震撼。没错,然后我们最后要梳理的这个内容呢,是这个泰勒极数的这个一般形式, 它的这个关键的要素,常用的函数展开式,以及它在深度学习里面的这个应用场景都给它梳理一遍。好的,那我们先来回顾一下这个泰勒极数的这个一般的形式,就是 f, x 等于求和 n 从零到无穷 f 的 n 接导数在 a 处除以 n 的 阶乘,乘以 x 减 a 扩回的 n 次方。嗯,然后我们有一个口诀可以帮助大家去记忆,就是导数给信息阶乘做修正,密次指方位。听起来这个口诀还挺实用的啊, 那这三个核心的要素到底都起到了什么作用呢?就是这个中心点 a, 它其实决定了我们是在哪个点展开,然后这个系数 c, n, 它是由这个函数在这个点的各阶导数来决定的,它其实是编码了这个函数的局部的形态的信息。 嗯,然后这个收敛半径 r, 它就是决定了这个泰勒极数在哪个区间里面是有效的,就是它是一个安全的边界。明白了,那有哪些常见的函数的泰勒展开式是我们需要记住的,比如说这个 e 的 x 次方,它的展开式就是对所有的 x 都成立的。然后 sin x 和 cos x, 它的展开式也是对所有的 x 都成立的。 嗯,然后这个 l n 一 加 x, 它的展开式就只有在 x 属于一一的时候才是成立的。好的, 那我们今天把这个泰勒极速的这个来龙去脉,然后它的这个应用,包括它的这个深邃的影响都给大家梳理了一遍。嗯,然后我们也看到了它在数学和工程当中的这个巨大的威力。行,那我们这期节目就到这里了,然后感谢大家的收听,我们下次再见吧,拜拜。拜拜。

今天我们来看一下泰勒展开,泰勒展开这块的知识呢。首先先来说一下泰勒展开,我们说如果任意一个无穷皆可导的函数,都可以写成 f x 等于 f x 零,加上 f x 零乘以 x e x 零加加加到 n 的 结成分之 f n 结到 x 零乘以 x 减 x 零的 n 次。然后后边呢,再加一个余项,这个余项呢,如果我们是写成底下这个样子,那这个 cos 是 介于 x 与 x 零之间,记得这个是 n 加一结到再 cos 这个, 你这需要注意这个如果写成这个余项的话,那它就是拉格朗日型余项,如果是我们就写成前面的这个 x 减 x 零的 n 次的它的无穷小,这个是 pm 型余项,也叫 pm 型余项。这个 泰勒展开呢,我们任意一个函数呢,都可以转换成密函数样子,只不过最后你要加一个余项,因为一个函数呢,他不可能完,不可能完全转换成密函数,或者他是极个别的情况出现。那在这块呢,我们要加一个余项,这个余项可以是零,也有可能是别的东西, 就这个余项。然后我们说当 x 零等于零的时候呢,那这个 f x 这个泰勒呢,就是我们的麦克劳林公式, 所以底下呢,这就是我们具体的泰勒展开,当 x 零等于零的时候,那这个我们不管是碰到什么样的函数,都可以根据我们的这个泰勒展开这个式子去展,都是可以的啊。 所以就拿一的 x 四来说,如果 x 零等于零的话,那就是一的 x 等于一的零四加上呢一 x 求导一直是本身,所以说一的零四乘以 x 减零,一直加上二的净剩分之一的零,四乘以 x 减零的平方,一直加加加,所以整理的话就是一加 x 加上二的结成分之一 x 方加加加,这就是我们的它的展开,然后在这块这些它的展开呢是我们要背的,然后我们最少呢要背三项,其实背三项就够了, 一的 x 跟 loe 一 加 x 呢,这两个我们可以通过表格,我们说这是 loe 一 加 x, 这是 x, 这是 e x 减一,然后每个空格呢可以代表是二分之一 x 方, 那就是说一 x 减一减 x 呢,它就等于二分,它就是跟二分之一 x 方等价的, 然后 x 减去 l 也一加 x, 它就等价成二分之一 x 方, 我们可以这样。然后还有就是我们的阿克萨因阿克弹体,还有三营弹体跟 x 之间,我们可以通过函数图像也可以通过我们这个表格也是可以就说 y 等于 x, 是 关于一三项形减平方线的算,然后呢三也是比它还小的。 然后 ac sine 呢,是跟 sine 是 关于 y 等于 x 对 称的 tan t, 函数呢是很大很大的,所以 ac sine 呢就是很小。 图像画出来之后呢,那每一个空格代表的是六分之一 x 三次,也可以通过这个呢来背这个东西。就比如说三 e x 减去三 t x, 那 你就看看有几个空格,它是跟谁等价呢?那你就数一下,就是 一个两个三个空格,那就应该是三乘六分之一 x 三次,也就是二分之一 x 三次等价,这是负的, 这是我们这么去做。然后接下来这些数字的话呢,我们可以就说你把三引这个展开备注之后呢,那对它求个导口算,这个就出来了,然后我们背一下一加 x 的 阿尔法次,把这个背完之后呢,那我们上面这个一加 x 分 之一和一加 x 分 之一就出来了,然后我们对一加 x 分 之一还原就可以出来的是落引的东西, 我们正反去背,然后我们接下 e x 这块呢,它其实还可以去那个拓展一下,我们呢就说 a 的 x 四, a 的 x 四,我们可以也是可以斩的,那就把它看成是 e 的 x 落以 a, 然后呢把 x 落以 a 看成是方块,然后我们去斩就可以了,它就是 e 加 x 落以 a 加加加。 所以说这些展开里边的 x 我 们都可以看成是方块,然后呢去展开就可以了,那这个开乐展开呢?我们说的是 展开至不抵消即可,在无穷小的里边呢,我们乘除是用等价,那加减的话,我们用开乐展开至不抵消即可,你需要留下东西,因为我们两个不同的函数相减,肯定是剩东西的。 然后我们在这呢,我们说等价无穷小跟泰勒呢,可以分清,就说如果碰到乘除因子的话,我们就直接使用等价无穷小退化。当多个不同阶的无穷小量相加减时,我们可以直接使用等价无穷小量退化, 且呢它等价于我们最低阶的那一项。如果发现它是当多个同阶无穷小量相加减,且每个无穷小量均等价至最减形式不可抵消时,那我们每一项可以直接等价无穷小退化。 那当你发现呢,当多个同学无穷小量相加减的时候,但每一个无穷小量均等价之最减形式可以抵消了,那我们就考虑用的是泰勒展开, 所以我们接下来来看一下这个题。这个例子,他说 p x 等于这个,然后当 x 去圆零的时候, p x 减它, x 是 比 x 三次高界的无穷角,让你看看选项,那我们就可以根据后边这句话呢,先写成我们极限的样子,也就是 x 趋向于零的时候, p x 减去弹 d, x 比上 x 三次呢,它是高阶无穷小,所以说极限是零。 然后接下来我们再把 p x 这个函数呢给它展开, a 加 b, x 加 c, x 方加 d, x 三次, 比上呢,底下是三次,那所以说这个贪梯怎么解决呢?他既然上面是比下边的高阶,那说明上面留下来的应该是比 x 三次的次数要高,所以我们就可以把贪梯给贪了,展开,把它斩到多少呢?那展开至不抵消即可能剩下东西, 所以分母是三次,那贪梯我们就斩到三次就可以了,他就是 x 加上三分之 x 三次,后边我们加上一个它的无穷小。 然后你接下来就该合并了,他就是 x 圈零的时候, x 三次分之, a 加上 b 减一, x 加上 c, x 方加上 d 减三分之一, x 三次,再加上这个无穷小,这个无穷小他正负都是无所谓啊,因为他除以底下就是零了, 这个无穷小有正有负。然后接下来的话,那我们留的是比 x 三次要高的,所以说 比他低的这些东西呢,系数都让他为零,所以就可以推出 a 等于零, b 等于一, c 等于零, d 等于三分之一。所以这个题是选的是 d, 选项是错误的,所以在这呢,我们拉格朗日形余项是用来证明,然后 p m 的 形余项我们是用来求其。

大质量天体做一个点,他的在远处的市场一个小的质量分布,这个小质量分布在这个小质量分布的远点做他附近展开的情况下,他的市场的表达是可以展开成一个,嗯, 镜像距离的泰勒高阶展开系数是一个乐让德函数, ok, 角向分布是乐让德函数,它是一个,是一个分离变量法的一个组合,一个 r 和 c t 的 两个分离函数的组合的 叠加,或者是展开。 ok, 如果喜欢数学的肯定是这块,就应该比较了解啊,这个 ok, get some, 因为这个视频课呢,一般是可以你可以回放啊,所以说我就我这个这些重要的事情,我只说一遍啊,因为你可以反复回放,所以我不用反复给你讲啊,反复给你讲你就听不懂,你就再去看回放,慢慢去琢磨,好吧, 所以我说的每一句话你们要仔细琢磨。我只说一遍,好吧,好话只说一遍。 嗯,那么我们有了这样一个市场的分布的话,呃,其实我们只考虑到它的高阶项的话,就是这个,嗯,这个两项。


有一个人叫 e x 次方,有天晚上啊, e x 次方啊,没有跟家里人讲,他自己跑出去听相声去了。很晚,韩文也不回来。夜深人静了,突然咣咣咣有人敲门,家里人一开门,门口站着这么一个人。这个人叫注意了啊,零的建成分是 x 零次方,一的建成分是 x 一次方,二的建成分是 x, 方三的建成分是三次方。家长,点点点,不写了,不写了, 长得好复杂,家里人问,你是谁啊?这个人说,我是 e 的 x 四方,为什么是呢?因为我太高兴了,乐开了花。那听懂了没有? e x 展开是。 同学们,每一项是不是都是谜函数,我提高一点要求了,大家能把空式给我写出来吗?一起来。请问分母是多少?说零的阶层,一的阶层,二的阶层,三的阶层,共写几 n 的阶层?太棒了,一百五十分的苗子们,分子来,零指方一次方二次方三,怎么写?什么 x 的 n 次方。太好了, 跟马求和认识吧。求和符号,恩,从几开始背零太好了,倒多少,一掷无穷。各位,太重要了啊!这个公式是所有胎的展开式里最重要的,叫 utmost important。

三十秒让你学会用泰勒展开,解决比大小问题, 那咱们今天呢,用泰勒展开解咱们二二年这道高考真题,这道题呢,如果我们用常规方法是需要很长时间来解,但是我们用泰勒展开啊,不到三十秒就把 这道题解出来了,很多同学对泰勒展开还是没懂,或者说从来没听过,那我们今天呢详细的看看,我已经把咱们泰勒展开简化成以下的几个式子啊,我们如果能把这几个式子背下来,那我们在高考上遇到这类比大小的题目,我们是能够快速的解 出来的。这几个式子啊,咱们都跟了几个小尾巴,就像刚刚这道题,我们如果说只顺到前面这个位置的话,会发现它是约等于三十二分之三十一,那 就是跟 a 一 样的大小了。但是我们后面还有一个小尾巴,那这个小尾巴呢?不管它是多大啊,那它加上这个小尾巴都肯定会大于三十二分之三十一的,所以说咱们这道题 b 就是 大于 c 的, 那这个小尾巴呢?我们一定要给他记住啊,我们都把它展开到这个位置,那我们的快乐展开才会更加精准。原式我们应该都见过,是好长好长的一串,我们现在呢只需要把这几个式子背下来, 这种题目就应该没什么问题啦。泰勒火眼金睛,他当时发现这个柿子的时候特别厉害啊,我们今天泰勒就盯在这里,谁不会谁就有问题。那你今天学会了吗?学会的话我们下期再见,拜。

今天我们想聊一个在统计学里面非常非常重要的一个定律啊,它的名字叫做中心极限定律,这个定律呢其实是描述了很多很多随机的现象,是怎么逐渐的呈现出一种规律,一种秩序,甚至是一种美感的。 没错没错,这个其实是让很多人,包括我自己在内啊,都觉得概率和统计特别有魅力的一个核心的结论。那我们就直接开始吧。我们先来说说为什么会需要中心极限定律。其实我们现实生活当中啊,很多时候你想要知道一个总体的均值, 但是你根本没有办法去把所有的数据都收集全,那这个时候怎么办呢?就比如说你想要知道全国成年人的平均身高,那你不可能去把每个人都量一遍吧?所以我们只能去抽一部分人,比如说我们抽一千个人, 然后去算这一千个人的平均身高,用这个样本的均值去估计总体的均值。哦,所以我们是用样本均值这个随机的变量去估计总体的均值,那这个估计到底准不准呢?对,这个就是中心极限定律要回答的,它会告诉我们说 样本均值这个随机变量它的分布是什么样的,然后我们就可以知道说用样本均值去估计总体均值的时候,误差大概是有多大,然后这个概率是怎么分布的?明白了, 那这个中心极限定律它背后到底是用了哪些关键的数学工具?然后这些期望和方差的性质,到底是怎么帮我们描述样本均值的呢?这个其实就是,呃,数学工具箱里面有两个东西特别重要,一个是期望的限性性,还有一个是独立变量和的方差。 期望的限性性就是说 e a x 加 b a x b, 然后独立变量和的方差是说 v r x v r y ok, 那 这两个东西合在一起,我们就可以推出样本均值的期望就是总体的均值,然后样本均值的方差呢,就是总体的方差除以 n。 ok, 这里特别有意思,就是当你的样本量 n 越来越大的时候,样本均值的期望是不变的,但是它的方差会越来越小, 也就说它的分布会越来越集中在总体均值的附近。了解了,那我们现在就可以进入中心极限定律最核心的内容了。嗯,这个定律到底是怎么来描述样本均值的分布的?其实中心极限定律就是说,如果你有 n 个独立同分布的随机变量 啊,不管它们原来是什么分布,只要它们的均值是 mu, 方差是 sigma 方,那么当 n 足够大的时候, 它们的样本均值 x 杠就会近似的服从正态分布。对,这个正态分布的均值就是 miu, 然后方差就是 sigma 方,除以 n。 所以 说,不管我原来的那个分布长什么样, 最后这个样本均值的分布都会变成一个正态分布吗?没错没错,而且它还可以写成这种标准化的形式,就是根号 n 乘以 x 杠减 miu, 再除以 sigma, 它是会一分布收敛到标准正态分布的。 就这个其实是中心极限定律最神奇的地方。嗯,这个定律看起来还挺抽象的,我们可以把它拆成几个部分来理解吗?当然可以啊,就是这个定律可以分成三层,第一层就是求和,就是你这个独立随机变量,求和是这个整个事情的基础。 ok, 然后第二层就是标准化, 标准化就是你要把这个求和的结果,呃,通过减去均值,再除以标准差的方式,把它变成一个没有单位的量,就是大家都可以比较的一个量。 那最后一步这个收敛是怎么一回事?最后一步就是当你的 n 足够大的时候,无论你原来的那个分布是什么样子的,嗯,它都会变成一个标准正态分布, 就它的形状就会无可避免的变成一个中型曲线。原来是这样,那有没有什么比较直观的方法可以让我们看到这个中心极限定律在起作用呢?有啊有啊,你可以想象有一个均匀分布, 就它是一个完全平坦的分布,然后你每次从这个分布里面抽两个样本,把它们加起来,多抽几次之后,你就会发现它们的核就会开始呈现出一个三角的形状。 哦,对,然后如果你抽三十个呢,抽三十个再求和,你就会发现这个核的分布就几乎就是一个正态分布了。哇哦,那这个真的还挺神奇的,就无论我最开始是什么分布, 最后都会变成一个正态分布。对,没错,这个就是中心极限定律的一个非常神奇的地方,就它这个正态的这个形状,就像一个引力中心一样,把无论什么样的原始分布,最后都拉成一个正态分布。嗯,而且这个收敛的速度其实是非常快的。 哎,那为什么这个正态分布在自然界和我们的现实生活当中会这么常见呢?其实这个背后是有一个商最大化的原理在里面的,就是在给定均值和方差的所有分布当中,正态分布的商是最大的。 所以说正态分布它是代表了一种最无序、最随机的状态吗?对,可以这么理解,就是正态分布它包含的信息量是最少的,它除了均值和方差之外,没有任何其他的偏好。所以这也是为什么很多自然的过程测量的误差都会天然的符合正态分布, 因为大自然其实最喜欢这种没有任何偏见的最混乱的状态。了解了,那我们下面要讲的这个东西呢,是中心极限定律的一个证明。这个证明呢是一个比较技术性的话题,就是特征函数在这个证明里面到底扮演了一个什么样的角色?特征函数其实就像是一个概率分布的指纹, 就是每一个分布都有一个唯一的特征函数。嗯,然后如果两个随机变量它们的特征函数是一样的,那么它们的分布也一定是一样的。所以我们可以通过证明两个随机变量的特征函数相等,来间接的证明它们的分布是相同的。原来是这样, 那我们在证明中心极限定律的时候,我们是怎么一步一步地去构造这个标准化活的特征函数呢?呃,这个过程其实有三个关键的步骤。嗯,第一步呢,我们先构造一个标准化和 z、 n, 就是 把我们原来的那些随机变量 减掉它们的均值,然后再除以它们的标准差乘以根号 n, 这样就得到了一个新的变量 z n。 第二步呢,我们再令 y i 等于 x high 减 mu 除以 sigma, 那 这样的话我们就会有 y i 的 期望是零,然后方差是一。 最后第三步,我们就可以把 z n 的 特征函数写成 y 的 特征函数的 n 次方。就这一步,其实是 把求和变成了求乘积,后面的证明就会简单很多。那最后一步呢?这个泰勒展开到底在这个中心极限定里的证明的最后一步起到了什么样的决定性的作用?就是我们先把 y 的 特征函数在零这个点做泰勒展开, 然后我们把展开式里面的 s 替换成 t 除以根号 n, 这样我们就可以得到 z n 的 特征函数的一个近似。嗯,然后我们再让 n 趋于无穷大, 这个时候你就会发现, z n 的 特征函数的极限就是 e 的 负替方除以二,而这个东西正好就是标准正态分布的特征函数。好,那我们接下来要聊的是中心极限定律的四大变体。对,就是这四个 不同的版本到底是在什么样的条件下使用,然后它们各自都有什么样的特点?第一个呢,就是林德伯格勒维定律,它其实就是最经典的那个中心极限定律,它要求样本是独立同分布的,然后方差是有限的。 第二个呢,是里亚普诺夫定律,它的条件稍微宽一点,它只需要满足一个矩的条件,就是 e x 的 绝对值的二加 delta 方是有限的,这个条件其实要比林德伯格的那个条件要容易验证一些。 第三个呢,是林德伯格费勒定律,它是处理独立但是不同分布的情况,它里面有一个林德伯格条件,这个条件其实是用来控制每一个随机变量,对总和的贡献不能太大。 最后一个呢是多元中心极限定律,它其实就是把这个结论推广到了向量的情形,就是它说的是样本均值,向量会一分布收敛到一个多元正态分布。我们了解了中心极限定律的四大变体, 那它到底在现实生活当中有哪些用呢?它有四大应用嘛?第一个是在统计推断里面,我们可以用它来构造总体均值的执行区间。第二个是在假设检验里面,我们可以用它来构造 z 统计量,然后去检验我们的这个原假设是否成立。 第三个是在质量控制里面,我们可以用它来设定控制图的上下线,然后监控我们的这个生产过程是不是稳定的。最后一个是在金融风险里面,我们可以用它来假设我们的投资组合的收益是正态分布的,然后我们可以去计算再险价值。 v i r 听起来很厉害的样子,那我们具体来看一个例子, 就是比如说我们现在有一个工厂,这个工厂它生产的零件的重量是一个我们不知道的分布,但是我们知道它的标准差是五克,然后我们抽了一百个样本,得到的样本均值是五十二克, 那我们怎么去求这个工厂生产的所有零件的真实的平均重量的百分之九十五的致信区间? ok, 那 我们直接用中心极限定就可以了,因为我们这个样本量是一百是足够大的,所以我们可以认为这个样本均值是近似的,服从正态分布的。 然后我们就可以直接代入这个致信区间的公式。嗯哼,它就是等于样本均值加上或者减去 z 分 数乘以标准误差。也就说我们要先查这个 z 分 数表,找到那个对应的临界值,对吗?因为我们这里是百分之九十五的置信区间,所以我们要找的是 z 零点零二五, 它是等于一点九六的。然后我们的标准误差就是标准差除以根号 n, 也就是五除以根号一百等于零点五,所以我们这个致性区间就是五十二加减一点九六乘以零点五,计算出来就是五十一点零二到五十二点九八克。哦,我明白了, 那接下来我们要讲的是这个大数定律和中心极限定律的区别,嗯,对吧?这两个东西都在讲样本均值的收敛性, 但是它们的侧重点和它们的应用场景到底有什么不一样?其实它们的差别还是很明显的,就是大数定律,它说的是样本均值会依概率收敛到总体均值,它强调的是一个典故记的一致性。 嗯,那中心极限定律呢?他说的是样本均值的分布是如何围绕着总体均值分布的,他是可以用来构造知性区间和进行假设检验的。明白了,那中心极限定律在统计推断里面到底扮演了一个什么样的角色,他是怎么把概率论和统计学联系在一起的? 可以说它是整个统计推断的一个桥梁,因为它告诉我们,不管总体是什么分布,我们的样本均值都会是一个正态分布,或者说会越来越接近正态分布,那这样的话,即使我们对总体一无所知, 我们也可以通过样本来对总体进行推断。嗯,比如说我们可以估计参数的范围,我们也可以检验一些关于总体的假设, 那这些都是统计推断里面非常核心的内容。原来是这样啊,那在使用中心极限定律的时候,大家经常会犯的错误有哪些?最常见的就是一看到有一堆随机变量,就直接用正态去径四, 但是其实你是要满足样本量足够大,然后方差是有限的,嗯,那如果说你的这个 原始的分布是很偏的,那你可能需要更大的样本量才行, ok, 然后还有一个就是很多人会把样本的分布和样本均值的分布搞混,就是中心极限定律说的是样本均值是会趋近于正态的,而不是说你的原始样本。 还有就是当你的样本量很小的时候,你是要用到 t 分 布的,而不是直接用正态分布。那就是说中心极限定律它也不是万能的嘛,对,它也有一些 使用的边界,那他的边界到底在哪里?他的前提是很明确的。嗯,就第一个是你的变量之间必须是独立的,或者说弱相关的, 然后第二个是他们的方差必须是有限的。 ok, 那 如果说你的这个变量之间是强相关的,或者说你的这个分布本身是没有有限方差的,比如说科西分布, 那这个时候中心极限定律就是不成立的。还有就是如果你的样本量很小,然后你的这个原始分布又很偏,那这个时候你用正态去近似也是不靠谱的。我还有一个问题啊,就是中心极限定律它的这个知识结构,它到底有哪几个 核心的前提条件?然后它的核心结论到底是在讲什么东西?它的前提条件就两个,嗯,第一个是你的这个样本必须是独立同分布的。 第二个是它的方差必须是有限的,那它的核心结论有三个,嗯,第一个是不管你原始的分布是什么,你这个独立随机变量的和它都会收敛到正态分布。 第二个是如果你把它标准化之后,它就会变成一个标准正态分布。第三个是它的这个方差会缩小成原来的 n 分 之一。哦,那就是说中心极点定律它的本质是在解释一种 随机现象背后的一种秩序吗?没错没错,就是你不管这个世界有多么的不确定。嗯,你只要把很多很多独立的随机因素叠加起来,它最终都会呈现出一种稳定的,而且是可以预测的正态分布的这样的一个形态, 所以它才会成为整个统计学的一个灵魂。好的,我们今天聊了中心极限定律,它的严格的数学表达,它的证明, 然后它的应用以及它的一些注意事项,最后我们还强调了一下它在整个统计学里面的独特的地位。 ok, 那 我们这期节目就到这里了,然后感谢大家的收听,咱们下次再见,拜拜。拜拜。