number one 统计学的概念日常生活中,我们经常接触到各种统计数据,而理解并且掌握统计学知识对我们来说是有必要的。那到底什么是统计学呢? 统计学是收集、处理、分析、解释数据,并从数据中得出结论的科学。一句话来说,统计学就是让乱七八糟的数据变成你能拍板决策和得出结论的一种科学的方法。你可以把统计想成一位大厨在做菜, 买菜的过程,就是在收集数据的过程,把混乱的数据加以整理, 接着把处理好的菜放到锅里翻炒的过程,就是数据分析的过程。通过各种公式以及图表展示,让数据开口说话,而把炒好的菜装到盘子中,然后尝味道点评的过程,就是解释数据的过程,也就是解释数据结果, 最后把菜吃完以后,整体点评的结果就是得出结论的过程。 在统计学中,数据分析所采用的方法可以分为描述性统计方法和推断性统计方法。 其中描述统计主要研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。 比如说用平均数、最小值、最大值、柱状图、散点图等方式,最直观、最简洁的结果展现出来,让你一眼就能看出数据长啥样。 而推断统计则研究如何利用样本数据来推断总体特征的统计方法。比如想要知道整个城市所有人的身高,你也不可能把每个人都拉去测量,只能随机抽几百个人测量一下,然后推测整个城市所有人的身高。 又比如说你想知道某个工厂所有灯泡耐不耐用,你总不能全部点亮去测试,你只能抽取几个去做破坏测试。一句话来说,推断统计就是样本,去猜总体,并且告诉你猜的准不准,错误率大不大。 number two 统计的应用领域统计方法适用于所有学科领域,只要有数据的地方就会用到统计方法,比如政府部门、学术研究、日常生活、公司或者企业生产管理等等都要用到统计。 而统计在工商管理中的主要应用有,企业的发展战略定位、产品的质量管理、市场调查与研究、财务数据的分析、整体市场经济的预测以及人力资源的管理等六个方面。
粉丝330获赞2590



![超几何分布!贾俊平《统计学》第8版 第五章《概率与概率分布》 本期带你系统掌握 —— 超几何分布 Hypergeometric Distribution
全片分为 三个部分:
① 从二项分布到超几何分布
放回 vs 不放回:抽样方式改变了分布
超几何分布的定义
概率质量函数 PMF
期望与方差的基本公式
② 期望与方差的推导(重点讲解)
利用组合恒等式、使用范德蒙恒等式完整展示期望 E[X] 与方差 Var[X] 的推导过程
③ 名称来源:为什么超几何分布叫“超几何”分布?
“超几何”一词的真正含义
下期预告:泊松分布 Poisson Distribution
喜欢就点个赞吧,让我们一起学习统计学!
#统计学 #概率论 #考研 #超几何分布 #用odd风记录生活](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/44a6760fc862f0bd9499627f671594ef~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2092939200&x-signature=5jFfJF2fxqMtjVMGhqV3%2BIZudd4%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=202605010431531C30BEF7C81D4EF8D160)

![贾俊平《统计学》第8版 第五章《概率与概率分布》下期望与方差 视频简介
在前面的视频里,我们已经学习了如何用分布列、概率质量函数、概率密度函数和概率分布函数来描述随机变量的分布规律。本期视频,我们将进入第五章的重要部分——随机变量的数字特征:期望与方差,使用概括性度量来简要刻画随机变量的特征。
主要内容
一、期望(数学期望)
1.离散型与连续型随机变量的定义公式
2.期望为什么叫“期望”?——帕斯卡与费马的分赌本故事
二、方差
1.方差的定义与公式推导
2.方差存在的条件(E[X²]有限)
3.方差的运算法则:
I.常数的方差=0
II.线性变换的方差
II.两个随机变量和的方差
三、预告
在下期视频中,将对常见的分布(如二项分布、泊松分布、正态分布等)进行逐个介绍。
描述一个随机变量的分布 = 分布列(概率质量函数)/密度函数/概率分布函数 + 数字特征(期望与方差)
#统计学 #概率论与数理统计 #贾俊平统计学 #统计 #开学基础开学的vlog就不基础](https://p3-pc-sign.douyinpic.com/tos-cn-p-0015/oMfhgvmGko0jQgEfm9yFtAIDB30yzQ9cliDARA~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2092939200&x-signature=NtvLPDcxtQfsxKTHk%2FX7g75pHAI%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=202605010431531C30BEF7C81D4EF8D160)

大家好,我是老 k, 那 今天晚上我们一起学习统计学第八版第五章概率与概率分布。那在学习之前有个小问题跟大家探讨一下,最近大家都在讲龙虾,那 既然 ai 可以 帮助我们做所有的事情,那为什么我们还要学习这些基础的理论知识,那 ai 可以 帮我们直接把分析报告全部生成出来了, 那但是这里面有问题,大家不知道有没有想过, ai 它是只负责生成内容,它的优势是在于是说生成内容它是提升效率,但是生成的内容的话能不能用,是不是适合你的需求,还是需要人来做判断的, 那最后这些所有生成的内容都需要人来判断。这里面有个问题说大家注意一下,不是说 ai 时代已经这么聪明了,我们就不需要学习理论知识,我们还是仍然要继续夯实自己的理论知识,要提升认知。我认为这个才是 人在 ai 时代,在这么多变的时代下非常宝贵的资源。所以说我认为大家还虽然说有这么多先进 ai 的 工具,还是应该要继续去 提升自己的认知,那提升自己的认知之后,你反过来就说你才能够去做更好的判断,这样我们才能够真正做到人去主导 ai, 那 不是 ai 来去主导人。那我们在选择任何工具之前,首先一定要想清楚 why 为什么我要用这个 ai 的 工具,用这 ai 的 工具到底能为解决什么问题?那其次才是说 我选择 open core, 还是说选择这个其他的工具也可以解决我的问题。如果说你只是说做个 ppt, 做一个文稿的处理,那我认为可能你选择豆包就可以了,没必要说要 消耗这么多 token 去花,去花钱,去额外再去装个 open core, 那 我认为这个东西还是要依据个人的需求而已。所以说虽然说 ai 这工具这么先进的,但是我认为我们仍然要继续去提升我们的最底层基础理论的认知,提升我们自己的认知的水平,这样在 ai 时代才能做一个很好的判断。 好,那我们书乖言归正传,那收回第五章,这个概率与概率分布,那我们为什么要学习这个概率?那在前面的章节我们已经学习的概括性的一些度量,比如说数据的 集中趋势、逆向趋势的判断,那先前说的内容就一到四张的内容,先前的内容我们是基于历史的数据去做分析,不管说是去做集中趋势的分析,还是说理散的波动的分析,那现在是基于 历史的已有的数据,那现在假设说我们想基于已有的已知去预测这个 未来会发生什么,那这里面就有个很重要的,今天要学习内容就非常重要。那这里面就说第四件,今天晚上要讲的内容就是一个桥梁,那你呃概率,知道什么是概率的分布之后呢?我们才能够很好的通过已知的素积,我们去 灰色位置,那这个是为什么?我们要学习概率分布,那我们使用的教材是用的统计学贾静平老师的第八版,那下来大家如果想看书就找这本书就可以了。 好,我们来先看一下这个知识框架,那这讲的内容大致有三个关键点,第一个就是说,呃随机事件以及一些概率,那这里主要是给大家讲清楚的试验以及事件的一些基本的概念,以及事件的分类。随机事件、变事件, 也不可能事件,包括基本事件的定义以及样本空间的定义,那在事件的概率这里会给大家讲一下 古典的概率的定义,以及现在的统计学的概率的定义,包括主观概率的定义。那在五点二这个章节会给大家介绍量以及离散性变量的分布,包括典型的零一分布,二项分布以及波动分布。 那在第三讲的话会给大家讲解连续性随机变量的概率分布,那比如说像正态分布以及标准正态分布,它的性质以及计算。 那在最后的这一章节,在五点四章节会给大家介绍一下这个结合我们 cda 的 考题,我会给大家做一个介绍,这里我们会看一下 cda 的 这个考题, 那这张 cda 它到底会出现什么样的考题,那后面再给大家做补充。好,那我们先看一下,今天晚上我们会把五点一全部全部结束掉, 这里就这里,那这一片我们今天晚上讲解的这个重点,那我们先看一下,那其实在随机事件以及概率这个部分,大家核心掌握两个关键点就可以了,一个是随机事件他的定义以及分类, 那第二个说四件的概率的分类,五点统计以及主观概念,主观概率的定义。好,我们先看一下飞机式四件他的一个概念,那这里面有两个关键概念需要大家这个搞清楚,第一个是这个 试验,第二个是这个世界,那我们先看看试验。所谓试验是指任何一次观察、测量或者是实验,他其实讲解的他是产生结果的一个过程。比如说我们抛硬币 向上抛一枚硬币,那我们其实就相当说是做了一次试验,而这个四件他是试验的结果。比如说我们抛了一次硬币,结果这个正面朝上,那正面朝上其实他就是一个典型的一个四件。那抛硬币大家都知道有两种情况, 要么正面朝上,要么反面朝上,那其实在抛硬币这个试验中就会产生两个基本的四件,把正面朝上或者是说反面朝上, 那比如说这个这一枚骰子,那一样的骰子我们大家都知道它是有六个点数,一点、两点、三点、四点、五点、六点,那在这个里面我们这一枚骰子它这个动作本身它就是一个试验, 那这个试验就会有,我们就可以定义出很多事件,比如说好,我们现在定偶偶数 武术点、武术点,他可能的四件就会有。比如说举个例子,我们抛了一次崽子,比如二点、四点、六点,那他就可能有三种情况,那激素点,比如说一点、三点、五点 啊,那这个就是四件。那比如说我们也可以定义他出现一点的这个四件,那这个是试验以及这个四件他的一个基础概念的一个定义。 核心逻辑这里边就试验他是过程,比如说刚才说的抛色子也好还是抛硬币也好,那四件他是结果那一个事业,他其实有可能多个四件,比如刚才讲的这个抛硬币,他有可能是两个四件,对不对?比如说我们这个正面像 或者是说反面上,他说一个试验可以产生多个可能的这个事件。好,那我们再看一下这个事件的分类。那事件刚才我们讲了事件他是一次试验的结果,那这里面他就可能有必然事件在特定条件下一定会发生。比如说 抛骰子点数在一点一点到六点之间,那他这个就是必然会发生的。那你的骰子因为他只有这六个面,那你不可能说出现七点,所以说你这个必然事件对立的事件,说这个不可能事件,比如说你抛个骰子,他就不可能出现七点,这个是也不可能发生的。 那第四点就在相同条件下反正发生也可能不发生的。比如说抛硬币正面 你其实是不知道,因为他是随机的,你,你每一次跑,他有可能是正面,有可能是反面,所以说这个事件他就是随机发生的,他不是说是固定的,那至少他也是这样的。 你不跟他说每次都是一点,即便说你前三次是一点,那你敢保证你第四次就一定是一点吗?我觉得这个也不能保证,所以说这种类型他就是属于 随机事件。那总结一下,必然事件和不可能事件它是确定性的,而这个随机事件它既有一定的不确定性,但是也可能遵循一定的规律。比如说你掏硬币, 你抛一千次或者是抛几千次之后,他正反的概率应该基本上是经典的,都是百分之五十左右。那我们再看一下事件这块的最后一组概念,基本事件以及这个样本空间,那我们先看一下这个基本事件,那是他讲基试验中 不能再拆分的最简单的结果,那这个话就是基本事件他是构成复杂事件的基本的单言。比如说刚才我们讲的掏一枚硬币,他这个正面或者说是反面,正面朝上或者反面朝下,他其实已经不能再拆分了。 那但是这里比如说我们刚才讲的这个,你只一枚骰子,那偶数点,偶数点之间,他其实他可以再再拆的。比如偶数点他有可能是二,有可能是这个二,有可能是四,有可能是六,他这个就是可以再拆分的。 那样本空间就是试验中所有可能的基本事件的集合,通常的话是用 s 来这个表示,那他是随机试验仪器的结果。 比如说举个例子啊,样本空间刚才讲的和硬币的例子,那正面已经不能再拆了,反面也不能拆,同样的道理,那我们这个掷色子对不对?一点两点,那你不能再往下拆了,它不像刚才我们讲的偶数点,那偶数点出现的这种事件,它就是可拆的,它有可能是偶数点二 出现,偶数点四出现,偶数点六出现,它就是可拆的。那样本空间它其实就是基本四线的一个集合, 那任何一个随机事件,它其实它都是样本空间的一个子集。那刚才我们讲的这个,比如说抛硬币正面朝上或者说反面朝上,它其实它都是属于我们这个集合的一个子集。那我们接着看一下这个事件的概率,那概率其实它就是对随机事件 发生的可能性的度量,大小的度量,那这样说我们就将一个不确定性转化成那个可度量的一个数字。比如说刚才讲抛硬币,我们这个正面朝上,它的概率到底是多少,对不对? 把它的概率正面朝下打个比方,如果说你这个字念为 x, 那 我们 这个正面朝上的概率等于多少?其实我们就看的可能性,那刚才讲可能我们大概有百分之五十左右,其实这个核心解决个什么问题,就是说如何科学的、 客观的去确定一个随机事件发生的概率,那这个其实就是我们这个概率研究的核心的一体。 那在日常生活中,我们经常跟他说这个事情,明天会下雨,大概百分之八十,那这个八其实就是我们一种 主观,主观的一种表达方,主观概率的一个表达方式了啊。概率的定义在统计学上有三种,那我们先看一下这个最基础的古典定义,那这里它的适用条件主要是有两个点。大家注意一下,对于古典概率来讲,它结果是有限的, 这是第一点。第二点机会精准。比如说刚才我们说的抛一枚硬币,那你抛的次数多了之后,正面、其实反面他这个机会他都是百分之五十,因为他只有两种结果,要么正面朝上,要么反面朝上,所以他的这个机会就精准。而且你举个例子,比如说我们这个地方是抛二十次, 他这个结果他是有限的,他要么正面朝上,要么这个反面朝,而且他概率均等。那我们 这一枚骰子,比如说偶数点,那你想想,那这一枚骰子他有六个面,对不对?要么就是一三五,要么就二四六,那你偶数点,你看这个是我们的这个激素点,这三个情况是我们这个偶数点, 那这个地方所有出现二点、四点、六点其实都会归他,有三种情况都会归做我们这个偶数点, 那其实他的概率就是百分之五十,他的机会就是中等的,而且结果是有限的,你要么要么就出现偶数,要么就是出现奇数。所以说像这里的抛硬币以及掷骰子,他都是比较典型的五点钙性,那他在计算他的概率的时候,我们就有四面包含的结果数,除上总的结果数, 比如说正面朝上,总的结果就是两种情况,对不对?所以说他就是二分之五十 啊。这里古典歌曲大家注意一下,他这里就是说有限以及等可能他的结果是有限的,比如说抛硬币,结果就是啊两个情况两种,要么正面朝上,要么反面朝下, 那这个地方掷骰子如果说是偶数点,他也是要么就是偶数,要么奇数。如果说假设说是基本事件啊,一到六,他的结果是要么出现一点,要么出现二点,要么出现三点,一直或者是六点, 而且每一个点数他出现的概率其实他都是六分之一,这种这两个条件他是缺一不可的,两个都是必须要有的, 只有这两个条件同时符合的时候,他才满足古典概性的这个定义。好,我们再看一下这个统计学的定义,那统计学的定义他指的就是说 在不满足等可能的情况之下,那我们通过大量重复的实验来推断概率,但是怎么推断?就是说在相同的条件之下进行的 n 次实验, 那事件 a 发生的概率会趋于稳定啊,这个稳定的概率,稳定的这个概率或者稳定的频率,它其实就是我们的统计学意向的统计学意向的概率。 那刚才我们讲其实还正用抛硬币来举个例子,那历史上曾有多位同学正进行了成千上万次的抛硬币的实验,结果表明随着实验次数的增加,正面朝向的概率会接近零点五左右。零点五, 所以说这里的话就是说那我们这个零点五的话,他其实呢他就是一个多次,比如说你抛了抛了这个一千次之后,大概得出来可能就是有四百九十九次,他是朝上的,这个是零点五,那这个是比如说这个 举个例子,张三李四一样,他抛了两千次,好像他算的概率也是百分之五十左右, 那比如说还有其他人等等等等。很多人的话其实做了很多次实验,那最后出来的这个结果呢,基本都是在零点五左右。所以说呢,我们最后的话就用这个零点五的话,作为我们这个抛硬币的这个, 这个这个他的一个统计学意向的一个概率啊,这个就是统计意向的这个概率的定义。那当实验这个他其实这里的话,核心的话其实就是用这个频率估计概率。你看这里不管我们是说抛了一千次 啊,四百九十九次,还是说这里的这个抛了两千次、一千次他正面朝上,那这里的这个四百九十九,还有这里的四千次,其实 他都是这个这个正面朝上出现的这个平力,这里呢其实是用这个平力的这个稳定值,稳定值大概近似 去做他的这个概率的这个估计。大家就说在这里的核心点的话,而且呢其实呢就是多次试验的这个频率的这个稳定值去估计概率,当试验次数足够大的时候,他的这个频率他就会收敛,收敛概率,比如说我们刚才讲的抛硬币 大致呢就会收敛到百分之五十左右,那这个就为我们解决了非等可能这个事件 在概率提供一种重要的这个统计的方法。那这里在统计学定义界和大家注意一下,他其实呢就是用频率多次试验频率的稳定值啊,稳定值的话去作为他概率的一个估计值。我们再看一下这个主观概率, 那其实在我们生活中的话,还有很多这个场景的话是没办法,他既不符合这个等可能概念,也没办法就是说去通过一个数学的这个数字来进行统计。比如说像这个一场这个足球比赛,因为他受到这个 球员的这些心理状态、天气等等,球场的环境等等很多因素的影响。其实你没办法的话做一个精确的这个计算,那这个地方的话,我们只能是说根据 自己的一些主观,主观的一个主观这个经验呢做一个判断。比如说假设现在买了一个这个主彩,对不对?是吧? 现在要来这个买彩票,你现在只能说根据自己的这个经验来做判断了,那这里面的话就是说 啊,那像这种情况的话,就只能说根据自己的知识经验来做判断,对特定事件或者估计,比如说他这场比赛这个巴西队他有可能会赢,或者说是西班牙他有可能会赢。你自己的话做一个主观的这个判断,因为刚才我们讲的一场主主席比赛的这个这个胜 像很多场景,比如说像投资的场景,因为这个股票市场的话,其实也是很难精准预测的,他也受很多因素的影响 啊。这个地方呢,在这里的话就是很多这个,你说你这个投资人的话,这个他的经验的话就起到很关键的作用。所以说做数据分析的话,就是说量化的话,永远的话,他是只是说我们做决策的参考依据之一。 那你的这个主观的这个经验的话,其实也是非常有价值,应该是最后的数据的决策的话,应该是主观的经验,加上这些量化的这些分析,一起共同起分我们最后的这个决策, 是吧?因为最后的这个决策的话,其实是受很多因素的影响的,我们不能说以偏概全,对吧?那你有了这个数据之后,就个人的经验就不值钱了,其实不是这样,但数据分析这个领域的话,其实你对于这个行业经验的这个判断积累的话 是非常关键。就好像刚才与大家讨论的那个一样,在 ai 时代的话, ai 的 跟工具的话,这个分工不同的话,那在这个时候呢,不变的其实就是我们对于这个行业的这个知识的积累,那这些的话 它会拓展以及拓展我们对思路的判断。那 ai 这个时候你有了这个积累之后的话, ai 给你东西的话,你才能做一个很好的判断,到底是可用还是不可用,这个的话越来越会成为大家的一些这个稀缺的一个能力。好,我们看两道题, 呃,这道题的话,呃职工人数表如下,那他有三个公司,呃,电脑公司、手机公司。半道题,那他分的男职工、女职工, 那他这个时候呢?他是要想算这个啊,男男性的概率,那这个时候的话,我们看一下 结果有限,你看他这个人数,公司的人数的话,就说他其实是是固定的,对不对?是不是?对吧?那这么多人,你,你去,你去挑男职工,他其实结果的话,他是他是可数的,对吧?首先结果呢,他是有限的,而且的话, 你每一个每一个职工,你挑出来是男性的话,他也是这个概率的话,他是精的,他要么男的,要么是女,对不对?是不是?所以他这个也是很可能,很可能,所以说这里的话,他就满足了我们这个古典概型的这个意义。那这个时候的话, 那假设另一个四点为 a, 那 我们就是说男性,他这个男性职工他一共多少人,他就会有这个八千五百种这个情况,所以这里的话就是用 男性出现的这个基本四件的这个概率的这个合计除上总的这个基本四件数,对吧?这里就是一二五零零,那除出来之后的话,最后就是男性职工的一个这个概率,我们看一下, 那最后呢,就是男性总数出现这个总人数,因为他完全满足我们这个古典概性。我们再看一下第二题,该职工为手机公司的这个概率,那这道题其实也是这样的, 那这道题的话就是说他其实也是满足古典概型的,那这里面的话就是说我们看一下手机公司,手机公司, 呃,手机公司,他这里说手机公司的员工,那手机公司的员工话其实就是四千八,那假设说这里的概率事件,我们把它定义成 b, 对 吧?这里的话手机公司就应该手机公司的人数四千八, 不像总的这个,总的这个样本空间,对吧?那就是幺二五,这个就是最总的这个概率值,这个呢,他也是满足这个古典钙型的,因此最后算出来就是零点三八四 啊。那古典概型的计算的核心呢?就是确定样本空间的总数以及符合数,两者相辅结合。但是我觉得这里的话最关键的就是说你这个场景这两个问题,对吧?那是不是, 是到底是符合哪一种,哪一种?这个概率的情况?是是是,是古典概型呢?还是说是统计还是什么,对吧? 首先要做这个判的,做完判了之后的话,再算的话就比较简单。再看一下五点二,某工厂规定日用电量的指标为一万度,上夜三十天中有十四天电量超标,若 未采取节电措施,那未采取节电措施,那就是意味着就是说他情况就是一夜以及二夜的话,他是在相同条件之下 去做的实验。一个是相同条件,相同条件他会采取节电措施吗?对不对?那求该业 一天用电超标的这个概率,该业就是求二业。那我们首先判断一下,看一下,就是说第一个步骤一,就说 我们这个情况是否适用古典盖型,古典盖型到底适不适用古典盖型有两个条件,一个是就是说结果有限,加上很可能结果有限,他确实有限,因为我们是三十天吗? 他确实是有限,但是很可能这条明显是不符合。因为的话他每一天的话,你看有三十天中有十四天用电超标,那他没有说每一天的话, 这个概率,你说一到这个十四,他每一天的概率他没说一不一样,对吧?那这里的话没法判断,比如说这个概率每天这个十四天超标了,对吧?你超标多少? 超标一百度还是两百度,对不对?他这个超标的话,其实呢他这个值的话就是他就不是很可能的了。在这里的话就说他是不能 不能够去利用这个古典概念。因为你这十四天里面的话就说到底是哪一天,比如说一号啊,到这个二号、三号,对不对?一直到到时候那每一天的话,这个概率现在没办法判断对不对。 一一 p 二,一直到 p 三十,它等吗?现在不知道这个地方你不能用古典概型,那如果不能用古典概型的话,我们只能用统计,只能用统计定义,对吧?那统计定义怎么算?那统计定义的话很简单,我们讲我们是用这个频率 去近似的概率,那一夜是十四天,有三十天,那它其实它的频率就是三十分之十四,三十分之十四, 那所以说这里的话,因为他二月份他也未采取节点措施,那理论上来讲的话,他的这个概率和他就是一样的,所以说这个题的话,嗯,他就是用这个,用这个他就是适用于这个统计定义的。那我们直接就是用一夜的概率的话,直接就是进, 所以说这个这个概率的话,他其实也就是二夜的这个一天的概率,两个是一样的。因为你看他这里面的解析其实 也给大家这个说了,这里的解析其实也给大家也讲过了,那我们每天用电量的话不等,所以说这里面呢,他不能用古典概性,因为只能用这个统计方法来定义,因此呢就是说 直接就是二月第一天,其实就是一夜的概率,那最后就用十四除以三十就好了。好,那今天晚上的分享就到这里。呃,如果大家有什么疑问的话,欢迎大家评论区一起来探讨。

这本书把统计学中各种抽象的概念讲清楚了,比如什么是统计学,作者用形象的插图罗列的大量日常生活中的案例,比如考试成绩的分布、数一的爆发,以及人口统计中的参数推断。除了上述内容,作者还对一些基本的概念做了详细的讲解, 比如什么是平均数,什么是方差。除了给出形象的解释,作者也列出了精确的计算公式,既形象生动又不失严谨。全书细致梳理了统计学中常用的概念与计算方法,帮助读者更好地理解统计学。这门课程强烈推荐给大家!

好,最后呢给他稍微做一个总结吧,就是前四张的话呢,他是那个,嗯, 类似于就是一个统计学的入门吧,就是先告诉你什么是统计学, 然后的话呢,第二章告诉你数据怎么拿到,第三章呢,就相当于告诉你你拿到数据以后呢,这个你给数据呢,要做个表嘛?就比如你可以报送给领导的,你不能说你搜一堆原始数据就报给领导了,那不是找骂吗?是吧? 你就是要做表做图,然后的话,第三就告诉你对于品质数据怎么做表,怎么做图,对于数值数据呢,怎么做表怎么做图,然后三点四就告诉你怎么合理的这个使用图表,这个这个意思。然后第四张的话呢,你要从一堆数据里面抽 取一些特征,这个其实就相当于是叫做数据特征的抽取,那你你这个原始数据呢?毕竟看的太多了嘛。那么 这个第四章相当于告诉你,比如说那个平均数啊,标准平均数啊,中位数啊,重数啊,然后标准叉、方叉、吉叉那个离散系数啊,他们这几个东西有什么用?什么情况下呢?应该用这什么特征之类的这些东西啊?这个是第四章的内容啊, 然后的话呢,更多的考简答的地方呢,二三二三张是容易考简答的,第四张的话呢,有考计算简答也比就二三四张吧,二三四张就是考简答非常多啊,那么后面的话呢,其实就是相当于要侧重一些计算一点啊,这个门槛肯定就稍微高一些了。 就反正第五章的话呢,就是他是那个要基于呃这个叫呃和数学单的内容是 是完全重合的,然后的话呢,你就那个讲,嗯,就是结合数学单的东西来进来进行一个理解就好了啊,如果你嗯不想看,就是你怕学重合了吗?觉得浪费时间。好,那你就学个政才分布就继续往后推进进度就可以了。 然后呢,后面呢,就是那个包括第六章是过度章节吗?然后七八呀,然后的十十一呢,这四个章节是考的非常多的非常重要的,然后的话呢,你其实就是相当于是需要多花精力把这面公式的推倒,一定要弄清楚,记住啊,一定要弄清楚推倒啊,千万不要硬气公式啊。 那整本书你要是连这四张都是印记的话,整本书就是印记的,没啥意思啊,而且你就真的就稍微变一下就不会错了啊,就是我所有说我所说的这四张呢,一定要把公式推倒都推一推,多推一推是吧,你毕竟考的还是个数学 相关的一些专业问题,就总不可能说什么东西都靠背的,那这个学的就没意思了啊,你这个尤其这四张都要多推一推,当你这四张公式都会推的时候呢,那出大题全是送问题。 这个贾新军这本书呢,你如果学到后期的话呢?其实嗯,这个卷子拿的分数呢?其实你如果学的好的话,可能大家都拿的都差不多,就是大多数学校的卷子呢,你考个一百三十多分的一百三十左右还是很好考的,但是在网上的话就比较难了,因为他有些简答题呢 啊,就是你不可能说能够答的这么细嘛。就是,毕竟可能还是会有一些简单易漏的嘛。这个东西你就想考到一百四十分还是比较难的。因为简单题呢,你也可能就要点记得不全,因为工作量学会太大了,有前面的知识点有点太碎了 啊。然后另一个的话呢,他有些简答题呢,他其实并不是那种呃,完全的书上的知识点的复刻啊,看他可能 会设计一些开放性比较强的东西,然后这个时候就看月见尺度了,可能比较严的话你就难比较难拿高分了。好,然后这一课就讲到这吧。

各位同学,大家好啊,我是说我计划坤学长,今天我们将进行统计学第七章参数古迹部分的内容。我们首先呢来看一下我们的一个思维导图, 参数估计部分的话,我们大概讲的内容呢分为这四大块。首先是一些基础的概念的介绍啊,比如说啊,这个,这个都是一对的,一对一对的概念就是估计量和估计值啊,点估计和区间估计 那,呃,这个时候呢,就是说因为涉及到我们可能啊这个点估计,他对应到的有很多种不同的一些方法,那也就意味着 我们对于一个总体的未知参数的一个估计啊,他有非常多的一些统计量,有不同的统计量都可以去估计他,这时候我们就要看到底哪个更好,所以我们有了这个评价估计量的标准啊,有无偏有效一致。所以大家这个 看课本上,哎,有这个章节,你要明白他为什么要有这个章节,对不对?你要先有一个,有一个知识体系的一个框架在里面,不然的话你这个复习起来最后发现,哎,这是一块内容,那是一块内容,你这个 就会一头乱麻,抓不住这个整个的一个一个一条一条轴,是吧?一个框架, 呃,第二块呢就是我们,嗯,了解了这些基础概念之后,好,那我们实际的去进行这个一个总体的和两个总体的,他这个参数的区间估计。这一块呢重点内容是什么?就是不同的这个场景下, 以及不同的条件下应该使用什么统计量啊?什么叫场景场景就是对总体君子的估计啊,还是比例啊?还是方差呀? 这个意思不同条件又是什么意思呢?你看,所以这个不同情况我觉得可以是这样的,应该是叫不同场景加不同条件, 不同的条件的意思就是这种,哎呀,是大人们还是小人们啊?总体方差是已知还是未知呀?哎,这些他对应到的是用什么总价?你看 我这个地方呢,我用红色标注出来了,梯啊,用梯分布也是用梯筒这样的,你看是这两种情况, 这个是重点的啊,但是其他也很重要,只是说这个东西他是特殊的啊,所以我们给他标出来了,你看,哎,就就这这样的一个,就分别用什么?这我们待会要去详细讲啊。最后一块呢,也就是说我们样本来的确定,我们对这个总体做一个估计的时候,总体的某一个参数做估计,那我给 肯定是抽样去实现的,那我到底抽多少样本呢?哎,对吧?这这这个部分是回答这个问题,所以你看,其实这个章节的体系是非常完善和完整的啊,逻辑非常清晰, 大家现在应该明白了哈,先有一些基本的概念,然后就是分别去一个总体和两个总体的一个估计,最后就是我到底估计的时候,我应该用多少的样本量啊?所以这个大概是我们首先对这一张的啊思维导图做的一个介绍。 好,下一页。那刚说制性区间啊,前面说大家这个定义,我们再重申一下,他就是说由样本统计量 所构造的总体参数的故意区间。你看像我们同样,比如说我们是用要么均值啊来去构造了所构造的总体参数是不是没有 要估计,没有。然后他的区间我们后面可能用的最多的一个例子是这个例子, x 八加减 z 二分之二法 c 码除以根号 n。 啊,这个呢?是啊,我们后面举例用的最多的,大家可以看到课本上就用的这个举例子,对不对?他其实就是对总体均值的一个估计啊,他是适用于什么情况呢?在这个里面对总体均值估计是 总体方差已知的时候啊,所以用用用这个 c 嘛,那如果位置用 s 啊,是大样本情况下,或者说是小样本,总体方差已知也行,就这两种情况下呢啊,就是这个是举例举的最多的,所以就可以看到,那你看,我们也可以用这个来, 这东西是不是就是 x spa, 基于 x spa 他这个点估计值,然后,哎,我们去啊,得到了一个区间,也就是说我们对总体均值的一个估计的话, 我们,呃,首先做点古机,就是用样本就是来去考虑了啊,但这时候我们还要对他整个的一个就是,嗯, 可靠性的一个度量嘛,所以我们就用区间估计,然后是有了后面这个东西好,但是后面这个东西是怎么来的啊?这个我们会在这个部分啊,这一块,这一块和这一块会去讲啊,大家不要着急,你先默认接受这个东西好,然后呢?他说 同学啊,在某种程度上确信这个区间会包含真正的总体参数,所以给他取名为制性区间啊,所以这个意思制性区间 就我相信他,哎,总体参数就会在这个区间里面,这是这意思啊,是这意思,我说这个区间会包含总体参数,那他说第三个是说用具体样本构造区间是一个特定的区间。对啊,你比如说我,我理论上是这样的,我如果实实际抽个样本,我是不是可能得出来一个区间是十到十五, 对吧?那这个时候是不是就是一个特定的区间了?就很很很确定吧。那这时候他说我们无法知道这个区间是否包含总体参数增值。哎,说这学长这个怎么这么绕啊?上面又说会会确信会包含,怎么又说无法知道包不包含了? 好,这是我们大家就讲现在要讲的啊,就是他说我们只能希望这个区间是大量的包含这个区间中的某一个啊,但是他也有可能是其中的不包含的一个。那个区间。好,然后他 他就说总体参数以一定的概率坐在这个区间的表示是错误的,这都是啥呀?是吧?那也就是说如果我说总体均值以百分之九十五,这是百分之九十五,直径区间 落入这个区间的概率是百分之九十五,这话是错的啊,这话是错的。为什么呢?就是我们在啊,假如同学这本书上啊,还包括其他的一些版本的教材吧,大部分都是这样的,就是他是频率学派。频率学派什么意思呢?就是总体参数他是未知的, 他记着这个词啊,就总体参数他是未知的,但是他又是确定的。 接着答, g x 在未知加确定,这个就是在频率学派所认为的这个时候,就是啊,总体参数它是未知,但是它又是确定的,所以这个时候 他就不会说是以多大的概率在这个圈里面,就是说因为我们确定知道啊,只不过他是未知的,但是他确定的,比如他确定他就是十三,假如说哈,哎,那他是不是就在这个区间?如果他确定的值,如果是十七,那他是不是就不在这个区间? 就说,大家明白吧。所以他其实要么在,就是说实际我抽一个样得到一个区间之后,那么总体参数他要么在这个里面,要么不在。好,大家先明确这个点,这个点大家能听懂吗? 就是我根据一个实际的样本算出来了一个结果之后算出来一个区间。好,这个时候总体参数的增值,由于他是未知的确定的,所以他其实要么在这个区间,要么不在。好,这句话听懂的同学打个一,嗯, 听懂了啊,这个东西很关键的,很关键的,不然这个东西就弄混了啊,就说首先要把一些基本的东东西弄懂,好,很好。行,这个点大家先明白啊,先明白哦,然后你可以再记一句话,就是在这个,嗯,贝斯学派责任为 总体参数,它是一个随机变量, 这是贝斯雪白认为,大家做个补充就好了。就是贝斯雪白认为 他 ok, 是一个随机变量,那这个时候他就可以说是以某一个概率落在这个里面啊。但是这个考研,嗯,就是说,呃,当然具体每个院校考不好,但是大家看这个降维的部分是吧?嗯,但是大家主要掌握刚才前面说这个 平均雪白啊,就好了。行,大家记住这个点就好啊。还有一种情况是叫 b a 四雪白,好,我们继续来看哈, 刚才说那个问题,我们到底应该怎么去理解,是吧?听着好像有点拗口啊,又说有一定的这个概率是在这个里面,然后又说我实际抽一样之后,他要么在,要么不在, 对吧?好,那我们再来把这个水搅的更浑一点啊,对吧?他说百分之九十五的征信区间,哎,他说 啊,课本上那个例子是重复构造了关于总体均值的二十个志愿区间,最后是有十九个包含了争执,对不对?这个区间是不包含的,你看这个区间最后这个缪缪是不是横着这个,他是不是不在这个区间里面?其他的构造的这个区间是不是都在?好, 哎,你看是不是刚好是百分之九十五吧?是百分之九十五之间报案总体参数,哎,五个不完,百分之五不完。好,那我们来问大家,大家觉得一定是刚好是十九个吗?会不会是十八个,十七个呢? 会不会呢?哎,大家带这个问题啊,考虑,你看是不是把这个水又搅得更浑了?刚才只是说啊,这个区间它这个 要么,呃,百分之九十五这个,嗯,他就是说刚才的纠结的问题是到底能不能说,对吧?这个区间啊,我们是不是以什么概率包含总裁入增值, 然后又说我实际抽个样得到一个区间之后,哎,他们要么包含政治,要么不包含,现在又说这个九十五到底是不是确定的?也就是说我到底假如说 构造一百个区间,是不是九十五个区间就肯定有增值,五个没有呢?把这个九十五是不是确定的, 那是不是越来越有意思了?好,那我们再把这个特别特别容易混淆的问题,我们再来描述一下啊,以这个典型的真题来给大家做一个呈现。我们现在看上面这一题,他说百分之九十五知性水平的区间估计中,百分之九十五的知性水平指的是什么? 我们先看上面这题啊,大家先不要管下面一题,那么来问大家,上面这题大家觉得 a、 b、 c、 d 应该选什么? 哎啊,这个 a、 b、 c、 d, 大家觉得应该选什么? a 说总体参数落在一个特定的样本所构造圈的概率是等人求助。 b, 百分之五 c 是说在用不同的样本构造总参数多圈中包含总参数的区间比例百分之九十五,再个是约为,你看啊,一个是约为百分之十五,一个是为百分之十五,应该选哪个呢? 好,恭喜大家成功被我带到坑里了啊,成功带到坑里了,呃,我可以这么讲啊,市面上有很多一些别的这个机构, 这两道典型的真题,他们答案都弄错了啊啊,那我们来跟大家讲一下,到底应该是什么样的啊?很多人也觉得这题答案是 d 啊,不是 d, 嘿,不是 d 啊,所以我还下面还有一道题对照了啊, 待会儿会用拍子去模拟啊,会用拍子去模拟好这个题答案。首先是 c, 为什么是 c 啊?为什么是 c? 这个题他讲的是方法, 方法,方法是什么意思?方法就是说他就是这么定义的,大家明白吧?他就是这么定义的。 百分之九十五直径区间是什么意思啊?他就是说我构造了很多直径区间,然后包含总体参数比例就是有百分之九十五,你看这个前面他就是这么讲的,你看这就是他的定义, 你看就是,你看将勾到针圈,不是同多很多次,那针圈包含中的参数,针织的比例就是针织的水平,那就百分之九十五针针圈吗?不就这意思吗?对不对?这是他的定义 i, 所以这一题选 c 没有问题啊,他这个是问的是方法,那么问的他的定义好。 这第一题好,大家如果内心有千万般的疑惑,好,先收起心中的疑惑,我们来看下面一题,待会后面会一起解答啊。这个题他说他是这个,嗯, cdlcl 优势,零点 cd 的零点九五直径之间。下列说法正确的是什么?好, a、 b、 c、 d, 大家觉得应该是什么? 大家觉得这题应该选什么?这题其实答案应该还是比较明显的啊,只不过有个干扰项是我要重点去讲的。 这题答案大家有了吗? a 说零点九五真宣是唯一的, 怎么可能唯一吗?是吧,我抽不同的这个样本,那构造出来区间肯定是有差异的呀。陛下说这个区间是随机区间啊,什么意思?大家怎么不敢回答了?随机区间的意思是 我用这个不同的样本构造出来区间,他可能有一些差异,对呀,就是这样,没有问题,所以答案是 b 啊,这题答案是 b, 这是很简单的,所以说一次车样后,样本数据得到这个区间包含增值的概率,哎,这个是不对的,这个刚才我们跟大家说过了,我说首先明确那个概念,就是我们 一次抽象之后会得到一个具体的区间,由于频率学派认为总体参数他是未知的确定的,所以他要么在这个区间里面,要么不在对不对,他不存在以多大概率的问题。好,所以 c 是错的,这是很典型的一个错误, 大家觉得吧,很典型,做好第一下啊,这是我特别想讲的,这是非常大的干扰项,说如果重复抽一百次,那么所得的啊,一千次所得一千个区间一定有,一定看到没有,一定有九百五十个区间包含增值 c 的。 好,有同学可能心里有有嘀咕,说学长这个地方,因为这题答案是 b, 想确定那 d 肯定是错的啊,心里肯定有嘀咕,是不是说学长,哎,上面你不就说这个就是哎为百分之九十五吗?下面他说就是就是这样的,你怎么又说错了呢? 是不是担心你是不是有小小的脑袋大大的问号?好,来给大家解析一下。地上他这个是重复抽一千次,这个东西他是落实到了具体的一个抽样,上面就具体在实施的 阶段了,那这个时候他就可能会有一些误差。什么意思?我们来看啊,上面大家记住一个上面的方法,下面是我们具体一个抽样 啊,我这里也说了,就如果从方法的角度来讲,百分之九十五针圈就是重复构造多个区间,然后有九十五,百分之九十五个是包含的总体参数,针值百分之五不包含,这就是他是这么定义的, 他方法就是这样的,明白吧? ok, 这第一点,第二点也就是对应刚才那个整体啊。第二点,如果说是实际进行估计的过程中, 就我现在真的抽样,我来去估计了,那我这时候构造了有一百个证据烟,那么最后不一定啊,大家记住不一定是九十五个包含增值五个不包含,他是大约大约有九十五个,也可能是九十四个, 百分之九十三个啊,或者说其余的情况,因为实际估计可能有误差在里面啊。大家去看课本上,他是不是也说呢,约有九十五个区间包含总体增值均值,他课上说的是也是我用这个构造这个区间一百次啊,约有九十五个区间包含总体均值, 看明白了没有?就是从方法的角度, ok, 他就是很严谨的,他就是为百分之九十五,就是很严谨,没有约的问题。但是我们实际的去做抽样的时候, 那么他就是约了啊,他就是约了。好,那可能大家听起来说学上,这可能从方法,从定义他就这么,那我很理解,那这个为什么又是约呢?对吧?他,他为什么不是确定的呢?好,我们通过拍子来模拟啊,大家可以看一下,我们整个 模拟思路是这样的啊,我们尝试构造一千个指引区间,然后我们看总体均值在多少个区间里面,比例是多少哇?是不是百分之九十五?对,好,这是单次结果,然后我们把这个过程重复一百次啊,我们看这个比例是不是都一致的,我们来看一下啊,你看 我们这个呢,就是以这筛子为例,这筛子的话,你看我们的分布是不是一到六各自的概率都是六分之一,这一个均匀的筛子啊?那这时候他对应的期望是不是三点五?期望也就是我们取值成概率加起来, 是吧?哎,他这个就是三点五,好,接下来我们模拟,是不是就是说我们模拟这筛子,然后我们去算他的一个这个嗯,均值啊,看, 嗯,构造出这个均值的,这个就是直行区间来,然后看三点五在不在我们这个区间里面,对吧?哎,这就是我们的一个过程,模拟的过程。好,然后我们啊去 构造这个一千个直径区间啊,然后看到底有多少个,哎,这个三点五,这个在这个区间里面,好,然后我们来看啊, 我们这个每一千次可以看到啊,这个 rate 就是我们构造一千个居制定区间,说这个,这是个区间,这是个区间,这是个区间,对吧?这个区间,然后看,哎,三点五 到底有多少个在这个里面,是吧?然后再除以一千,这样是不是就可以得到一个比例,是吧?哎,这个也就是我们瑞特中的单独的一个值,你看有的我们就是算出来,哎,就是零点九五,刚好,哎,当然有, 你看算这是零点九四,是不是?哎,这个就是表明的零点九五,表明我们是一次啊,然后这个整个 read 呢?它里面是有一百个值,你看一百个值,这一百个值也表明的是我们啊,就是啊重复一进个一百次, 然后我们来看看这个里面每个值是不是都一样的,哎,你看这个两个,你看是不是有零点九四,零点九五,零点九四,这个是什么意思啊?就表明这一次实验中我们也是构造了有一千个知音区间,但是这个里面只有九百四十个区间,它是包含总体参数的增值的, 另外六十个不拔,所以他就不是严谨的九百五十个,对不对?哎,这是我们实际通过模拟就可以看到,他就是这样,他实际中他可能存在一些这个误差吗?你看还有别的,你看还有零点三九六的啊,零点九三六的,是不是啊? 还有这个零点九六的,还零点九六也有,他不是都是零点九五吧?但有没有零点九五?有啊?而且他你看就是我们这个 ppt 也有了,他就是围绕这个百分之九十五在波动,知道吧?他只是说大约有百分之九十五区间包含总体参数的增值。 哎,是这个看明白了没有?就是我们再重申一下两点,如果从一个方法的角度来讲,百分之九十五之间就是我们重复构造多个,最后有百分之九十五先包含,百分之五不包含,这是他们定义的是这个方法。 但如果我们实际进行估计的过程中啊,我们构造了一百个直径区间,那么就是最后是约有九十五个包含,他不是说很明确的就是九十五个包含,五个不包含,这个答案一定要明确。你看对于到这两个真题,也就是你看第一 这个题就是 c 项啊,他就是九十五,下面这个题呢,重复一千次抽样,那么他不一定就是九百五十圈,你看没有?刚才我们通过模拟发现有的是九百六十个,有的是九百四十个,对不对?他不一定刚好是九百五十个的 啊,所以这么说大家明白了吗?这个问题还是有点绕的啊。网易同学这个听的明明就是就是之前我没系统讲的,他们都都觉得,哎,这个到底是啥啊?听懂,同学打六六六, 听懂了哈。行,我再再重申一遍啊,我再把这个逻辑再给大家再领一遍。 就是说,呃,因为点估计存在他的问题,所以我们才有了区间估计是吧?然后区间估计,区间估计里面呢?他有很重要的一个概念,叫百分之九十五的一个知音区间,对吧?他有什么意思?这个东西在方法的角度来说, 他的意思就是我重复构造多个区间,然后有百分之九十五的证券,他包含总体参数的增值,百分之五不包含好,这是从方法的角度来讲,他是这么去理解好。但是如果我们在实际进行估计的过程中, 实际音估计的过程中,这时候我们是会得到一个很明确的一个区间的,对不对?那么这个区间他要么包含总体参数的增值,要么不包含,他不存在以多大概率包含的一个问题,因为总体参数他是未知的 加确定的。同时如果我们构造了多个制性区间,那么他最后不一定就完全是百分之九十五的区间是包含总体参数。政治百分之五不包含,因为我们在实际的估计过程中,他可能会存在一些误差, 把这个刚才给大家通过模拟也就可以看到,那他不一定刚好就是啊,比如说一百个就有,九十五个的没有,是不是? 大家看课本上的概念也是说约有,所以一定要明确啊,然后这样整个就讲完了啊,对应到了两道这个典型的真题,哎,也给大家这个列出来了啊,大家可以适当去去做一些记录,是吧?好, 这个这么说应该说明白了哈,就是这些核心问题啊,大家弄清楚理理顺了,哎,就好了。