粉丝1.2万获赞4.0万

大家在看文献时经常会看到批小于零点零五则结果有意义。那么问题来了,为什么批小于零点零五结果有意义?结果有什么样的意义?以及怎么计算一个研究的批值呢?我们一起通过一个例子来看一看。 已知某地一般新生儿的头为平均数为三十四点五零厘米,也就是说这一个地方的一个正常新生儿的头为标准平均数就是三十四点五零厘米,标准差是一点九九。为研究某矿区新生儿的发育状况, 什么意思呢?就是想了解一下你在这矿区生活的新生儿是不是头尾受到了这个矿区的影响,我们就要从该地的某矿区随机抽取新生儿五十五人。注意,这里是随机抽取了五十五人,不代表这个矿区只有五十五个新生儿。这个矿区可能有很多新生儿,但是我只是随机抽取了五十五人, 凑得了起头为均数是三十三点八九厘米,我们可以看到三十三点八九厘米和这个标准的数字是是不一样的。那么我们问的就是该矿区新生儿的头为总体均数与一般新生儿头为总体均数是否不同? 他问的就是这个矿区的整个新生儿的均数是否与这个标准的均数有所不同。但是我们怎么通过抽样样本的一个均数去推定总体的均数不同呢?我们就要用到假设检验的方法, 那么本力中标准的军术称为六零,就是三十四点五零厘米。而 x 呢,就是样本的军术,就是这个矿区抽出来的一个抽样样本的军术三十三点八九厘米,造成这两个值不同的原因有二,一就是抽样误差造成的。 什么意思呢?就是可能你这个矿区的总体均数和标准均数是一样的,但是因为你抽样物差导致,因为你是抽出了一部分人,你不是抽出整体的人去做的一个均数,所以因为抽样物差导致了你这个样本均数与这个总体均数不同,这是其中一个原因。 还有一个原因就是本质差异造成的,就是说你这个矿区的总体均数本身就与标准的均数不一样,你的矿区实际上是影响了新生儿头围的发育的, 所以你才造成了样本军术也产生了不一样。那么我们如何判断这个差别是由抽烟误差造成的,还是他本质差异造成的?我们要做假设检验啊,这是一个非常形象的一幅图啊, h 零呢,就是无效假设,就表示你的一个矿区的 一个总体军术和你的标准军术实际上就是一样的,只不过我是因为抽样误差,因为抽出了其中一部分,所以造成了这个样本军术不一样。而 h 一呢,就是贝泽,假设就是你这两个东西,其实就是两个东西完全不一样,你这个矿区的 总体军术本身就跟标准军术是不一样的,你矿区严重影响了新生儿的头围的发育,所以我抽出了样本的最后的军术与你们是不一样的,就叫被子的假设。 那么建立假设检验呢?还要确定检应水准、经验水准。我们一般取零点零五,无效假设呢就是 h 零,贝则假设呢就是 h 一。好,我们来实战一步啊, h 零冒号 mill 就是你这个 矿区的一个总体均速,他跟三十四点五零就是标准值是相懂的,就表示该矿区新生儿的头围与当地一般新生儿头围均数是相同的,矿区并不影响新生儿的头围发育。 h 一呢,就是他们两个是不一样的,该矿区新生儿的头围与当地一般新生儿头围均数是不同的,矿区影响了新生儿的头围发育。 啊法等于零点零五,下面有解释。啊法就是检验水准,它就是确定小爱愿的标准。在实际工作中,我们都取零点零五,但是如果你想让这个结果更可信一点,你可以取零点零一,但是零点零五已经是非常足够可信了。 那么一定要记住这样的一个公式,这个妙非常重要,它等于就是你的一个抽样样本的一个值,减去一个标准的妙龄的值, 然后再除以那个一般情况的标准差,再除以个根号 n, n 是样本量。 有了这个公式后呢,我们就可以计算他的检验统计量了,我们用这样的方式把没有计算出来了,是等于二点二七三,一般的这个没有是要去绝对值的,所以就算他最后值是负二点二七三,我们要把它变成正的二点二七三,然后我们怎么判断批值呢?这就要根据我们的一个 检验戒指,检验戒指的是一个标准制,没有零点零五情况下,它等于一点九六,这是一个固定的一个指,大家可以记住,当你的检验水准是零点零一的时候呢,这个固定值是二点五, 也就是说你最后得到了密欧的绝对值,如果大于一点九六,那你的批就小于 零点零五。如果这个 mia 的值大于二点五八,那你这个 p 的值就小于零点零一,如果小于就相反,就大于的意思就是 mia 越小批越大,没有越大批越小的意思。那我们得出了这个 mia 值,它的绝对值是二点二七三,它是 大于一点九六却小于二点五八的,那他的值呢?就是小于零点零五却大于零点零一的,那他的值批是小于零点零五的, 所以我们拒绝 h 零,接受 h 一,那么 h 一是正确的。 h 一是什么意思呢? h 一是被子的架势,就表示矿区的新生儿的口味和 一般情况的总结军术是不一致的。所以就得出了结论,如果 p 小于零点零五,我们就接受了 h, 以差异有统计 学意义。我们可以认为矿区性舍得的头围均数与一般性舍得是不同的,矿区性舍得的头为小于一般性舍得的,这就是专业的结论。 如果 p 小于等于啊法的话,按索去检验水准呢?我们是要拒绝 h 零,接受 h 一的,这就是一个规则,就是 p 小于你设定的戒指,我们设定戒指都是零点零五嘛。所以他 p 小于零点零五,我们就要拒绝 h 零,无效。假设接受 h 一被责,假设就是下一个有差别的结论,这就是我们为什么 p 小于零点零五,我们就认为结果有意义,有的是什么意义呢?他就是差异有统计学的意义。 如果批大于阿发的话,就是批大于你所设定的零点零五,那就不拒绝 h 零,就是不能下无差别或相等的结论,但是也不能下 有差别的结论,就表示他们两个是否是真的有差别,我们不能确定就是这个意思。简单小结一下,批纸是用来剪烟。 差异是否有统计学意义的。在科研中,一个数值与另一个数值的比较制,不能纯靠数值的大小进行比较的,需要进行假设检验,判断这个差异是否有意义, 有意义才能判断他最后的优势和劣势。不要以为这两个数值,因为他零点零一和零点零二他们两个是有大小之分的,你就判断这个总体一样本和另一个总体一样本是有显著性差异的,实际上并不是这样的。 通过这么复杂的假设检验,最后判断这两个量本的来源是否有统计学意义。

最近,广东省考面试圈被广州中院 p 图心态事件刷屏了,相信很多备考的同学都刷到了岗一为了劝退,岗二跟岗三直接 p 图,伪造超高行测分,制造 断层领先的假象,实际只是相差零点零五、零点三五分,最后导致岗二岗三放弃备考,自己顺利上岸。这件事发酵之后呢,全网都在讨论,今天我也给大家说三点, 句句实在,所有考工人都该听进去。首先第一点呢,公考竞争呢,永远要守住公平与诚信的底线。考官本就是千军万马过独木桥,竞争激烈我们都懂, 适度的低调长风大家都能理解,但 p 图伪造恶意误导对手已经不是正常竞争,而是突破了道德和诚信的底线。我们考的是公职岗位,代表的是公信力,连备考都要耍小聪明搞恶意心态战, 就算上岸了又真的能心安吗?真正的上岸,靠的是实打实的实力,而不是旁门左道。 公考最珍贵的就是公平,别让歪风邪气毁了我们努力的意义。第二点,一定要熟知考试的考情,别被虚假信息牵着走。这次事件里呢,港二跟港三之所以轻易被骗,核心原因就是对广东省考往年的一些情况不是特别了解。 之前我们在直播间也一直跟大家强调,今年竞争激烈,分差会很小,特别是像珠三角这一类的地区,分差真的会很小的,几乎不可能出现断崖式的高分。备考不是埋头刷题, 摸清岗位分数、面试规则、竞争规律,才是保护自己不被坑的关键。别做信息查理的弱者,多了解考勤,就少一分被误导的可能。第三点呢?保持理性,不盲目,不内耗,不轻易放弃。很多容易被同感言论 网传截图影响心态。别人说高分就慌,听说分差大就摆烂。但我想告诉大家,公考路上最靠得住的只有你自己。无论外界说什么,无论对手营造什么样的氛围,都要保持理性清醒, 不盲目相信非官方分数,不盲目内耗焦虑,更不盲目放弃。招一人岗逆袭比比皆是,零点一的差距就能改写结果,哪怕是岗山,只要站在了考场上,就有翻盘的机会。 别因为别人的一句话,一张假图就否定自己所有的努力。马上也是三幺四全国大联考了,考试结束之后全国各地也会出分数,大家一定要了解各地出分数或者出面试名单的一个 实际情况,从官方的渠道里面去了解相关的信息。未来不管是从考试还是面试的准备阶段,我也会给大家分享更多关于备考 方面的一些资讯。预祝大家二六年考公顺利,同时也记住大家二六年考公一定能上岸,记得点赞关注哦!

各位学弟小哥们,你们喷嚏喷嚏的好像看到了 p value 小 于零点零五,但是还有可能被秒击,这就是省港人最烦也是小白做临床内容最容易踩的坑, p 值陷阱。记住一句话, p value 统计显著不等于临床有一, 这俩压根不是一个维度的。 p 值能告诉你什么?他最多能告诉你的是,在有没有差异,有没有效应的前提下,你现在这个结果不太像是随机撞出来的, 但他根本没有办法回答,是跟人最关心的问题。这个差异到底有多大?大到能让病人受益吗?大到能让医生改变决策吗? 我当年就踩过这个坑,当本人还是迷你灯的时候,两组数据一算, p y 小 于零点零五,笑得原地起飞。然后导师一句临床意义呢?直接给我干哑火了。到那一刻我才明白,临床论文不是数学竞赛,显著不等于值钱。那么临床意义到底看什么呢?三个关键词,效应量、 effect size, p 主告诉你是有没有效益量,告诉你的是多大,比如说 o r h r 风险差, cohenstein r square 这些。 更关键的是,效益量要搭配百分之九十五的自信区间,因为临床看的不是你这次算出来是一点二,而是这个效应到底稳不稳, confidence interval 到底宽不宽。这也是为什么越来越多的刊强调别直甩 p 值,至少要报告这个效应量和 confidence interval。 第二,临床预指 最小临床重要差异 m c i d。 很多结局指标不是有差异就行,而是要跨过一个门槛,比如说疼痛的评分、生活质量评分等, 往往想要达到某个降幅,患者才能真实的感受到改变。你降了零点八分,统计上是能显著,但是这个领域的共识要一点五分以上才有意义, 那你这个结果在临床上就不够用。第三,应用场景, so what? 如果临床不会因此更精准的分层,那你再精确再显著,也可能只是精致的无效。努力,这里学长教你三条宝贵的建议。好了,讲到这里,学长来发一波福利, r 语言数据与科学教程 q r 单细胞复现,包含机械代码微粒分析入门级教程,单细胞从里到五直播课第一级包含少见的 c r 处理办法,后台滴滴学长免费领取。如果你时间紧任务重,需要深信临床微粒一对一辅导的也可以后台私信学长,学长也能带飞哦。 number one 设计阶段,先问差异够不够大, 别上来就是我想要显著,你要问理论上这个干预和比较能不能够带来肉眼可见的改善,连你自己都觉得改善很轻微,那么审稿人只会更苛刻。第二,结果部分,效应量加百分之九十五的 confidence interval 必须写进去, p 值可以写,但是只能配菜,主菜永远是效应大,精确度是否跨越临床的预值? number three 讨论部分,提前拆领, 直接说清楚本研究效应量较小,临床意义仍需要更大的样本或者真实世界的研究验证,这叫预判,神而的预判比死扛强一百倍。 临床 hsi 本质就是一场对话,是你在用数据和临床洞察力说服更苛刻的前辈,只靠 p 值小于零点零五,就像相亲说我是好人一样,临床人不会买单的,祝你文章早日被接收。

大家好,我们今天讨论一下囤积分析中皮脂学零点零五的意义。我们都知道囤积分析中正在分布两组均值比较皮脂学零点零五,到证明两组均说差异形式成立的绝对分析。我们首先测得一组一个班级的同学的身高化成一个正在分布图,取得距均值为一点七零米。 然后给了一个一点七五米,等于为了证明这个一点七五米的是不是属于这个均值为一点七零米班级这种同学其中之一。 若屁值小于零零零五,则证明这个一点七五米不属于这个均值为一点七零米班级东九人之一的误差小于零零零五的, 这个误差是可以忽略的。得证明这个一点七五米同学是不属于这个均值为一点七米的班级中同学。若批次大一点点,我得证明这个一点七五五米的同学 不属于这个均值为一点七零米班级中同学体重之一的误差大于零点零五,这个误差是不可以忽略的。得证明这个一点七五米的同学很有可能是属于均值为一点七米班级中同学体重之一。这就是批值小于零点零五的意义,是的吧。

大家都广为人知的是,当你 p y 六比较小的时候,比如说 p 小 于零点零五,我们常用的零点零五,那意味着什么呢?意味着这个零价它不成立,这两组有有差别,有阳性。那 p 大 于零点零五意味着什么呢? p 大 于零点零五意味着就是,是不是就是阴性结果呢?是不是两组就相同呢?就是两组没有区别呢?是不是这样呢?那我们再回到这个逻辑链条,刚才我们讲了 p y u 比较小的情况,我们推翻零,假设得到阳性结果,它是通过一个逆方命题成立。但大家都知道,当你原命题 p 到 q 成立的时候, 就说我中午吃了清风包子,我现在不饿。当这个逻辑链条建立的时候,你的逆命题 不成立,你的你的匿名题不成立,你的访问题也不一定成立。匿名题不一定成立,访问题也不一定成立。那就说我们回到这个地方,如果你的 t 落在这个区域了,比如说你的 p 位数大于零点零五,你的 t 落在这个区域了,这个 r 成立,但是 r 成立呢?吹不出来,不能说,导致我就说 q 已经成立, 那就我二乘以,不能说一定,就,就就说这个 p 乘以,那就说你这时候就是二乘以的情况下, p 多的虚了。 b p 大 于零点零五,你也不能说 p 九乘以,你也不能说 a 是 零就是对的,你也不能说两组没有区别。 所以这时候呢,如果是 p 大 于零点零五,它的它的它的它的结果应该什么呢?是没有结论,你并不能说这两组就相同的。 所以这个呢,是大家一个经常犯的错误,包括统计的人经常犯的错误,那犯的错误原因就是什么呢?就是说当你原命题成立的时候,你的匿名题不一定成立,你不能根据原命题成立推论你的匿名题成立。好,谢谢大家。

这五大常见部分大家了解一下,因为和我们之前讲到的实际上有一些重合的地方。第一个 p 值小于零点零五了,它是一个临床的重要发现吗?不是的,请大家注意,它只是提供了一个统计学的证据。那么这个时候如果说我们说这个在临床上重要或者是有用,我们需要去 联系什么,就是 m c i d, 就 临床最小重要差异必须去联合。我们预先定义的对病人而言,什么样的一个最小差异对它是一个有效的, 这样的一个差值必须结合统计量去考虑,请大家一定要注意。第二一个,当 p 大 于零点零五的时候是无效吗?不一定的, p 大 于零点零五不能证明无效,可能就是由各种原因导致的出现的这个结果。然后我们刚才前面说的统计量这个样本量不足这样的一些问题所导致的。 我们再接着往下是多重比较不校正,如果不进行校正,那么假阳性率会非常的高, 大家一定要注意。我经常我跟学生开玩笑说的是,如果你们在还真有朋友是不较真的,我说你的数据比较差,你又不想让别人发现的情况下,你就不要去进行较证,你会发现你的阳性结果出来了, p 小 于零点零五了,但是这种确实非常糟糕的,在多重比较不较证的情况下, 那么假阳性率是以几何倍数来提升的,一定要注意。还有一个我们用一个比较流行的词叫机械崇拜或者赛博崇拜,零点零五这样一个鱼池,请大家注意看我这里专门给大家写下来的零点零四九和零点零五一有什么区别吗? 几乎是没有区别的,但是你就在零点零五这,你就硬把它切开了,我零点零五一差异就不显著,零点零四九差异显著吗? 凭什么?这样的一种二分的切换的方法是非常荒谬的,这真的是用了这样一个感情色彩非常强烈的一个词,就是对零点零五域值的一个机械崇拜,非常荒谬的一种做法, 零点零四九差异显著,零点零五一差异不显著,非常的荒诞。所以说我们应该什么呢?我们把 p 值应该看作是一个连续正序的指标,而非一个开关, 或者说是而非一个红线,一个界限,不应该这样做,这样做是不正确的。那么最后一个我们要说到的就是这个 p hacking, 大家可以去查一下这个 p 字之后超动,但是我建议大家去查这个 p hacking, 这是它的原文译过来的词,你们会发现这个 p hacking 在 整个的学术圈里面,不管在哪个圈子里面,只要是用到统计学的都非常的常见。 然后在医学当中,这个是在事后去进行分析的时候去更换了主要的终点,或者是对模型反复地调,一直调到可行为止,或者说是呃,我们在报告样本的时候,选择性的去报告样本,这些都是 piping 的 常见的方式, 那么他的后果就是我们的结论假阳性,换句话说就是假的结论满天飞。我们最后的这个文章的结果是不可以重复的,那就是为什么现在预注册研究方案这种方式现在几乎成为了临床实验的一个必须走的流程,就是因为这样的一个原因, 那你之前把这个主要结果先定完了,你的分析方法定完了,你的选择方法定完了以后,你就不能改了嘛?那么后面你就必须得按照这个方式来执行,这就是我们需要大家去警惕的,我们批职误用的这样的一个情况。



normal distribution 是 最常用的连续概率分布,记作 x 服从正态分布。 n mu sigma 平方, mu 是 均值, sigma 是 标准差, sigma 平方是方差。 它的曲线呈中形对称,通过 c 变换可转为标准正态分布。 n 零一便于查表,计算概率,广泛应用于质量控制等领域。大家看图, mill 式中点 sigma 对 应着正态分布的拐点。 在服装生产中,尺寸偏差是离散数据,很难看出整体趋势。通过验证正态分布能直观判断过程是否稳定,偏差是否可控,更利于品质管理。 我们再看一组实际案例,客户要求胸围一百厘米,公差加减一厘米,也就是九十九到一百零一厘米。先看五十件的数据,做 imr 控制图,过程不稳定。 虽然 p 值大于零点零五,数据符合正态分布,但只看正态,不看离散程度是不够的。 再看一百件的数据,标准差只有零点三三左右,同样正态过程也稳定。 c p 和 c p、 k 都大于一,可以正常使用。如果 c p、 c p k 都大于一点三三,那就非常完美。 这告诉大家,客户给的加减一厘米,总共差是二,我们要用二除以六倍标准差来判断波动大小。只有过程稳定,数据正态, c p 和 c p k 都达标,才能真正做到生产零瑕疵。

大家好呀,今天想给大家分享一下如何用 graph 派对两个组之间的多组数据进行显著性差异分析,这里给它选上 数字代表你的数具有几个平行,我做了三个平行,所以十三选择好之后,点击快压,然后就创建好了,就是这样的,我们现在进入正题, 把我们的数据输入进来,左边是 x 轴,上边是 m 轴,点击分析, 选择跳崖楼法,两组都勾选,上调 k, 选择 multiple compares, 然后选 b 三个, 这样就是两两之间对比啦。然后第二个就是我们的显著性差异分析,然后这里就是 p 值越多代表差异越显著, 然后我们自己手动添加一下,选择自己喜欢的样式 选择一下。今天的分享就到这里了。

库里在前些天对阵独行侠的比赛之前,特意走到中圈默默地看着汤普森训练,然后主动和汤普森打招呼握手,这个感人的场面让很多球迷非常感动。梦回勇士水花时代, 在离开了勇士之后,汤普森可以说是过得非常的不如意,而库里在离开了汤普森之后,也是带领勇士队有些带不动的感觉。为什么汤普森和库里这对水花兄弟在一起,可以产生一加一大于二的效果,这是有很多因素造成的影响。首先是勇士队的三份理念, 从克尔来到勇士队以后,勇士队可以说是变成了一支纯三分球队,这支球队打到最后,对三分球的出手和理性具有非常大的容忍度。 比如以前库里曾经出现十二中一的情况,但是下一场比赛他的三分出手次数依然可以超过十次,也没人限制他,但是这种情况在任何一支其他的球队都是不被允许,在一次三分命中低之后,下一场要么减少出手,要么替补。 然后是投篮体系,库里和汤普森都是直接落户勇士队开始的 nba 征程,所以他们都是在同一个投篮教练组形成的投篮节奏就是如今盛行了库里一段式,汤普森中距离是二段节奏,但三分也是和库里一段式节奏非常接近的, 举球不停顿直接投,所以队友都采用同一种节奏投篮,包括隔离和后来离开的普尔,对互相找手感都是有一个良性的促进作用。这就和当初公牛王朝的投篮节奏都向乔丹叹其是一个道理,顶级球员是可以带起球队节奏的,而库里和汤普森的投篮节奏也是可以互相促进的。 而在投篮技术环节,库里的投篮体系总体来说可以定义成全能型侧身投篮,所以库里的双手压球非常紧,就导致他的右小臂正面看是会稍微不够数值的,而这种体系在防守强度很大的时候,会导致右小臂进一步的歪斜,这是导致库里早年关键球命中不高的一个重要的技术原因。 而汤普森的投篮体系可以说和库里正好互补,汤普森的投篮没有库里那样省力,而且为了保持右小臂树质,所以汤普森的左手扶球是不如库里这样紧实的,所以汤普森在常规比赛中会因为左手扶球不紧导致命中不够稳定。但是相应的,和乔丹的特征一样, 这种投篮体系到了相对紧张的时候会肌肉更紧,吃球更紧,右小臂会非常到位。所以很多时候库里关键球不稳定的情况都是汤普森救场的。 而汤普森离开勇士加盟独行侠之后,他遇到的队友是是空跳头体系的。欧文和汤普森的节奏是完全不同的, 而库里在汤普森离开之后换来的也正好是是空跳头体系的。巴特勒和库里的投篮体系也是完全不同,所以库里和汤普森势必都会非常怀念他们在一起的水下时代,那是一个可以互相促进提升的良性进攻环境。喜欢视频请记得点赞、转发加关注,我们下次再见!

欢迎收听,你给我们发来了一个关于屁值的科普视频,来自 youtube 上一个很火的频道,叫 statquest。 你 提到总是在各种研究报告里看到这个词,但一直对它一知半解,感觉云里雾里。 我们看完这个视频,觉得最让人震惊的一点,其实是一个所谓的统计上显著的结果,在现实世界里可能完全没有意义。 这绝对是核心,也是最大的一个陷阱。我们经常看到新闻标题说新研究发现某某有显著效果,然后屁值小于零点零五,大家就觉得,嗯,板上钉钉了。 但显著这个词儿在统计学里的意思,和我们日常理解的巨大重要,完全是两码事。没错,这简直像个文字游戏。所以我们今天的任务就是帮你拆解这个谜题。 一个显著的结果怎么会是无意义的?要搞懂这一点,我们就得跟着你发的这个视频从头开始,看看 p 值到底是什么,它又是如何运作的?准备好了吗?我们来深入聊聊。 视频一开始就给我们设了一个场景,一个我们都能理解的问题,我们怎么知道我们看到的差异是真的还是纯属巧合?是的,他用了一个非常经典的例子,用两种药, a 药和 b 药。我们想知道 a 药是不是真的比 b 药更好? 这个问题的核心其实就是如何从充满噪音的数据里识别出真正的信号。视频的开场实验简直小得可笑,就两个人,一人用 a 要,一人用 b 要结果,用 a 要的好了,用 b 要的美好。 我第一反应是,这能说明什么?根本什么都说明不了吧,你的直觉完全正确,视频里也点出了原因,因为有无数种可能性可以解释这个结果。 呃,也许用 b 药的那个人刚好对药物成分过敏,所以没效果,或者他昨天晚上没睡好,免疫力下降,甚至可能他偷偷吃了别的什么东西,跟药物冲突了。反过来也一样, 用 a 药的那个人可能就是安慰剂效应的完美范例,他觉得自己吃了新药,心理上就感觉好了一大半,身体也就跟着好转了, 这跟药本身可能一点关系都没有。这就是问题的关键。当你的样本量小到只有一两个人的时候,整个实验结果就完全被这些随机的怪事给控制了。你根本分不清是药起作用了,还是某个人的特殊情况碰巧发生了, 所以实验升级了。这次每种药给两个人,结果 a 药治愈了两个, b 药治愈了一个,情况好点了吗?感觉还是不行。虽然 a 药看起来是百分之百治愈, b 药是百分之五十,但基数太小了嘛。 可能 b 药没被治好的那个人就是运气特别差的那个。视频里甚至还提了一个很有意思的可能, 也许是药厂的标签贴错了,某个吃 a 药的人其实吃的是 b 药。哈哈。对,虽然这个可能性不大,但它说明了一个道理,在小样本的世界里,随机性是国王, 任何一点风吹草动,任何一个微不足道的小意外都可能彻底改变你的数据,你看到的所有差异都可能是随机性制造的幻象。好的,所以小样本是一团糟,随机性说了算。 那为了把这个问题看得更清楚,视频就直接跳到了另一个极端,给我们看了一个差异,大到简直就是糊你一脸的情况。嗯,这是一个很聪明的做法。 要想理解中间那些模糊不清的灰色地带,最好的办法就是先看看黑和白两头是什么样的。数据确实很惊人, a 药一千多人用,治愈率是百分之九十九点七,而 b 药也是一千多人,治愈率只有百分之零点。一 看到这种数据,感觉连统计学都不需要了,用眼睛看都知道 a 幺更好。是的,在这种情况下,虽然我们之前担心的那些随机因素,比如安慰剂效应、过敏,肯定还存在于个别患者身上,但它们已经被淹没在巨大的整体趋势里了。 a 要压倒性的成功和必要压倒性的失败,形成了一个无法忽视的强大模式。这种时候,如果还有人说,也许 a 要和 b 要效不一样,我们看到这个结果纯属巧合,那这个人 要么是在开玩笑,要么就是必要的销售代表了。没错,在统计上,我们会说,这种巨大的差异纯属巧合的可能性微乎其微。好了,黑白两端我们都看过了,现在终于可以进入现实世界了。 那个绝大多数研究都身处的灰色地带,视频给出的数据是, a 要治愈了三十七 percent 的 人, b 要治愈了三十一 percent。 a 要的效果好一点儿,但好的不太多,就六个百分点。这就回到了最初的那个问题,这个六倍镜的差异是真的还是又一次的随机波动?这正是 p 值要登场解决的问题,你可以把 p 值想象成一个巧合探测器, 它会告诉你你眼前看到的这个差异有多大可能性纯粹是随机运气造成的,它是一个零到一之间的数字, 越接近零,就说明这是个巧合的,可能性越低,我们也就越有信心认为这个差异是真实存在的。 ok, 所以 它是个信心指数。但问题是,这个指数要低到多少,我们才算有信心? 我总是在论文里看到那个神奇的数字,零点零五。这个数字到底是谁定的?为什么是零点零五,不是零点零四或者零点零六?感觉有点武断呢?问得非常好,这恰恰是批直最常被误解的地方。 首先,零点零五这个数字,它不是什么宇宙常数,它纯粹是一个历史悠久的约定,是统计学家们在很久以前。呃,可以说是拍脑袋决定的一个还算合理的门槛。 它的的确是武断的,但背后有它的逻辑。那这个逻辑是什么?视频里对它的定义我听着有点绕,它的定义的确绕。我们来拆解一下 零点零五的门槛,意味着我们先做一个大胆的假设,这个假设叫原假设,就是假设 a 药和 b 药的效果完全一样。 在这个前提下,我们反复做这个实验无数次。那么因为随机性的存在,我们总会有几次倒霉的时候,碰巧看到一个貌似有差异的结果。 而零点零五的意思就是,我们允许这种倒霉的概率是百分之五,我来翻译一下,看对不对?也就是说,在我们宣布 我发现了一个真实差异的时候,我们其实心里清楚,我们有百分之五的概率是在自作口登情,这个差异可能根本不存在,我们只是被随机性给骗了。 这个错误视频里叫它假阳性,这个翻译非常到位,它就是我们愿意承担的被打脸的风险率。视频里的思想实验把这点讲得很清楚。 想象一下,我们给两组人施完全相同的药,比如都是 a 药,理论上结果应该没差异。大多数时候,我们算出来的 p 值会很大,比如零点八、零点九,我们就会正确地得出没差异的结论,但总有那么几次,纯属点儿背。 可能所有安慰剂效应强的人都分到了一组,所有肠胃不好的人都分到了另一组。对,就在那种极端巧合的情况下,数据会骗人,让你算出一个很小的 p 值,比如零点零一, 这时候你就会错误地宣布有差异,尽管你知道它们吃的药一模一样,这就是一个假阳性。 所以,把门槛设在零点零五,就是科学家们达成的一个共识。我们愿意接受每做二十次实验,就有一次可能得出这种错误的假阳性结论。 但我还是觉得,对于像医药这么严肃的领域,二十分之一的犯错误率听起来还是有点高啊。如果二十个声称有效的新药,就有一个其实是乌龙,这听起来挺吓人的。你指出了一个非常深刻的问题, 正因为如此,这个零点零五的门槛并不是一成不变的。视频里也提到,你可以根据赌注的大小来调整它。 如果是在一个关键的药物安全实验里,一个错误可能致命,那研究者就会用一个极其严苛的门槛,比如零点零零一,甚至是零点零零零零一,把犯错的概率降到万分之一,甚至十万分之一。反过来,如果赌注很小, 就像视频里那个搞笑的例子,猜冰淇淋车会不会来错了也无所谓,那就可以用个宽松的标准,比如零点二,有八成把握就行了,完全正确。 而零点零五之所以成为最通用的标准,是因为它是在避免犯错和研究成本之间的一个权衡。你想把犯错率从五 pi 降到一 pi, 可能需要把你的食盐对象增加好几倍,花费的时间和金钱都会急剧上升。 对大多数研究来说,零点零五被认为是一个性价比最高的选择。好了,铺垫了这么多,我们终于可以回到那个三十七排对三十一排的例子了。谜底揭晓的时候到了。视频里说,这个实验计算出来的 p 值是零点二四。零点二四 这个数字远远大于我们约定的零点零五门槛儿。这意味着什么呢?这意味着我们观察到的这六个百分点的差异,有高达二十四爬的可能性,纯属偶然。这个概率太高了,我们没有足够的信心排除巧合的可能。所以结论就是, 虽然 a 药看起来好一点,但我们没有足够的证据来宣布 a 药确实比 b 药好 用。同济学的黑话来说,就是未能拒绝元假设,也就是没能推翻两种药效果一样,这个默认设定正是如此。 到现在为止,我们搞清楚了屁值是如何帮我们判断信不信的问题,但接下来就是视频里提到的,也是作者自己说的有趣的多的要点了。 这一点也正好回应了我们一开始的那个疑问。对,就是那个最反直觉的部分。一个很小的 p 值告诉你某个差异是真实的,但它完全不告诉你这个差异有多大,或者说有多重要。是的, 这里最奇妙的地方就在于样本量差异大小,也就是效应量和 p 值之间的三角关系。视频里的对比简直是神来之笔。我们来回顾一下。 情景一, a 要三十七啪,对 b 要三十一啪,差异是六个百分点, p 值是零点二四,不显著。 情景二,另一个实验,样本量可能巨大,几万甚至几十万人,结果 a 要质疑率是三十二啪, b 要是三十一啪,差异只有区区一个百分点, 但因为样本量巨大,计算出的 p 值是零点零四等等。这就是我没想通的地方,一个六个点的差异,我们说证据不足, 而一个只有一个点的差异,我们反而说显著有证据了。我的大脑本能地觉得六爬比一爬重要的多。这里面到底发生了什么? 你这种反应太正常了,因为它确实反直觉。关键在于,当你的样本量大到一定程度时,你的探测器就变得极其灵敏,它能够从巨大的数据海洋中百分之百确定的告诉你, 嘿,我探测到了一个信号,它不是噪音,我非常确定,但这个信号本身可能极其微弱。我好像有点明白了。就像用一台超级精密的显微镜,你可能能非常确定地看到桌子上有一粒灰尘,但它终究只是一粒灰尘而已。非常棒的比喻, 那个 p 值为零点零四的一啪的差异,就是那粒被超精密显微镜发现的灰尘。我们非常有信心九十六啪的信心,说这粒灰尘是真实存在的,不是幻觉。 但在现实世界里,一种药只比另一种好一啪,可能根本不值得我们去换药,尤其是当新药更贵或者副作用更多的时候。 这个差异在统计上是显著的,但在临床上是无意义的。我经常遇到这种情况,比如一个互联网公司兴高采烈地宣布,他们通过改版,用户的停留时长有了统计学上显著的提升, p 小 于零点零五。 但你仔细一看数据,所谓的提升是用户平均多停留了零点一秒。这个结果是真实的,但也是完全没用的。哇哦, 所以下次再看到一个研究报告,说某某方法有显著效果, p 值小于零点零一, 我们的第一反应不应该是太棒了,而应该是立刻追问。好吧,效果是真的,但效果到底有多大?你琢磨精髓了。 p 值只回答了信不信的问题,但它从来不回答值不值的问题。 你需要另一个指标,也就是效益量。比如那六趴或一趴的差异,来告诉你这件事到底值不值得关心。两者必须结合起来看,才能得出一个全面的判断。好了,聊了这么多,感觉皮质的迷雾终于散开了。 如果我们现在要为你总结一下,从这个视频里提炼出的最重要的几件事会是什么?我认为有三点。 第一, p 值的核心功能是帮你判断你看到的现象有多大,可能是纯属巧合, p 值越小,是巧合的概率就越低。第二,零点零五不是金科玉律,它只是一个被广泛接受的风险共识, 它意味着我们愿意接受一个五 percent 的 概率,去犯一个假阳性的错误,在没有差异的地方,错误地声称看到了差异。第三,也是最关键的一点,统计显著性,也就是小屁值绝对不等于实际重要性,也就是大小应 一个结果,可能非常显著,但完全不重要。这是我们一开始那个谜题的最终答案。这三点确实是理解 p 值的基石,而这整个讨论也引出了一个更深层的问题,对吧?是的, 这最后留给你思考。我们一直在讨论如何解读一个给定的 p 值和那个零点零五的门槛, 但你可以再往前想一步。这个门槛的选择本身就像一个权力的游戏,它在无形中决定了什么样的研究成果能被我们看到,而什么样的会永远埋没。 哦,我们把它当做一个客观的科学标准,但它其实是一个充满了主观选择和价值判断的看门人。正是如此。 想象一下,如果把标准定的极其严格,比如零点零零一,那么很多有微弱但真实效果的新药,可能就因为屁质不够小,永远无法通过,身屁病人也永远用不上。 反过来,如果标准太宽松,比如零点一,那我们可能就会被大样实际上是随机噪音的新发现所淹没。 所以,这个小小的数字不仅影响着论文能不能发表,项目能不能拿到投资,他甚至在塑造我们对这个世界的认知,他告诉我们什么是事实,什么不是事实,而这背后其实是一种关于风险、成本和收益的权衡与选择。
