粉丝4337获赞2.9万

不鸣则已,一鸣惊人啊!这两天,一位年轻的中国女数学家火了,他是华中科技大学数学中心的副研究员,叫还真哎,我敢说大部分朋友可能跟我一样,别说他的研究咱看不懂,这名字都要看拼音才会读, 那他干了件什么了不起的事呢?据澎湃新闻的报导,近日他的读作文章被数学界顶级期刊 x maximatic 接收,在学术界引起巨大关注。这到底有多牛呢? 这么说吧,他是新中国成立以来,继中国数学界的泰山北斗苏布清院士之后,第二位以独立作者的身份在 accidents matics 上发文的中国内地学者。 要知道,能在国际学界公认最权威、最严科的数学顶级期刊之一上发表文章,已经是攀登上珠峰了,而能以独立作者的身份 发表,那更是难上加难。在还真之前,一九三三年至今,中国内地在该期刊上发过论文的也只有十三人,其中六位是院士。当然,还真不是大家想象中的神童出身,科研道路也并非一帆风顺,二零零六年获得北大数学学士后赴美深造, 曾因换方向重读博士七年,博士学位,论文长达两百九十页,答辩之后又修改了一年才最终完稿学成。归国后,曾在中山大学任助理研究员,一九年六月转入华中科技大学数学中心任副研究员, 折服十余载才厚积薄发。因为他苦心故意的科研经历,再加上名字在英文中是倒着写的甄嬛。所以呢,被很多网友称为数学界的甄嬛。他自己也说,数学工作者所面对的世界就像童话, 与现实格格不入。其他人其实并不知道我们在做什么,付出了多少,从他们的角度,我们多多少少是很奇怪的人。的确,做研究注定是一条孤独、艰难、枯燥的路,要耐得住寂寞,经得起诱惑。 若急功近利,坐不住冷板凳,终难成其大,更难真正取得原创性、开创性的重大科研成果。 还真的成就之所以让人振奋,不只是让我们看到了星星后起之秀为代表的中国科研能力的不断提升,看到年轻的科研人员心无旁骛、脚踏实地、十年不明、一鸣惊人的定力和实力,另一方面也可以说是科研环境不断改进优化的一个成效显现。 当然,像还真这样登顶世界的毕竟是少数,因为重大科技成果基础性、颠覆式的创新不是一朝一夕一蹴而就的,也不是一 己之力能一步登天的。更多默默无闻的科研人员,可能十几年、二十几年,甚至大半辈子都深藏功与名,但也正是无数埋头钻研的无名之辈,甘于奉献,甘为人梯,用数年、数十年如一日的坚守和积淀,换来所设领域突破性的进展成就。 他们都是功臣,都是我们该追的星,也期待越来越多的中国科学家、研究员登顶世界之巅。

被说是有 nba 选秀首轮前景的浏阳球员黄思南高四赛季表现究竟如何?他到底有多少真实实力?是真的有 nba 选秀首轮前景?还是只是被小众选秀预测网站吹起来的假未来之行?大家好,我是克里斯,欢迎来到球场放大镜。 黄思南这个高四赛季和上赛季一样,都在马里兰州的乔治城预科学校打球,可能是因为乔治城预科这赛季初曾六十三比三十三大比分输给过 e y b o s k l s t。 联赛战绩倒数第二的圣詹姆斯学院,所以很多人对乔治城预科的刻板印象就是球队整体水平很低, 但是其实这更多是因为 e y b o s k l s。 联赛。作为美高篮球最强联赛,是真的无弱旅,就算是联赛的云南球队基本上都是两三个四星高中生打底,甚至在强队会出现三星高中生只能打二队的情况,所以乔治成誉科不是真的那么弱, 只是 e y b o s k l s t。 联赛整体实力实在是太超班了。其实在张柏元去打 e y b o s k l s t。 联赛之前,王思南一直都是这一批美高六郎球员中打的比赛的整体水平和强度最高的一个。 王思南所在的乔治城预科学校在马里兰州当地是绝对的强队,在马里兰州的两百九十八支高中校队中排名第四,并且这赛季在当地的 iac 联赛常规赛实战全胜,随后还在 iac 联赛季后赛中夺冠。 黄思南场均拿到十八点八分、八点七个篮板、三点五个盖帽,被评为 ic 联赛年度最佳球员,并且在二四级体育被评为四型高中生,排在全美第七十三,在 espn 也是四型,被排在全美第八十三名。黄思南是属于那种优缺点都较为突出的球员,他有着两米一六的身高,配上两米二七的臂展, 而且他还有着同龄同尺寸球员中非常好的移动能力,换访的潜力很大,同时也有足够的机动性去和后卫一起下快攻,这 这些特质再配上还算合格的盖帽,时机把握就让他拥有了同龄人中顶级的护框能力,拦下防守面积大的简直离谱,在去年的 u 十九世青赛上,场均送出整整五个盖帽,在乔治成誉科的比赛中,大多数对手根本不敢在拦下直接挑战他的情况下,仍旧场均有三点六个盖帽, 这些都印证了他的护框能力有多强。说完优点,这几年看下来,其实他的缺点也非常突出,下面就说他目前最主要的五大缺点。第一,严重缺乏篮板球能力, 这一方面是因为他缺乏足够的下肢力量,经常在卡威抢篮板时被对手挤开,而且他对篮板球的落点以及抢篮板的起跳时机也判断的不好,这些因素加起来就导致在所有他参加的同龄人的顶级赛事中,他都没有办法保护好篮板球。在 u 十九世青赛场均只抢到四点六个篮板, 去年夏天在杜兰特的 a a u 球队打 y b l 也是场均只有四点六个篮板。第二个缺点是经常晃悠手,这不仅是接球的时候时常接不住,还会拿球拿不稳,本头到手的球又丢掉,或者球在手上被对手一切就掉,一方面是以他的身材来说,他的手是相对偏小一点, 还有就是手指的力量和球感都不够好,也会导致这种情况。第三是缺乏足够的球场视野,甚至说是有点所谓的隧道视野,特别是当他面框持球进攻的时候,这点就特别明显,经常是看不到出机会的队友,也看不到斜方过来的对手,明显注意力只放在了面前的防守人和篮筐上, 时常单纯是因为这个错失得分机会和送出不必要的失误。第四是缺乏自主进攻能力。在高水平比赛中被框进攻时,因为对抗不足顶不开人, 同时也缺乏足够进阶的背筐进攻技巧。这个高四赛季他是有尝试开发出更多的持球面框进攻能力,特别是从三分线外自己持球打,他也确实是有练出一些持球进攻能力, 再加上他的动态静态天赋实在是太好,高四赛季中确实打出了一些持球进攻的高光表现,但是他的持球进攻还远远谈不上成熟,即使是在乔治成誉科打的这种级别的比赛中,他的持球进攻时也是频频失误,各种丢球, 甚至可以说有时候让他去打持球对球队是弊大于利的,再加上他在外线还没有稳定的投篮能力,在高中赛场他还能依赖净动态天赋的巨大优势,比较轻松的得分。但是等到下个赛季去了普渡大学打 bacon 赛区的比赛时,目前看来他真的没有一项自主进攻技术是可以在普渡 在被坑赛区拿的出手的。第五是他的身体协调性较差,动作比较僵硬。不过这个缺点他刘洋这几年其实是已经有了巨大的提升了,对比他最初在温德米尔学院时期,他目前的身体协调性真的是已经进步了很多,所以这点反而是这五点中最不让人担心的一个。 总的来说,黄思南的静态、动态天赋综合起来看在同龄人中肯定是顶级的,但是酋长意识和技术完成度这些比较细节的东西都还做得远远不够好。好在他选择了以球员养成文明的普渡大学男篮。 在现如今金源时代下的 ncaa, 不 少球队在转学市场上是接近整支球队的人都选择转校,而普渡就完全没有这个问题, 赛季轮换阵容中的球员没有一个在这个夏天进入转学市场。正是因为相比其他学校,在普渡球员有更明确的养成路径和培养模式,所以自然就很少会有球员选择中途转学。 在普渡这样更加注重球员培养的球队里,黄思南就可以专心的去一步步提升自己的能力。以黄思南目前的水平来看,他下赛季能快速适应 big 赛区的强度, 做到万元登。在 ncaa 打了一个赛季就去 nba 的 概率是极低的,甚至两年内能做好准备去 nba 都很难,比较大概率是在 ncaa 打磨个三到四年再尝试登陆 nba, 尽管到时候作为大龄新秀去选秀肯定年龄上不占优势了,但是以他目前各方面的粗糙程度来说, 王安端一年即走实在是不现实,甚至两年即走也不太现实,尽管目前黄思南已经被 nba 选秀预测网站 nba draft room 多次预测到了二八年 nba 选秀首轮被选中的位置, 确实 nba draft room 这个网站对中国球员非常友好,之前把庞青芳预测到了二五年选秀大会次轮,前段把张柏元预测到了首轮三十顺位,也是最早把杨汉森预测到二五年选秀首轮位置上的网站。但是考虑到黄思南目前这一系列的缺点,而且一场 nca 的 比赛都还没有打过, 这种情况下直接去预测两年以后的 nba 选秀大会的结果,实在是参考意义不大。不过不管怎么说,这还是侧面说明了他这个类型这个天赋的球员对 nba 球队来说有多香,未来只要他能把篮板、球场、意识力量、对抗、传球、投篮这其中的三分之二提高到 nba 的 及格线的话, 以他的天赋,他肯定有机会在 nba 选秀大会首轮甚至在乐透区被选中。不过理性的说,目前还是要放低期待,让他好好练几, 看这个夏天在普度的下训中能不能先把一些比较基础的几项东西提高了,希望他越打越好吧,我还是非常非常期待他下个赛季在普度的表现的。好了,本期视频就到这里,感谢大家观看,我们下次再见!

接到网友投稿,举报中山大学国家科技进步二等奖得主康洁青内政子刊涉嫌严重学术造假。这篇论文是康洁青官网主页代表作第二篇,重要程度可见一斑,但是很明显,这是造假的证据。如下,两张图当中的小鼠明明是同一张照片,小鼠的姿势和外形都一样,但是小鼠的荧光却不一样, 这两张照片不可能同时是真的,没有这种可能性。同样的问题还出现在这两张图当中,我能想到的导致此现象的原因只有两种,第一种,这些荧光是 ps 的。 第二种,作者把小鼠放在机器里面,通过调整机器参数改变荧光强度,但是忘了给小鼠换一个姿势了,失误了。 咱有一说一,作者要是没有忘记给小鼠换一个造型,咱永远也识别不出这是一篇假论文。我三令五申呐,令令深深深深, 做科研要认真,造假更要认真。无论是以上哪种情况,都是非常严重的学生造假行为,作者肯定不承认,造假技术和嘴总要有一个是硬的,但是我实在是想不到其他的可能性了,所以希望论文作者给我们编一个有创新性的借口。 其实这篇论文彻不彻口对研究生的生活没有什么影响,反倒是作者狡辩的借口,能够给广大研究生在百忙之中带来一丝欢笑,是实打实的贡献。此论文还有三处图片重复,作者已经对其中两处进行了看物。 图片重复在科研圈统一被解释为图片误用,就是不小心失误了,手滑了,导致用错了。不信你去问作者,他肯定说自己是不小心,那么有些同学就会发出质疑,教授们,为什么图片误用会这么多?我在此必须替教授们澄清一下,图片误用真不多, 什么经费误用啊,直悬误用啊,爱情误用啊,那才多呢。此论文还有一些不能用失误来解释的数据,比如延伸图六 h 和延伸图六 j 存在大量的数据重复, 红色标注出来的表示完全一致,绿色标注出来的表示相似。我最喜欢这种数据了,因为如果是百分百相同,作者会说我是在处理数据的过程当中不小心抽羊癫疯了,手在键盘上疯狂的抽搐,摁了很多的 ctrl c、 ctrl v, 导致这样的错误,但是现在呈现出来的数据有明显的加工痕迹,但是还加工的很笨拙。 来,请说明什么疾病会导致这种现象?请作者开始你的表演。以上为网友投稿,以下是我个人发现的一些数据问题,图二 c 经常做实验的人一眼看过去就会觉得这个数据很别扭,别扭在哪呢?小数点后面的位数异常, 这个实验在称小数的 f 的 重量,小数点后面不是三位就默认是零,省略了,这是常识对吧?可是一共三十六个数据,其中十个结尾是零。 延伸图五 d 更夸张,六十个数据,二十八个末尾为零。延伸图九 h, 三十六个数据,十九个末尾为零。延伸图十 i 四十八个数据,二十三个,末尾为零。延伸图十 k, 三十个数据,十一个,末尾为零。基于以上事实,我有理由猜测这些数据是作者凭空捏造的, 当然,我也希望作者能够帮我编一个令人发笑的解释,我留着春晚看,放心,不要有压力。你敢解释,我就敢信,绝不质疑。同学们在食堂吃饭的时候有没有段子可以聊,就看你这波了啊。只可惜康洁清不是院长,要不然我又能收集一个院长碎片。 冰山露出水面的永远只是一小部分。离谱的学校造假,背后有多少不那么离谱的造假,我们可能永远都无法知道。同济大学那篇论文造假,最近没有什么消息了,网友们担心他是不是冷处理了呀?放心,冷不了。后面还有一篇重量级的官媒报道,我只能透露这么多 经费管理部门儿,统计大学、 nature 杂志社都表示介入调查,零容忍。这要是都能没事儿,以后谁还做真科研呐?都开始编数据了,不是科研做不起。造假更具性价比。屏幕前的你们看了院长科技组的学生造假,你是不是已经学会了使用随机树生成器?那么你还能编出比那篇 nature 论文更假的论文吗? 如果这篇论文的造假问题没有好好处理,学生以后在实验室里造假,老师问你为什么造假?学生就理直气壮的说,统计王院长,科技组就造假, 我这是向榜样学习,人家是九八五,院长是结清是长江是首席,请问导师您是?把导师您放中间,一边放王院长,一边放一条狗,您猜您离哪一边距离更近?导师回想自己认真科研,一无所有,那些学生造假的人应有尽有,一拍大腿,我跟你一起造假,我也要当院长! 这就是这篇造假的那篇论文正在给老师学生们带来的影响,而这种影响会不会持续扩大,就要看后续的处理结果了。

大集锦来了啊,我把市面上能找到的所有真科颜造假证书给大家搜罗到了,咱们一会就一个一个过,看看有多离谱,来吧, 真科颜他就没有这种尺寸跨度,他要么就是六到六点五,要么六点五到七,这个假证书也是一模一样的,问题没有七点二到八点一, 只要是六秒以上,所有的尺寸都是零点五一个跨度离谱。二,我们的白蝶被澳白啊,就是在这个地方他不可能写澳白,要么是维纳斯,要么是凤凰,都是写对他等级的评定,这个就假的更离谱了,哪来的蓝丝带啊,就真科颜不可能给你整这种玩意的。这个的假证书 问题就在错别字,你看,尤其是两个地方特别明显,这张的帘子他是两个点,但是实际上真的他只有一个点。第二个经常犯错的就是干涉色那一栏,日文的第二个字母正确的是两个点, 你看这个也是非常标准的,就是我说的那两个错别字一模一样。还有一种离谱的行为就是很明显的,他拍图片的证书和那个串珠链的尺寸您目测都不一样,跟证书完全不匹配的桌子不对,证书肯定这个更离谱,两千九买的这种的串珠链,你正版的话至少五位数起步的, 这就是标准的淡水的染色珠,加上假证一起忽悠人的,这就更假了,这个珠子一看就是染色珠,已经过度了,这个南洋金珠也是了,跟他大 c d 一 模一样的套路。太假了,假证书都带大家看完了,然后赶紧去看看你的真科颜有没有这些小问题,希望你没有。

现在科研圈有个方向真的有点不讲道理,既能发中科院一二区,又能冲 s l r nips, 甚至直接登上 nature science。 它就是物理信息神经网络 pin。 简单来说, pin 是 把物理定律直接塞进神经网络,用 ai 去解决那些复杂到头疼的偏微分方程, 那像是物理历学材料、生物航天,这些全部都是它可以应用的刚需场景。传统方法跑不动的, pin 一 上难度直接要占。 而且从他二零一九年首次发布以来,到现在引用量已经超过了一万七,影响力也很大了,但是空白点还很多,可挖的创新点足够你们发论文使用了。以前你作为深度学习,改参数换数据集,看起来好像有那么点创新,但是发高区升高人秒距, 那现在做聘呢?随便组合一下就是新东西,像是聘加全是 former, 聘加 g n n, 还有知识音聘,多尺度聘,概率聘等等等等,不一而足,赛道新,竞争小。 那既然说到发论文 pin 最容易,发论文的两大创新路线你知道吗?第一条就是肯 pin 自身的营商刚需又不卷,因为 pin 最大的毛病就是物理方程和数据老是打架,权重怎么调都别扭。那你就去做自适应权重,分阶段训练,优化财源策略, 这些在神人眼里都是很让人眼前一亮的,扎扎实实的改进,尤其是多物理场联合训练,现在方法还很少,那你稍微优化一下,就是一篇稳稳的能投高区的论文。 那第二条路线,跨界融合,属于闭眼都能出 idea 的 那种,比如说把 pin 和贝耶斯频域分析、 l s t m 神经算子、多模态数据绑在一起,优势一互补,创新点不就拉满了吗? 那如果你的目标就是顶会,想要比较轻松的去做创新,就可以去做聘。这种交叉方向虽然好做,创新好写身,高人认可度还很高,像是传统数字方法能解的问题,你都可以用聘再去重新做一遍,相当于是自带帖子。 那我也帮大家整理好了近几年聘顶刊、顶会论文合集以及创新方向清单,可以直接对标最新的发文思路,不用你再去下方文献。那你给新手三个建议, 选择题优先冲交叉场景,什么力学、医学、流体航天,现在比纯 ai 好 发多了。第二个,创新抓痛点改进, 比如去解决梯度失衡,训练不稳定,踩样低效这些问题都是高分点。那第三个就是实验,一定要去守住底线,那去做多场景验证, ableton 要做全。还有传统数字解与搜他的对比也不能忽略。那需要拼论文合集的同学评论区留言,拼我直接发你。

想跟大家分享一些对我帮助很大,很有效且免费的科研工具。第一个是这个圣心大学图书馆,它是教咱们写 ssi 的, 就是文章中的每一部分应该怎么写,它都介绍的清清楚楚, 逻辑清晰,结构完整,就非常适合不太会写 ssi 的 小白。我写第一篇文章就是看这个教程来写的。第二个是这个 facebook, 它是一个 ssi 语料库,就是它告诉你哪一部分应该怎样描述,比如说积极的结果怎样描述,然后负面的结果应该怎么描述,就是每一部分都会有非常多的例句,然后它这里 它这里还提供了一个 pdf 版本的 s c i 语料库,就是都是一些滤具,可以拿去训练你的大模型,让大模型帮你润色东西的时候呢,能够更符合 s c i 的 规范。 第三个就是这个维度 ai, 这是清华大学校友团队推出的,当我们去解锁某一个方向的文章的时候,可以点击它的解锁 agent, 输入你的方向,它就它就能够在一点八亿真实文献库中去帮你筛选到高相关的文献。它的每一篇文献都会有一个概述,而且可以直接链接到原文。 最重要的是它的文献库每天都会实时更新,这样就能够给我们最前沿的文章。当你有文章读不懂的时候,就可以用它的解析 agent, 它能帮咱们一键总结文章内容,并对核心要点进行提炼。因为它是专门训练的读文章的大模型,所以它解析的内容还是比较有深度的,那你后续哪里不懂,也可以继续跟它对话。 第四个就是这个,它能够帮我们把数据做成炫酷的格式化图标,它有超多动态模板,我们只需要进行傻瓜式拖拽操作,就能迅速做出精美的图标,而且它的每个操作按钮都有详细的操作教程,每个图标下面也有详细的说明,可以说是非常友好。

什么?只要几毫米就可以阻断楼板的沉闷脚步声和撞击声?低频噪音的困扰将成为历史, 带来这次突破的还是咱们中国科学家,让我们看看发生了什么?国内前沿的科研力量西安交通大学马富银教授团队正在推进一种名为多尺度颗粒填充超构材料的新技术,它完全抛弃了靠材料质量和密度去硬抗声音的传统思路,而是用了一种非常巧妙的微观结构。 这种材料内部填满了极细微的污颗粒,当楼板的低频震动传过来时,这些细小的颗粒会在材料内部产生高频次的碰撞和摩擦,就像打太极拳一样,声波庞大的能量就在这些颗粒微观的摩擦中被四两拨千斤般的消耗化解掉了。 我是一名声学设计师,本身也是高敏感体质,特别了解低频噪音有多折磨人,空调、外机、水泵还有楼板撞击声都是很难改善的。而且过去为了对付这种低频隔音,材料本身就要很重,结构还要很厚,往往要牺牲十几厘米的层高。 即使这样,由于结构传声的特性,隔音效果往往还是不理想。这个新结构的数据表现非常优异,在处理一百到六百赫兹这个页内公认极难处理的低频段时,它展现出了远超传统厚重材料的衰减能力, 而它本身的厚度却仅有数毫米。这意味着,在未来的居家升学改造中,我们不用再牺牲层高,用轻薄的材料就能从源头切断低频噪音的传递。这项技术不仅能改善各种生活噪音,也将给在高铁、地铁主干道周边的房子带来巨大, 虽然项目实际落地还需要时间,但是大家发现了吗?近几年来,各种前沿升学科技不断涌现,也 据某位科学家的探索就能给我们带来真正的改变。请保持对未来的期待,真正宁静的居住环境离我们越来越近了。好了,我是德拉姆,一名升学设计师,我将继续带来各种升学前沿科技,我们下次见。

欢迎来到本期的技术解读,我是你们的老朋友,今天咱们要聊一个让无数数据科学家和算法工程师在现实业务中频频翻车的隐秘角落。 日宴里,我们总是为了追求极高的 a u c, 也就是模型排序指标而欢呼雀跃,对吧?当然,一转身把这模型推向真实世界,他却常常不按套路出牌,这到底是为什么?今天呢,咱们一起给你的模型做一次彻底的体检,顺便再安排一场微创手术。 好,咱们直接切入正题。打个生动点的比方啊,你手里那个高 a u c 的 模型,简直就像是医学院里每次考试都拿第一的全优生。 在实验室做题的时候,他分辨好坏的能力真的是无可挑剔。但是你一旦把他推到真实的病房里,面对那些真实的业务反馈,这位优等生却可能瞬间变成了一个庸医。他开出来的诊断书,有时候真的让人看了直冒冷汗。 你看画面上这个断裂的漏斗,左边呢,是咱们在实验室里看到的美好预期, a u c 超过零点九,模型信誓旦旦的预测说客户的转换率或者患者的重症风险高达八十八。但你看右边,现实的临床或业务反馈直接给你泼了盆冷水,实际的转换率只有五十。 为什么会有这么严重的脱节?核心痛点就在于 a u c 这个指标,它本质上只考察了模型的排序能力,它只关心谁比谁病得更重,却完全不关心到底有多重。也就是说,模型虽然学会了怎么排队,但它输出的那个绝对概率其实是在撒谎。 为了治好模型这个爱吹牛的毛病,咱们今天的解读分为五个步骤,第一,认清高 a u c 的 骨感现实。第二,用校准曲线做核心诊断。第三,看定量检验的化验单。第四,给你两种修复的手术方案。最后咱们再聊聊业务落地的黄金法则。 咱们先来看第一部分高 a u c 的 骨感现实,理论跑分和实际落地之间这条巨大的红沟到底是怎么产生的? 这个例子能特别直观的说明问题。假设哈,在显微镜下,你的模型给一百个细胞都打出了零点九的恶性突变概率,那从绝对概率的角度讲,现实中是不是应该有接近九十个细胞真的突变了,对吧? 但如果你连续观察哎,发现竟然只有五个细胞突变了,那么这个所谓的九十概率简直就是一个空投支票,它仅仅是一个用来比较大小的假分数而已。 当结果严重偏离预期,模型的输出就不再是严格意义上的概率了。这时候我们迫切需要做的就是孝准,既然模型撒了谎,咱们就得给他上个测谎仪。 接下来进入第二部分,咱们的核心诊断工具效准线来看,这个二维坐标系横轴是模型预测的平均概率,说白了就是模型吹的牛。纵轴呢,是真实的阳性比例,也就是化验单上的真相。 最理想的情况就是,你看到的这条绿色的完美的 y 等于 x 对 角线,它代表什么?当模型预测某个区间的患病概率是七十 percent 时,这个区间内真实的阳性比例刚好就是七十,这就叫完美校准,绝对诚实。 但实线哪有那么完美啊,往往都是偏离的。你注意看红色和蓝色这两条偏离的曲线,它们特别像两种极端性格的医生, 红线在对角线下方,代表模型高估了概率。这就好比一个极度焦虑的医生,患者刚咳嗽两声,他就甩出一个七十 percent 的 绝症概率,直接上各种昂贵的过度治疗,结果实际确诊率才百分之五十,纯属浪费钱。 反过来呢,蓝线在对角线上防,代表低估。这就好比一个特别迟钝保守的医生,患者指标都全线报警报了,他还不慌不忙给个三十 percent 的 风险评分,让病人回家多喝热水,结果病人直接进抢就是了。 在那些人命关天或者真金白银的业务里,不管是焦虑还是保守,这两种误差都是灾难级的。 那么问题来了,面对几百万个乱七八糟的患者,预测结果这条诊断曲线是怎么画出来的呢?其实就四步, 最核心的就是第二部分箱。你可以这么想,咱们把预测分处差不多的患者,全部分流到同一个病房里,比如预测风险极低的送进一号病房,极高危的送进十号病房。 分好病房后,你直接推门走进平均预测风险为零点九的九号病房,数一数化验单,看看实际确症比例到底是多少,然后算出来。 所以你看最关键的一点,就是我们通过预测分箱计算真实比例,最后把这些病房的统计数据在图上描点连线。就这么一套连招,我们就把海量复杂的个体数据,变成了一条能直观反映模型到底有多诚实的平滑曲线, 这就是孝准曲线的完整拆解。更有意思的是,不同算法画出来的曲线,天生自带不同的基因。 左边的逻辑回归就像个情绪极其稳定的老医生,因为他的底层数学机制直接优化的是对数损失,天生就带着你和真实概率的健康基因,所以他的曲线特别贴合水准线。 但是你看右边的普父贝耶斯,好家伙,曲线竟然是个极端的 s 型!为什么?因为他有个特别粗暴的强假设,认为所有特征都是相互独立的。 现实里,重感冒患者流鼻涕和打喷嚏明明是一回事,但他不懂啊,他看到流鼻涕把概率乘二,看到打喷嚏又盲目乘二,同一个证据反复算,这种数学上的叠加,直接把概率推向极端的零或一,这就导致了极其严重的校准偏差。 当然了,光凭肉眼看曲线,主观判断肯定不够,咱们得进入第三部分,从视觉诊断走向严谨的数学化验单。 这里咱们重点看两个定量指标。第一个是 briar score 布里尔分数,这公式看着虎人,但其实就是衡量你制飞镖的水平,算的是预测概率和真实标签之间的军方误差,分数越低,飞镖砸的离靶心越近。 第二个呢,叫 ece, 也就是期望效准误差。它算的是刚才咱们提到的各个病黄内的准确率和平均概率的绝对差,然后按样本量加权平均一下, ece 越低,说明整体效准的越好。 但是看平均值是有陷阱的。你想啊,要是一号病房极度低估十号病房,又极度高估政府,这么一抵消,平均下来的 e、 c、 e 看着可漂亮了,这不就是在粉饰太平吗?所以我们必须引入终极诊断。 hosmer limmer 手检验,简称 h l 检验。 如果刚才的 e、 c、 e 是 普通体检,那 h l 检验就是 f、 d、 a 级别的严格临床实验,它算的是严格的卡方统计量,只要 p 值小于零点零五,直接无情宣判模型存在显著偏差。 不过这里提个醒, h l 检验对样本量极其敏感,在千万级的大数据里,哪怕有一丁点儿微小的偏差,就像一万人的安静会场里有个人轻轻咳嗽了一声,他也会警铃大作。 所以咱们一定要结合前面的曲线综合来判断。好了,确诊报告拿到了,既然模型确实在撒谎,咱们就得把它推进手术室了。第四部分,咱们来看看两种微创手术方案。面对有偏的模型,怎么现在有两把完全不同的手术刀?左边这把叫 plata 所放, 你可以把它当成一种药效温和的广谱抗生素,或者是颇在数据表面的一条平滑的缓冲坡道。它能把两端极端的概率拉回到正常区间,非常适合小样本。或者咱们刚才看到的那种 s 型偏差,用它极其安全。 而右边这把呢,叫等距归灰。它是一种非参数化的单调分段拟合,不预设任何形状,就像为你量定制的高精度楼梯。但是千万注意,它只适用于反量大样本。 如果你数据量小,里面突然出现一个录入错误,他那极其敏感的极致会专门为这个错误建一个诡秘的台阶,导致严重的过逆河,所以一定要对症下药。 手术做完,模型出院了。最后第五部分,咱们聊聊业务的场景落地,以及一条所有数据科学家都必须刻在脑子里的皇琴法则。你可能要问了,这手术这么复杂,是不是所有模型上线前都得做概率校准?其实不然,这完全取决于你的业务诉求。 你看这颗角色树,如果你的业务只关心相对排序,比如推荐系统里找出 top n 的 商品,或者风控里拉个黑名单,那你完全可以省掉这步,盯着 a u c 看就行了。 但如果你的决策严重依赖具体的绝对数值,比如 i c u 的 死亡率预测,金融风控的利润折算,哪怕是营销的预期响应率、概率效准就是必须要做的必修课。因为在这些场景下,差之毫厘损失的可能就是人命,或者是成百上千万的真金白银。 在这里,我必须非常郑重地抛出这条黄金法则,概率校准绝对不是什么起死回生的万能药。就像这个金字塔显示的排序能力,也就是 a、 u、 c 是 你模型的地基,而校准只是建在坚实地基上的内部精修。 校准是一种单调映射,它绝对不可能提高模型的 a、 u c。 要是你的模型地基一开始就倒歪了,连健康细胞和癌细胞都分不清楚,那你就算做最完美的 plus 放手术,它依然是个烂模型。只不过它变成了一个诚实的烂模型。 他会极其精准且诚恳地告诉你,我很确定我这模型有百分之五十的概率,完全是个废物。咱们总结一下,一个真正在现实世界里能担大任的好模型,必须在这座天平的两端取得完美的平衡。 天平的左端是绝对的实力,他需要强大的鉴别力和排序能力,靠 a u c 来把正负样本区分开。而天平的右端是诚实, 它需要刻度真实,懂得分寸,依靠校准曲线和 h l 检验来保证它输出的概率,既不虚高也不保守。 那么,听完今篇的解析,我希望你能回去重新审视一下你手头正在跑的那些模型,问问自己,它不仅具备优秀的排序实力,还拥有绝对诚实的刻度吗? 在以后,面对真实的医疗、金融或者各种严肃业务决策时,请一定要把孝准取现放在和 i o c 取现同等尊贵的位置上,因为在真实世界里,诚实呢,与聪明同样重要。

大家真的不用太担心盲审过不了,从我自己的亲身经历以及我审过的那么多篇硕士学位论文来看,盲审不通过的情况其实非常少见。当然也不是完全没有, 有些论文确实写得太差,尤其是那些硕士期间没什么科研成果,论文本身又写得不好,学术规范、排版格式、框架、逻辑这些基本要素都撑不起来, 内容拼凑痕迹明显。像这种确实很难挽救,过不了也情有可原。但只要你脚踏实地、认认真真的写,按照规范的框架结构和逻辑模板来组织论文,尤其是有一定科研成果作为支撑,这样的硕士学位论文,我还没见过通不过的。

我嘞个豆啊,你们研究生刷视频也在学习吗?回复审稿人意见,那么头疼的问题都有话术教学刷到一位读研博主用夸张的表现手法将回复审稿人展示的如此婀媚又十分真实。网友评论,不怀疑他在监视我。一模一样,我就是这样学的,全文抄写背诵 收藏并逐真学习。笑麻了,请帮我把他说的话转成文字,不是,哥们,你就是学习委员!最重要的是有文章接收,后来还愿的各种意见回复应有尽有。看来博主三篇 si 真不是盖的,这极其魔性的开头语太上头了!亲爱的审稿人!亲爱的审稿人!爱的审稿人!亲爱的审稿人。

有幸看学姐操作过一次,真的被惊艳到了。他让我不要再一篇篇用 tokyo 看文献了,效率太低。只要翻进设置里找到 tokyo 文件夹,顺手就把全部文件打包,一股脑丢进翻定里。然后他又点了右边那里。 我刚想问这个有啥用,哎,研究背景、研究目的、研究现状就全部自己冒出来。我还没反应过来,我看他手一抖,直接勾选了一百篇文献,又顺手填了 deep 模式,开始逐篇深度阅读。 我的天啊,一篇上万多次的综述出稿就自己挡出来了!等我回过神才发现引用全是上传的真实文献,还能一键溯源,格式也规规整整,甚至可以直接导出 word 继续调整。恭喜你,误打误撞的学会了一种提高效率的新方法。