00:00 / 04:54
连播
清屏
智能
倍速
点赞3
00:00 / 00:29
连播
清屏
智能
倍速
点赞11
NaN 不是玄学,是训练在给你发“我不想活了”的短信 NaN 这玩意儿在生物影像训练里,属于那种“我也不知道我哪错了,但我就是要炸给你看”的摆烂艺术。昨天还好好的,曲线甚至有点起色,你刚准备对生活重燃希望,今天一跑,loss 直接变成 NaN/inf,像是模型突然决定退学,并且把你的电费当作离校手续一起报销了。你开始自责、开始翻代码、开始怀疑昨晚是不是忘了给 GPU 说晚安,整个人进入玄学状态。 真凶通常不神秘,神秘的是它们太会伪装。混精像个脾气不稳定的同事,平时挺高效,一不爽就把数值范围搞爆;某个除法的分母稍微小一点,或者 log 里进了不该进的值,训练就会当场翻桌。再加上医学影像数据本身尺度花样多,归一化稍微一抽风,输入里塞进一个离谱的极值,NaN 就会像闻到血腥味一样冲出来。它不是来告诉你“模型不行”,它是来告诉你“你这套数值链路有地方在裸奔”。 我现在对 NaN 的态度很冷酷:先别找哲学原因,先把它按住。先把混精关掉跑一小段,看看是不是立刻世界和平;再把梯度收敛一点,别让它自由发挥;然后从输入到 loss 这条链路快速扫一遍,尤其是那些看起来“应该没问题”的除法、开方、log。NaN 不会凭空出现,它只是把你之前欠下的数值卫生账单,当场贴你脸上而已。#科研狗的日常 #AI #研究生日常
00:00 / 05:02
连播
清屏
智能
倍速
点赞7
00:00 / 07:38
连播
清屏
智能
倍速
点赞54
00:00 / 12:31
连播
清屏
智能
倍速
点赞4