这个1930年的AI模型,居然会写代码。最近,社区里冒出一个有趣的、有点穿越感的研究项目——talkie。主角 talkie-1930-13b 是一个只读过 1931 年前文本的"复古"语言模型,没见过任何关于数字计算机、Python、互联网的内容。但研究者发现,给它几个 Python 代码示例当 in-context 演示后,它真的能写出正确的程序。 但让整个研究站得住脚的,其实是它的孪生对照——talkie-web-13b-base。 talkie-web-13b-base 是一个130亿参数的语言模型,训练数据严格限定在1931年前的英文文本——总计2600亿token,涵盖书籍、报纸、科学论文等。它的“世界观”被冻结在百年前:不知道二战、互联网,甚至计算机。 为什么说这个对照组很关键?因为LM 研究最难的,就是把变量隔离开。模型大小、数据规模、架构细节随便一个不同,结论就变得可疑。talkie-web-13b 把所有变量锁死,只让"训练数据"动起来,"复古 vs 现代"才成为一个可信的科学问题。 从模型的benchmark里,我们看到了(blog Figure 4): · 语言理解、数值能力:两个模型表现接近 · 知识类任务:现代模型明显领先 · 但只要过滤掉"1930 年人无法回答"的题目,知识差距直接缩小一半 也就是说,复古模型不是"笨",而是"不知道"。是数据范围的问题,不是建模能力的问题。 ⏳ 构建这个“时光机”的三大挑战 · OCR噪声:历史文献需通过OCR转录,标准OCR训练效率仅30%,经清洗后达70%,团队为此开发了专用“复古OCR引擎”。 · 时间泄漏:若混入1931年后的内容(如重印本序言),模型纯粹性会被破坏。 · 后训练困境:团队从历史文本(礼仪手册、百科全书等)构建训练数据,硬是把Talkie调教成能聊天的AI。 talkie-web-13b 本身没有任何炫技。它的存在意义,是让 talkie-1930 的每个结论都变得可验证。在追 SOTA 的主流叙事之外,把对照组做扎实,是另一种值得尊敬的工作方式。 模型:modelscope.cn/models/talkie-lm/talkie-web-13b-base 体验:modelscope.cn/studios/studio-test/talkie-1930-13b-it-demo
00:00 / 00:00
连播
清屏
智能
倍速
点赞7
00:00 / 00:27
连播
清屏
智能
倍速
点赞349
00:00 / 02:00
连播
清屏
智能
倍速
点赞1
00:00 / 01:04
连播
清屏
智能
倍速
点赞13
00:00 / 04:28
连播
清屏
智能
倍速
点赞260
00:00 / 00:31
连播
清屏
智能
倍速
点赞38
00:00 / 01:40
连播
清屏
智能
倍速
点赞10
00:00 / 01:25
连播
清屏
智能
倍速
点赞88
00:00 / 03:20
连播
清屏
智能
倍速
点赞1
00:00 / 19:39
连播
清屏
智能
倍速
点赞1
00:00 / 09:52
连播
清屏
智能
倍速
点赞7
00:00 / 01:30
连播
清屏
智能
倍速
点赞65
00:00 / 02:38
连播
清屏
智能
倍速
点赞15