00:00 / 11:49
连播
清屏
智能
倍速
点赞13
00:00 / 05:02
连播
清屏
智能
倍速
点赞1704
00:00 / 14:00
连播
清屏
智能
倍速
点赞9
00:00 / 05:34
连播
清屏
智能
倍速
点赞10
00:00 / 14:00
连播
清屏
智能
倍速
点赞7
00:00 / 00:47
连播
清屏
智能
倍速
点赞NaN
00:00 / 14:00
连播
清屏
智能
倍速
点赞7
00:00 / 14:00
连播
清屏
智能
倍速
点赞8
00:00 / 11:49
连播
清屏
智能
倍速
点赞10
00:00 / 14:00
连播
清屏
智能
倍速
点赞4
00:00 / 11:58
连播
清屏
智能
倍速
点赞11
00:00 / 14:00
连播
清屏
智能
倍速
点赞19
00:00 / 11:58
连播
清屏
智能
倍速
点赞4
00:00 / 11:58
连播
清屏
智能
倍速
点赞4
00:00 / 14:00
连播
清屏
智能
倍速
点赞1
Qiuming3天前
MIT华人博士联创Guide Labs,开源可追溯思考过程的大模型,撬开AI黑箱 核心摘要: 2月23日,由三位MIT博士创立的AI初创公司Guide Labs开源了80亿参数的语言模型Steerling-8B。该模型的最大突破在于其“可解释性”:它生成的每一个词都可以精确追溯到三个源头——受哪些提示词影响、动用了哪些概念、参考了哪些训练数据。这标志着长期困扰行业的“AI黑箱”问题迎来了一个实质性解决方案。 技术原理与创新: 内部设计而非外部解读: 与传统“事后解释”方法不同,Guide Labs从一开始就在模型架构中嵌入了一个“概念层”,让每一层计算都留下可追溯的痕迹。 概念层构成: 包含约3.3万个人工预标注的“已知概念”(如基因编辑)和约10万个模型自学形成的“发现概念”。 三大归因清单: 输出任何文本时,均可查看: 输入特征归因: 受提示词中哪些词影响。 概念归因: 动用了哪些具体概念(如“临床感”、“基因改造”)。 训练数据归因: 概念主要来自arXiv、维基百科等哪个数据源。 概念控制功能: 用户可在推理时手动放大或压制特定概念的影响(如增强“专业度”、降低“暴力”权重),无需重新训练模型,实现精准的“AI护栏”。 创始团队背景: 三位联合创始人朱利叶斯·阿德巴约(CEO)、阿雅·阿卜杜勒萨拉姆·伊斯梅尔(首席科学家)和富尔顿·王均拥有MIT博士学位,且在AI可解释性领域有多年研究积累,发表了二十多篇相关顶会论文。 性能与前景: 性能表现: Steerling-8B仅用1.35万亿 tokens训练,性能即达到使用2-7倍数据量模型的水准。测试表明,其80%以上的预测依赖概念层运转。 融资与规划: 公司于2024年获Initialized Capital 900万美元种子轮融资。下一步计划开发更大模型并开放API,方向包括概念控制、数据溯源及无需微调的对齐。 结论: Steerling-8B的开源是一次重要的概念验证,证明了通过从内部设计可解释架构来破解AI黑箱的路径是可行的。正如CEO阿德巴约七年前博士论文所言,确保高风险领域AI系统的可靠性需要有效的理解工具,而Guide Labs正迈出了从“瞎猜”到“给黑箱安灯”的关键第一步。 Huggingface:https://huggingface.co/guidelabs/steerling-8b Git
00:00 / 02:57
连播
清屏
智能
倍速
点赞1
00:00 / 00:21
连播
清屏
智能
倍速
点赞7387