Tony沈哲3天前
2026年第十五周的一周AI要闻 Anthropic 近日发布了其最新前沿模型 Claude Mythos Preview(此前内部代号为“Capybara”),该模型在代码修复、数学推理及长上下文处理等领域实现了断崖式的性能跨越。根据官方数据,该模型在 SWE-bench Verified 基准测试中达到了 93.9% 的得分,远超 Claude Opus 4.6 的 80.8%;在 USAMO 2026 数学证明测试中更是从上一代的 42.3% 飙升至 97.6%。 智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1,该模型专为 Agentic 工程设计,拥有 7540 亿 参数并以 MIT License 开源。GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出,在综合能力和编程上对齐 Claude Opus,并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。该模型的核心突破在于其显著提升的长程任务能力,能够在单次任务中自主工作长达 8 小时,通过数百轮迭代和数千次工具调用持续优化结果。 Meta Superintelligence Labs (MSL) 正式发布了 Muse 系列的首款大语言模型 Muse Spark。官方公告显示,这是该实验室在过去九个月从零重建 AI 技术栈后的首个产品,定位为迈向个人超级智能的基础模型。该原生多模态推理模型支持工具使用、视觉思维链和多智能体编排。据媒体与独立评测机构 Artificial Analysis 报道,这是 Meta 首个未提供开源权重的前沿模型,其在 Intelligence Index 中获得 52 分,跻身前五,在视觉与 token 效率方面表现优异,但在部分 Agentic 评测中稍显逊色。 MiniMax 已于今天正式开源 MiniMax-M2.7 模型。它是一款展现了深度模型自我演化能力的先进人工智能,它能够自主优化代码逻辑并在复杂的生产环境中进行系统级推理。该模型在软件工程领域表现卓。 #Anthropic #Meta #MiniMax #OpenAI #HappyHorse
00:00 / 03:46
连播
清屏
智能
倍速
点赞11