00:00 / 02:21
连播
清屏
智能
倍速
点赞20
大模型第一股开年前交出新一代旗舰基座模型GLM-5 智谱AI于2月12日正式发布新一代旗舰基座模型GLM-5,该模型定位为面向复杂系统工程与长程Agent任务的基座模型,参数量提升至744B(激活40B),预训练数据达28.5T token。其前身为开源社区近期热议的匿名测试版本Pony Alpha。 GLM-5在技术架构上集成两大核心创新:采用异步智能体强化学习框架"Slime",支持模型在长程交互中持续学习;结合DeepSeek稀疏注意力机制,在保持长文本处理能力的同时显著降低计算成本。评测数据显示,其在SWE-bench Verified等编程基准中表现超越Gemini 3 Pro,在BrowseComp、MCP-Atlas等Agent能力评测中达到开源SOTA水平。 实测案例显示,GLM-5具备较强的系统工程能力。在克隆Web界面任务中可实现80%完成度,在构建macOS仿真桌面时展现出模块化设计与交互协调能力。开发者基于GLM-5构建的多智能体世界Pookie World能实现社会级涌现行为,另有用户利用其开发出可上架App Store的论文探索工具。 值得注意的是,模型在简单常识题测试中表现改进明显——匿名测试版Pony Alpha曾错误建议"步行50米去洗车",而正式版GLM-5已能正确理解必须开车前往的物理逻辑。这反映出模型在常识推理方面的优化。 GLM-5标志着智谱AI从代码生成工具向系统工程平台的转型。虽然与Claude Opus 4.6等顶尖闭源模型仍存在细节差距,但其开源特性与性价比优势为专业开发者提供了可靠的生产力选择。
00:00 / 12:42
连播
清屏
智能
倍速
点赞7
00:00 / 01:08
连播
清屏
智能
倍速
点赞7
00:00 / 00:34
连播
清屏
智能
倍速
点赞2143
00:00 / 00:50
连播
清屏
智能
倍速
点赞2764
Tony沈哲4月前
2025年12月23日AI晚报 智谱AI 正式发布并开源其最新旗舰模型 GLM-4.7。该模型针对 Agentic Coding 场景进行了深度优化,并在编码、复杂推理及工具调用能力上实现显著突破,部分指标超越 Claude 4.5。在 LMArena Code Arena 盲测中,GLM-4.7 位列开源模型第一和国内模型第一。 MiniMax 在 MiniMax Agent 平台中上线了其最新的 M2.1 模型。据官方称,这是一款为 Agent 和复杂问题解决设计的模型,在多项任务上有所提升。MiniMax 团队负责人表示,可见的状态(如文件、工具、进度、决策)对于信任和可用性至关重要,M2.1 是朝这一方向迈出的一步。该模型现已可在其在线平台中体验。此外,MiniMax M2.1 模型已经在第三方基准测试平台 LM Arena 中上线。 月之暗面近日通过官方公众号分享了其团队如何在 2025年 将旗下的 Kimi K2 系列模型应用于实际工作。文章内部分享了深度研究、OK Computer、PPT助手以及 Agentic Coding 等 Agent 技能在日常业务中的应用案例,展示了其自主规划、检索和交付成果的能力。这些能力源于擅长代码和工具使用的 Kimi K2 及 Kimi K2 Thinking 模型。 阿里巴巴通义实验室旗下的大语言模型 Wan 正式发布了其商用级图像生成模型 Wan2.6-Image。该模型支持交错图文生成,能够结合逻辑推理能力创作叙事驱动的视觉内容。同时,它支持多图条件生成,可灵活参考、组合和替换多张图片。该模型提供商用级的身份(ID)一致性保持,确保角色、风格和元素在商业场景下的高一致性。它能从参考图中提取颜色、风格、构图等创意元素,进行美学驱动的图像生成。 NVIDIA 近期发布了一份面向初学者的 LLM 微调指南,详细介绍了如何在从 GeForce RTX 笔记本到 DGX Spark 在内的多种硬件上使用开源框架 Unsloth。 #GLM #MiniMax #Kimi #wan #NVIDIA
00:00 / 02:39
连播
清屏
智能
倍速
点赞13
00:00 / 00:51
连播
清屏
智能
倍速
点赞3721
00:00 / 00:17
连播
清屏
智能
倍速
点赞12
00:00 / 01:49
连播
清屏
智能
倍速
点赞3