谷歌官宣 Gemini 3 Deep Think 的重大升级 1. 定位:不再是“聊天机器人”,而是“科学家” 谷歌这次给 Deep Think 贴的标签极其硬核:专门为科学、研究和工程设计。 解决“脏活儿”:它强调处理那些没有标准答案、数据混乱且不完整的任务。 实战案例:文中提到它识别出了人类同行评审都没发现的数学论文逻辑漏洞,还能帮实验室设计半导体材料的配方。 2. 成绩单:把“刷榜”推向极限 如果你关注 LMSYS Arena 和各种榜单,Deep Think 3 这次给出的数据非常吓人: 编程(Codeforces):Elo 分数达到 3455。这是一个什么概念?这相当于全球顶尖竞技程序员(特级大师级别)的水平。 数学(IMO 2025):达到了国际数学奥林匹克金牌水平。 “人类最后的考试”(Humanity's Last Exam):在不联网、不使用工具的情况下得分 48.4%。这是一个专门为难倒 AI 设计的极端硬核考试,这个分数目前是行业天花板。 ARC-AGI-2:得分 84.6%。这是衡量 AI 是否具备“类人通用智力(AGI)”的最权威榜单,这个进步跨度极大。 3. 实战功能:从“想”到“做”的闭环 这对你关注的 AI 自动化非常重要: 3D 建模能力:官方演示了它能把一张手绘草图直接变成可打印的 3D 模型文件。它不仅是理解图像,而是能通过代码对物理系统进行建模。 开放 API 权限:这是第一次,谷歌不仅在 Gemini 应用里开放 Deep Think,还通过 Gemini API 向开发者和企业开放早期访问权限。 #gemini #谷歌 #ai #nanobanana #google
00:00 / 05:45
连播
清屏
智能
倍速
点赞42
00:00 / 03:23
连播
清屏
智能
倍速
点赞64
00:00 / 00:23
连播
清屏
智能
倍速
点赞5
00:00 / 01:57
连播
清屏
智能
倍速
点赞2
00:00 / 00:06
连播
清屏
智能
倍速
点赞31
2月12号凌晨,智谱扔下了一颗重磅消息——GLM-5正式上线并且完全开源。但比这个官宣更精彩的,是它背后的故事。 就在几天前,全球开发者社区被一个神秘模型"Pony Alpha"搅得沸沸扬扬。这个在OpenRouter平台上线的匿名模型,没有任何品牌背书,却凭借强悍的编码能力和超长上下文窗口,连续多日霸榜热度第一。直到智谱官方确认,大家才恍然大悟:原来这匹"黑马",就是GLM-5的匿名测试版本。 这种"先上车后补票"的玩法,在AI圈极其罕见。通常大厂发布新模型都是锣鼓喧天、发布会加PPT,但智谱选择让产品自己说话。当一个模型在没有Logo、没有营销的情况下,被全球开发者当作真实生产工具使用,这本身就说明了能力层级的质变。 那么GLM-5到底强在哪?智谱给它定的调很清晰:这不是一个聊天机器人,而是一个"Agentic Engineering"基座模型。什么意思呢?过去两年,大模型的主流叙事是"写代码""写前端",这叫Vibe Coding,氛围编程,追求的是代码片段的流畅生成。但现在行业共识正在转向:模型需要完成完整工程与复杂任务,从写几行代码进化到端到端交付整个系统。 举个例子你就明白了。以前的AI编程像是请了个文笔不错的实习生,能帮你写个漂亮的HTML页面;但GLM-5更像是一个系统架构师,它懂Linux内核,懂500个微服务之间的调用关系,懂如何在不炸掉线上的前提下重构代码,还能自己规划任务、自己修Bug。在SWE-bench-Verified和Terminal Bench 2.0这两个权威编程基准测试中,GLM-5拿下了开源模型的最高分,真实使用体验已经逼近行业天花板Claude Opus 4.5。 更值得关注的是它的"长程记忆"能力。智谱构建了一个叫"Slime"的异步强化学习框架,让模型能在长程交互中持续学习,不再是聊几句就忘。在一个模拟经营测试中,GLM-5被要求经营一年的自动售货机业务,最终账户余额达到4432美元,这个成绩接近Claude Opus 4.5的水平。这意味着什么?意味着AI开始具备长期规划能力和资源管理能力,能在复杂任务中保持目标一致性。 #智谱 #GLM5 #AI编程 #大模型涨价 #AI应用
00:00 / 03:16
连播
清屏
智能
倍速
点赞278
00:00 / 00:53
连播
清屏
智能
倍速
点赞906
00:00 / 00:06
连播
清屏
智能
倍速
点赞6
00:00 / 05:09
连播
清屏
智能
倍速
点赞24