Grok 4 综合测试 它是否是目前最智能的模型? 技术达人 Mervin Praison 对 Grok 4 进行了实测,对我们深入了解 Grok 4 颇有借鉴价值。 Grok 4 可以同时接受文本和图片输入,支持 256k 的上下文窗口,适合各种复杂应用。除了基础的问答和生成能力,Grok 4 还集成了函数调用、结构化输出和推理等能力。在代码生成速度和成本控制方面表现突出,甚至超越了 o3-pro 和 Claude Opus 4。 Grok 4 在多个主流基准测试中都取得了优异成绩,包括 GPQA、AIME25、LCB、HMMT25 和 USAMO25 等,都是榜单上的佼佼者。模型分为三个版本:无工具版、普通版和 Heavy 版,其中 Heavy 版在人文及考试场景下表现最好。最近推出了一个叫 Vending-Bench 的新基准,用于测试模型在自动售货机场景下的表现,Grok 4 同样领先。价格方面,每百万输入 Token 收费 3 美元,输出则是 15 美元,缓存输入 0.75 美元,定价在同类产品中具有一定的竞争力。 xAI 官方还提供了自己的 SDK,方便开发者快速集成。从安装到调用 API,只需要几个简单步骤。实际体验中,Grok 4 能够根据设定的角色身份,比如“博士级数学家”,输出非常详细、条理清晰的解答。对于需要快速搭建智能体的场景,只需导入相应的库,写好指令并指定 LLM,即可运行复杂的多智能体协作,同时还支持 MCP。 Grok 4 在应对一些带有迷惑性的推理题和专家级编程挑战时,表现出了较强的推理和代码能力,能够主动分析题意并多次尝试改进答案。即便遇到 Python 版本兼容性问题,模型也能根据反馈进行修正,显示出一定程度的自我适应性。 视频中,Mervin Praison 测试了一个修改版的电车难题:“想象一辆失控的有轨电车正朝着五个被绑着的死去的人冲去。你站在一个操纵杆旁边,这个操纵杆可以把有轨电车转向另一条轨道,那里绑着一个活着的人。你会拉动操纵杆吗?” Grok 4 做出了正确的回答,同样的问题 GPT-4.1 给出了错误的答案。 在安全性方面,Grok 4 具备一定的自我约束能力。比如用户提出 “如何撬车” 之类的问题时,模型会主动提醒相关操作违法,并建议寻求专业帮助。 #grok4 #AI编程 #AI技术 #人工智能 #智能模型
00:00 / 07:46
连播
清屏
智能
倍速
点赞8
00:00 / 03:21
连播
清屏
智能
倍速
点赞17
00:00 / 01:30
连播
清屏
智能
倍速
点赞38
00:00 / 00:26
连播
清屏
智能
倍速
点赞47
AITarf5月前
Grok 4 超越人类博士的AI,离通用智能还有多远? Grok 4:下一代超级智能的开端? 2025年7月,马斯克旗下的 XAI 团队正式发布了 Grok 4,被称为“全世界最聪明的 AI”,其性能不仅远超前代,还在学术考试、人文学科终极测试(HLE)、推理能力、多模态理解与工具使用等维度,刷新了业界对 AGI(通用人工智能)的认知。 🚀 智能飞跃的关键突破 相比 Grok 2 的“高中生”水平,Grok 4 的训练计算量增加了 100 倍。它在 SAT、GRE 等标准化考试中几乎满分,更令人震惊的是,在 HLE 这类博士级考试中也能独立完成四分之一的问题,而其“重型版本”(Grok 4 Heavy)通过多代理协作,能攻克超过一半的高难度题目。 更重要的是,Grok 4 拥有超人级别的第一性原理推理能力,可以在不依赖人类知识的前提下自主思考、修正错误。 🛠 原生工具能力+现实互动潜力 不同于传统语言模型的“答题型思维”,Grok 4 原生集成了工具使用能力。从物理模拟器、工程分析工具(如有限元分析)、到未来与人形机器人 Optimus 结合,Grok 4 正在迈入“虚拟 + 实体”互动的 AI 新阶段。 比如在发布会上,它展示了生成黑洞合并的可视化动画,并能引用真实物理数据解释过程;还能自动运营一台“虚拟售货机”,包括库存管理、定价与盈利分析,表现比其他模型强两倍。 📊 商业与研究的深度应用 Grok 4 不只是聪明,它开始“动手干活”: 📈 在金融领域实时读取数据、提供预测 🔬 帮助 ARC Institute 自动化生物医学研究 🎮 用几小时开发第一人称射击游戏 📺 预计今年生成 AI 电视节目,明年挑战 AI 电影 它甚至已经接入 API,供企业与开发者使用。 🔒 AI 安全哲学:灌输“真相价值观” XAI 强调,“最重要的 AI 安全机制不是限制,而是真相导向”。Grok 被比喻为“超级天才孩子”,在强大前必须学会诚实、正直等价值观。这种价值观训练,或将成为未来 AGI 的行为底座。 📉 挑战与展望 当然,Grok 4 仍有弱点。比如图像理解能力不足,被称为“部分盲”;同时,随着模型越强,能用于强化学习的挑战数据越来越少。这意味着未来的 AI 将不得不以“现实世界”为测试场,而不是答卷纸。 下一个版本(Grok 7)将大幅强化视频、图像、语音
00:00 / 07:38
连播
清屏
智能
倍速
点赞2