00:00 / 01:15
连播
清屏
智能
倍速
点赞8
00:00 / 02:23
连播
清屏
智能
倍速
点赞328
Grok 4 综合测试 它是否是目前最智能的模型? 技术达人 Mervin Praison 对 Grok 4 进行了实测,对我们深入了解 Grok 4 颇有借鉴价值。 Grok 4 可以同时接受文本和图片输入,支持 256k 的上下文窗口,适合各种复杂应用。除了基础的问答和生成能力,Grok 4 还集成了函数调用、结构化输出和推理等能力。在代码生成速度和成本控制方面表现突出,甚至超越了 o3-pro 和 Claude Opus 4。 Grok 4 在多个主流基准测试中都取得了优异成绩,包括 GPQA、AIME25、LCB、HMMT25 和 USAMO25 等,都是榜单上的佼佼者。模型分为三个版本:无工具版、普通版和 Heavy 版,其中 Heavy 版在人文及考试场景下表现最好。最近推出了一个叫 Vending-Bench 的新基准,用于测试模型在自动售货机场景下的表现,Grok 4 同样领先。价格方面,每百万输入 Token 收费 3 美元,输出则是 15 美元,缓存输入 0.75 美元,定价在同类产品中具有一定的竞争力。 xAI 官方还提供了自己的 SDK,方便开发者快速集成。从安装到调用 API,只需要几个简单步骤。实际体验中,Grok 4 能够根据设定的角色身份,比如“博士级数学家”,输出非常详细、条理清晰的解答。对于需要快速搭建智能体的场景,只需导入相应的库,写好指令并指定 LLM,即可运行复杂的多智能体协作,同时还支持 MCP。 Grok 4 在应对一些带有迷惑性的推理题和专家级编程挑战时,表现出了较强的推理和代码能力,能够主动分析题意并多次尝试改进答案。即便遇到 Python 版本兼容性问题,模型也能根据反馈进行修正,显示出一定程度的自我适应性。 视频中,Mervin Praison 测试了一个修改版的电车难题:“想象一辆失控的有轨电车正朝着五个被绑着的死去的人冲去。你站在一个操纵杆旁边,这个操纵杆可以把有轨电车转向另一条轨道,那里绑着一个活着的人。你会拉动操纵杆吗?” Grok 4 做出了正确的回答,同样的问题 GPT-4.1 给出了错误的答案。 在安全性方面,Grok 4 具备一定的自我约束能力。比如用户提出 “如何撬车” 之类的问题时,模型会主动提醒相关操作违法,并建议寻求专业帮助。 #grok4 #AI编程 #AI技术 #人工智能 #智能模型
00:00 / 07:46
连播
清屏
智能
倍速
点赞8
00:00 / 18:29
连播
清屏
智能
倍速
点赞17
00:00 / 01:30
连播
清屏
智能
倍速
点赞39
00:00 / 01:08
连播
清屏
智能
倍速
点赞99