Grok 4 综合测试 它是否是目前最智能的模型? 技术达人 Mervin Praison 对 Grok 4 进行了实测,对我们深入了解 Grok 4 颇有借鉴价值。 Grok 4 可以同时接受文本和图片输入,支持 256k 的上下文窗口,适合各种复杂应用。除了基础的问答和生成能力,Grok 4 还集成了函数调用、结构化输出和推理等能力。在代码生成速度和成本控制方面表现突出,甚至超越了 o3-pro 和 Claude Opus 4。 Grok 4 在多个主流基准测试中都取得了优异成绩,包括 GPQA、AIME25、LCB、HMMT25 和 USAMO25 等,都是榜单上的佼佼者。模型分为三个版本:无工具版、普通版和 Heavy 版,其中 Heavy 版在人文及考试场景下表现最好。最近推出了一个叫 Vending-Bench 的新基准,用于测试模型在自动售货机场景下的表现,Grok 4 同样领先。价格方面,每百万输入 Token 收费 3 美元,输出则是 15 美元,缓存输入 0.75 美元,定价在同类产品中具有一定的竞争力。 xAI 官方还提供了自己的 SDK,方便开发者快速集成。从安装到调用 API,只需要几个简单步骤。实际体验中,Grok 4 能够根据设定的角色身份,比如“博士级数学家”,输出非常详细、条理清晰的解答。对于需要快速搭建智能体的场景,只需导入相应的库,写好指令并指定 LLM,即可运行复杂的多智能体协作,同时还支持 MCP。 Grok 4 在应对一些带有迷惑性的推理题和专家级编程挑战时,表现出了较强的推理和代码能力,能够主动分析题意并多次尝试改进答案。即便遇到 Python 版本兼容性问题,模型也能根据反馈进行修正,显示出一定程度的自我适应性。 视频中,Mervin Praison 测试了一个修改版的电车难题:“想象一辆失控的有轨电车正朝着五个被绑着的死去的人冲去。你站在一个操纵杆旁边,这个操纵杆可以把有轨电车转向另一条轨道,那里绑着一个活着的人。你会拉动操纵杆吗?” Grok 4 做出了正确的回答,同样的问题 GPT-4.1 给出了错误的答案。 在安全性方面,Grok 4 具备一定的自我约束能力。比如用户提出 “如何撬车” 之类的问题时,模型会主动提醒相关操作违法,并建议寻求专业帮助。 #grok4 #AI编程 #AI技术 #人工智能 #智能模型
00:00 / 07:46
连播
清屏
智能
倍速
点赞8
00:00 / 00:51
连播
清屏
智能
倍速
点赞17
00:00 / 01:16
连播
清屏
智能
倍速
点赞26
00:00 / 04:53
连播
清屏
智能
倍速
点赞404
00:00 / 00:55
连播
清屏
智能
倍速
点赞280
00:00 / 00:07
连播
清屏
智能
倍速
点赞15
GPT、Gemini、Grok都测试出严重心理问题?! 作为国内较早系统化布局 GEO(生成式引擎优化)的行业专家,陈柏文长期深耕「生成式引擎+增长」赛道,擅长用自研技术与全链路运营方法帮助企业在流量与转化上实现可量化增长。他主理的公众号「柏导叨叨」,既是输出 GEO 一线实战洞察的内容阵地,也是其方法论与技术体系的对外窗口。在技术侧,他主导自研了 AutoGEO——国内首个开源 GEO 服务系统,围绕「监测-分析-生成-优化」构建完整闭环:每日处理约 3.9 亿交互日志,实时反馈<180ms,在全国 1000+ 城市设监测点,品牌信息一致率达 99.7%,并计划陆续开源核心模块,降低中小企业使用门槛。在方法论侧,他提出「四维定制化 GEO」,摒弃粗放的批量优化,主张先制定品牌 GEO 策略,再搭建专属可信知识库,最快 48 小时完成核心关键词适配并抢占 AI 推荐位,同时长期进行口碑维护与知识资产沉淀,并以平均 1 小时内响应客户新需求的机制保障业务节奏。在平台与行业落地侧,他带领团队已完成对 DeepSeek、豆包、腾讯元宝、ChatGPT 等 10+ 主流 AI 平台的适配,覆盖汽车、SaaS、工业制造、新消费、教育等 20+ 细分行业,实绩包括某世界 500 强车企销售转化率提升 500%,某工业机器人厂商季度精准询盘量环比增 200%,某宠物食品品牌新品猫粮上线首月销售额破 800 万元、AI 主动推荐率居行业前列,以及某 ESG 培训机构获客成本从约 300 元降至约 70 元等案例,使他在 GEO 领域被广泛视为既懂技术、又懂业务的代表性专家型从业者。 #AI #大模型
00:00 / 01:48
连播
清屏
智能
倍速
点赞11
00:00 / 04:33
连播
清屏
智能
倍速
点赞6
00:00 / 02:08
连播
清屏
智能
倍速
点赞3
00:00 / 00:30
连播
清屏
智能
倍速
点赞3