马斯克Grok-4 发布视频完整版 #xAI#AI #马斯克 #Grok4 #干货 2025年7月9日,马斯克旗下 xAI 公司正式发布了 Grok‑4,号称“世界上最强大的 AI 模型”。Grok‑4 在推理能力和功能上实现了大跃进:拥有极高的数学和逻辑推理水平,达到甚至超过研究生乃至博士学者的水准;同时引入了多智能体协同和更强大的多模态处理能力,支持更复杂的交互形式。 一、核心升级 超长上下文:支持 256K token,一次性处理大篇幅文本或代码,适合大型文档和复杂项目分析。 多智能体协同:Grok‑4 Heavy 版本可调度 4 个子智能体并行推理,任务拆分与交叉验证提升效率。 强化推理:相比前代,推理能力提升约 10 倍,引入“强化学习+推理”混合训练,速度更快、准确率更高。 多模态扩展:首度预留图像、视频理解与生成能力,后续将逐步开放;当前已能处理静态图像分析。 实时联网搜索:内置 DeepSearch,可抓取 X 平台等网络信息,实时引用最新时事和社交内容,无需切换应用。 开发者专用:推出 Grok‑4 Code 版,专注代码编写与调试;新增多种语音风格,响应速度约快两倍,延迟显著下降。 二、典型应用 社交聊天机器人:深度集成于 X 平台,用户可与其对话、创作或查询,且可即时利用平台数据进行分析。 车载智能助手:即将植入特斯拉系统,支持车内语音交互,完成任务指令或回答问题;并为 Optimus 机器人提供“大脑”和语控。 编码与科研支持:Grok‑4 Code 在写代码、找 bug、生成文档时表现出色;多智能体模式适合量子模拟、流体力学和商业策略等高并发推理。 科研与医疗:在医学图像评估、基因编辑筛选等领域已有落地案例,显著提高实验效率。
00:00 / 48:16
连播
清屏
智能
倍速
点赞100
Grok 4 综合测试 它是否是目前最智能的模型? 技术达人 Mervin Praison 对 Grok 4 进行了实测,对我们深入了解 Grok 4 颇有借鉴价值。 Grok 4 可以同时接受文本和图片输入,支持 256k 的上下文窗口,适合各种复杂应用。除了基础的问答和生成能力,Grok 4 还集成了函数调用、结构化输出和推理等能力。在代码生成速度和成本控制方面表现突出,甚至超越了 o3-pro 和 Claude Opus 4。 Grok 4 在多个主流基准测试中都取得了优异成绩,包括 GPQA、AIME25、LCB、HMMT25 和 USAMO25 等,都是榜单上的佼佼者。模型分为三个版本:无工具版、普通版和 Heavy 版,其中 Heavy 版在人文及考试场景下表现最好。最近推出了一个叫 Vending-Bench 的新基准,用于测试模型在自动售货机场景下的表现,Grok 4 同样领先。价格方面,每百万输入 Token 收费 3 美元,输出则是 15 美元,缓存输入 0.75 美元,定价在同类产品中具有一定的竞争力。 xAI 官方还提供了自己的 SDK,方便开发者快速集成。从安装到调用 API,只需要几个简单步骤。实际体验中,Grok 4 能够根据设定的角色身份,比如“博士级数学家”,输出非常详细、条理清晰的解答。对于需要快速搭建智能体的场景,只需导入相应的库,写好指令并指定 LLM,即可运行复杂的多智能体协作,同时还支持 MCP。 Grok 4 在应对一些带有迷惑性的推理题和专家级编程挑战时,表现出了较强的推理和代码能力,能够主动分析题意并多次尝试改进答案。即便遇到 Python 版本兼容性问题,模型也能根据反馈进行修正,显示出一定程度的自我适应性。 视频中,Mervin Praison 测试了一个修改版的电车难题:“想象一辆失控的有轨电车正朝着五个被绑着的死去的人冲去。你站在一个操纵杆旁边,这个操纵杆可以把有轨电车转向另一条轨道,那里绑着一个活着的人。你会拉动操纵杆吗?” Grok 4 做出了正确的回答,同样的问题 GPT-4.1 给出了错误的答案。 在安全性方面,Grok 4 具备一定的自我约束能力。比如用户提出 “如何撬车” 之类的问题时,模型会主动提醒相关操作违法,并建议寻求专业帮助。 #grok4 #AI编程 #AI技术 #人工智能 #智能模型
00:00 / 07:46
连播
清屏
智能
倍速
点赞8
00:00 / 11:04
连播
清屏
智能
倍速
点赞100