00:00 / 07:06
连播
清屏
智能
倍速
点赞144
00:00 / 01:02
连播
清屏
智能
倍速
点赞1196
00:00 / 00:36
连播
清屏
智能
倍速
点赞302
00:00 / 01:55
连播
清屏
智能
倍速
点赞431
闲田5天前
Gemini 3.1 Pro 实测:狂烧2亿token 作者用新发布的 Gemini 3.1 Pro 连续“vibe coding”17 小时,烧掉 2.146 亿 tokens,在真实生产环境里全面压力测试这个模型,并给出自己的结论:这已经是他新的默认主力模型之一。 模型表现与基准测试 相比 Gemini 3 Pro,Gemini 3.1 Pro 在 ARC AGI 2 从 31.1% 飙到 77.1%,在一系列代码与推理基准上也有明显提升。 在 Artificial Analysis 的 Coding Index 上拿到第一名得分 56,超过 GPT‑5.2 和 Opus 4.6 等前沿模型。 人类偏好类榜单(如 LM Arena、Design Arena)目前排名一般,他认为需要再等一段时间数据稳定后再看。 UI / 前端与创意能力 作者用自己自建的 BridgeBench 做“创意 HTML”测试,比如 Space Invaders 小游戏和 lava lamp 动画,对比 Opus 4.6,认为 Gemini 3.1 Pro 生成的 UI 更现代、更有设计感。 在 BridgeMind 官网中,他让模型用 Remotion 自动生成多个营销视频、重写几十个页面的布局和样式,并用 3JS 生成独特的 3D 动画效果,整体网站视觉被“全面焕新”。 他专门强调:3.1 Pro 在样式和组件设计上的 风格 明显优于之前版本,他以后不打算再用 Opus 4.6 做前端样式。 真实生产用例(多仓库重构、资产抓取) 他让 Gemini 3.1 Pro 在 Cursor 里“一次性计划 + 执行”重构整个复杂的 Auth 系统,涉及 4 个不同的 repo(API、web app、管理后台和 UI),包括后端逻辑、前端守卫和鉴权流程,称其“一发过”。 之前同一个问题他用 Opus 4.6 折腾很久没解决,换成 Gemini 3.1 Pro 后就解决了,这也让他觉得 3.1 Pro 的可靠性和推理更强。 他还让模型自己上网抓取各大模型/工具的真实 Logo(OpenClaw、Codeex、Cursor 等),下载品牌资产并生成定制组件,证明模型在“带浏览器工具的实际操作”上非常靠谱。
00:00 / 04:46
连播
清屏
智能
倍速
点赞36
00:00 / 00:44
连播
清屏
智能
倍速
点赞83
00:00 / 07:05
连播
清屏
智能
倍速
点赞3984