daftAI5天前
快讯!Gemini 3.1 Pro 发布!(详细讲解) Google 推出了全面升级 Gemini 3.1 Pro。 Pro 及 Ultra 用户可以在 Gemini App 和 NotebookLM 中使用。 它专为处理那些“仅靠简单答案无法满足需求”的最复杂任务而设计,为解决复杂问题提供了更聪明、更强大的基础支撑。 推理性能实现翻倍: Gemini 3.1 Pro 在核心的逻辑推理能力上取得了重大突破。在专门评估模型解决“全新逻辑模式”能力的 ARC-AGI-2 基准测试中,它取得了 77.1% 的极高分数,其推理性能是上一代产品 Gemini 3 Pro 的两倍以上。 强大的实际应用能力: 该模型擅长将高级推理能力转化为实际生产力,能够应对高难度的挑战,例如: 代码级动画生成:能直接根据文本提示生成适用于网站的动态 SVG。因为是纯代码而非像素,这些动画在任何缩放比例下都能保持清晰,且文件体积极小。 复杂系统的数据整合:能够跨越复杂 API 与用户界面之间的鸿沟。例如,模型可以构建实时的航空航天仪表盘,通过配置公开的遥测数据流来可视化国际空间站的运行轨道。 交互式设计:能够编写复杂的 3D 椋鸟群代码。用户可以用手部追踪技术来操纵鸟群,并聆听根据鸟群移动而变化的生成式配乐。这对研究人员和设计师来说,提供了一种原型化感官丰富界面的强大方式。 创意编程 :可以将文学主题转化为可运行的网页代码。例如,为艾米莉·勃朗特的《呼啸山庄》构建一个现代个人作品集网站时,该模型并没有简单地总结文本,而是通过推理这部小说的氛围基调,设计出了一个时尚、现代的界面,并且完美捕捉主人公精髓的网站。 面向全平台的广泛推送: 从发布之日起,Gemini 3.1 Pro 已开始向不同类型的用户提供服务: 开发者:可以通过 Google AI Studio 中的 Gemini API、Gemini CLI、Google Antigravity 以及 Android Studio 进行预览。 企业用户:可以通过 Vertex AI 和 Gemini Enterprise 进行访问。 普通消费者:已经整合进 Gemini App 和 NotebookLM 中。 #AI #gemini #google #ai新春游园会 #ai创作浪潮计划
00:00 / 02:47
连播
清屏
智能
倍速
点赞61
00:00 / 07:06
连播
清屏
智能
倍速
点赞142
00:00 / 00:36
连播
清屏
智能
倍速
点赞266
00:00 / 01:33
连播
清屏
智能
倍速
点赞8
00:00 / 01:48
连播
清屏
智能
倍速
点赞4
闲田4天前
Gemini 3.1 Pro 实测:狂烧2亿token 作者用新发布的 Gemini 3.1 Pro 连续“vibe coding”17 小时,烧掉 2.146 亿 tokens,在真实生产环境里全面压力测试这个模型,并给出自己的结论:这已经是他新的默认主力模型之一。 模型表现与基准测试 相比 Gemini 3 Pro,Gemini 3.1 Pro 在 ARC AGI 2 从 31.1% 飙到 77.1%,在一系列代码与推理基准上也有明显提升。 在 Artificial Analysis 的 Coding Index 上拿到第一名得分 56,超过 GPT‑5.2 和 Opus 4.6 等前沿模型。 人类偏好类榜单(如 LM Arena、Design Arena)目前排名一般,他认为需要再等一段时间数据稳定后再看。 UI / 前端与创意能力 作者用自己自建的 BridgeBench 做“创意 HTML”测试,比如 Space Invaders 小游戏和 lava lamp 动画,对比 Opus 4.6,认为 Gemini 3.1 Pro 生成的 UI 更现代、更有设计感。 在 BridgeMind 官网中,他让模型用 Remotion 自动生成多个营销视频、重写几十个页面的布局和样式,并用 3JS 生成独特的 3D 动画效果,整体网站视觉被“全面焕新”。 他专门强调:3.1 Pro 在样式和组件设计上的 风格 明显优于之前版本,他以后不打算再用 Opus 4.6 做前端样式。 真实生产用例(多仓库重构、资产抓取) 他让 Gemini 3.1 Pro 在 Cursor 里“一次性计划 + 执行”重构整个复杂的 Auth 系统,涉及 4 个不同的 repo(API、web app、管理后台和 UI),包括后端逻辑、前端守卫和鉴权流程,称其“一发过”。 之前同一个问题他用 Opus 4.6 折腾很久没解决,换成 Gemini 3.1 Pro 后就解决了,这也让他觉得 3.1 Pro 的可靠性和推理更强。 他还让模型自己上网抓取各大模型/工具的真实 Logo(OpenClaw、Codeex、Cursor 等),下载品牌资产并生成定制组件,证明模型在“带浏览器工具的实际操作”上非常靠谱。
00:00 / 04:46
连播
清屏
智能
倍速
点赞35
00:00 / 01:05
连播
清屏
智能
倍速
点赞10
《谷歌Gemini3.1Pro推理能力翻倍!AGI暴涨两倍》 #谷歌 #Gemini31Pro #大模型 #推理能力 #AI更新 一、Gemini 3.1 Pro核心更新:推理能力大幅跃升 1. ARC-AGI-2评分:达到77.1%,是此前版本的两倍,在12项基准测试中位列第一(官方公布16项),尤其推理、编程、科学知识等指标领先。 2. 大模型竞技场排名:综合排名第三,文本和代码能力得分比前代高出13分,视觉能力排名最领先。榜首为Claude Opus 4.6,国产模型中豆包排名第六,GLM排名第十五。 二、ARC-AGI评测的意义 1. 评估通用智能推理:ARC-AGI测试模型对未见新逻辑的泛化和推理能力,区别于依赖预训练知识的常规任务,是衡量类人智能的关键指标。Gemini 3.1 Pro的翻倍提升展现了更强的逻辑适应力。 三、实际案例与应用展示 1. 官方案例: - 城市规划模拟:从零生成可交互的3D城市,处理地形、道路规划并模拟交通流量。 - 动态SVG生成:纯代码生成高美化UI,适合传统项目部署。国际空间站追踪:接入公开遥测数据,实时追踪空间站并可视化。 - 3D椋鸟群模拟:用真实群聚算法,支持手势控制鸟群,集成音频和3D渲染。 - 个人网站搭建:生成符合文学气质的“呼啸山庄”主题网站。 - 网友实测:生成《我的世界》小游戏、教育网站、鬼怪猎人SVG动画等,还原度高。 2. 定价:每百万token 18美金,保持不变。 四、技术架构与文档概要 1. 架构特点:采用混合专家(MoE)+深度推理集成,支持百万级上下文窗口(优于国内20万左右),多模态内置,代码执行与规划能力提升。 2. 文档内容:10万字详细解读谷歌模型发展史、3.1核心架构、推理原理、上下文处理技术、多模态理解、评测指标、行业应用案例等。
00:00 / 02:44
连播
清屏
智能
倍速
点赞20
00:00 / 01:55
连播
清屏
智能
倍速
点赞396