00:00 / 01:08
连播
清屏
智能
倍速
点赞212
00:00 / 01:53
连播
清屏
智能
倍速
点赞727
00:00 / 03:27
连播
清屏
智能
倍速
点赞32
00:00 / 08:09
连播
清屏
智能
倍速
点赞145
00:00 / 09:23
连播
清屏
智能
倍速
点赞5
闲田1周前
Gemini 3.1 Pro 实测:狂烧2亿token 作者用新发布的 Gemini 3.1 Pro 连续“vibe coding”17 小时,烧掉 2.146 亿 tokens,在真实生产环境里全面压力测试这个模型,并给出自己的结论:这已经是他新的默认主力模型之一。 模型表现与基准测试 相比 Gemini 3 Pro,Gemini 3.1 Pro 在 ARC AGI 2 从 31.1% 飙到 77.1%,在一系列代码与推理基准上也有明显提升。 在 Artificial Analysis 的 Coding Index 上拿到第一名得分 56,超过 GPT‑5.2 和 Opus 4.6 等前沿模型。 人类偏好类榜单(如 LM Arena、Design Arena)目前排名一般,他认为需要再等一段时间数据稳定后再看。 UI / 前端与创意能力 作者用自己自建的 BridgeBench 做“创意 HTML”测试,比如 Space Invaders 小游戏和 lava lamp 动画,对比 Opus 4.6,认为 Gemini 3.1 Pro 生成的 UI 更现代、更有设计感。 在 BridgeMind 官网中,他让模型用 Remotion 自动生成多个营销视频、重写几十个页面的布局和样式,并用 3JS 生成独特的 3D 动画效果,整体网站视觉被“全面焕新”。 他专门强调:3.1 Pro 在样式和组件设计上的 风格 明显优于之前版本,他以后不打算再用 Opus 4.6 做前端样式。 真实生产用例(多仓库重构、资产抓取) 他让 Gemini 3.1 Pro 在 Cursor 里“一次性计划 + 执行”重构整个复杂的 Auth 系统,涉及 4 个不同的 repo(API、web app、管理后台和 UI),包括后端逻辑、前端守卫和鉴权流程,称其“一发过”。 之前同一个问题他用 Opus 4.6 折腾很久没解决,换成 Gemini 3.1 Pro 后就解决了,这也让他觉得 3.1 Pro 的可靠性和推理更强。 他还让模型自己上网抓取各大模型/工具的真实 Logo(OpenClaw、Codeex、Cursor 等),下载品牌资产并生成定制组件,证明模型在“带浏览器工具的实际操作”上非常靠谱。
00:00 / 04:46
连播
清屏
智能
倍速
点赞36
00:00 / 17:28
连播
清屏
智能
倍速
点赞3
00:00 / 01:30
连播
清屏
智能
倍速
点赞1367
这段视频取材自“两分钟论文”,这是一个纯公益性质的科普频道,由卡尔洛伊博士创办,致力于将极其复杂的学术论文简化为普通人也能听懂的视听盛宴,可说是声名卓著,被业内称为“宝藏频道”。我是科普知识搬运工周教授,为保持视频的原汁原味,我除了将内容写成下面这段科学小品外,仅仅将字幕翻译成中文,😉顺便让大家练练听力。 本期的题目是“NVIDIA’s New AI Is Deleting Reality”。在这个信息爆炸的时代,一项名为OmniMath Zero的技术悄然兴起,它如同一位魔术师,能够从视频中巧妙地删去不必要的元素,而不会留下任何痕迹。这不仅仅是一项简单的视频剪辑技巧,而是人工智能与数学精妙结合的产物。 想象一下,你的视频就像是一幅巨大的拼图,每一帧都是一块不可或缺的碎片。在过去,当需要移除某些元素时,人工智能如同一个初学者,试图重新绘制缺失的部分。这样的尝试不仅耗时费力,而且效果往往不尽如人意。然而,OmniMath Zero的出现,犹如一位经验丰富的老手,它不再从头开始绘画,而是巧妙地利用已有的拼图碎片。 这项技术由Nvidia与其他实验室合作研发,其核心在于“零基础训练”。它并不需要额外的AI训练,只需从货架上取一个预训练的模型即可。这种简单而高效的运行方式,使得OmniMath Zero能够实时处理视频,每秒可达25帧,这在过去简直是天方夜谭。
00:00 / 09:13
连播
清屏
智能
倍速
点赞2
00:00 / 22:16
连播
清屏
智能
倍速
点赞12
daftAI1周前
最新!Gemini 推出音乐生成模型 Lyria 3 Google DeepMind 推出的生成式音乐模型 Lyria 3,现已作为测试版集成到了 Gemini 中。 核心亮点和玩法解析: 1. 核心功能:人人都能做音乐 Lyria 3 允许用户通过简单的操作生成 30秒的高质量音乐片段。 - 文字生成音乐:你可以用文字描述你想要的流派、心情,甚至是一个梗或一段回忆。 例子:“做一首关于我妈做的炸大蕉的有趣的非洲节拍音乐,要有那种真正的非洲氛围。” - 图/视频生成音乐 :上传一张照片或一段视频,Gemini 会根据画面的氛围自动谱写一首带歌词的曲子。 例子:“用这张照片给我徒步时的狗狗 Duncan 配一首曲子。” 2. 相比前代的三大升级 自动生成歌词:模型会根据你的提示词自动生成。 更强的控制力:你对音乐的风格、人声(Vocals)和节奏(Tempo)有更大的掌控权。 更逼真复杂:生成的音乐在真实感和音乐复杂性上都有显著提升。 3. 配套体验 自动封面:生成的音乐会由 "Nano Banana" 自动生成配套的专辑封面,方便你分享给朋友。 主要目的:Google 表示这是为了给用户提供一种有趣、独特的自我表达方式。 4. 安全与版权 水印技术:所有生成的音轨都嵌入了 SynthID 水印(人耳听不到的数字水印),用于标记这是 AI 生成的内容。 音频验证:Gemini 应用内新增音频验证功能,你可以上传音频检查它是否由 Google AI 生成。 版权保护:模型设计初衷是鼓励原创,不支持模仿特定艺人。如果你在提示词中提到某位歌手,Gemini 只会将其作为“灵感来源”来生成类似风格,而不会直接克隆该歌手的声音或作品。 5. 如何使用 适用人群:向 18 岁及以上的用户开放。 支持语言:首发支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语。未来计划扩展语言覆盖范围,并提升质量。 平台:桌面端即日(博文发布日)上线,移动端将在随后几天推送。 高级权益:Google AI Plus, Pro 和 Ultra 的订阅用户将拥有更高的使用额度。 你可以去 gemini 试一试,看看能不能生成一首属于你自己的 BGM。 原视频 via 𝕏 @google #AI #gemini #音乐生成
00:00 / 01:40
连播
清屏
智能
倍速
点赞17
00:00 / 00:56
连播
清屏
智能
倍速
点赞5
【卷6G】抛弃MIMO?FaA近场感知新赛道! 别再卷MIMO了!看这篇如何用“频率换空间”斩获高分思路 😭 写论文还在死磕大规模 MIMO 和复杂的波束成形算法? 换个赛道吧!来看看这篇 FaA (Frequency-as-Aperture) 是如何通过**跨层设计(Cross-layer Design)**实现降维打击的。 📝 Gap:现有的 mmWave 感知都在做加法(加天线、加通道),导致硬件臃肿。作者提出做减法——能不能用单个 RF 链做 MIMO 能做的事? 核心创新(Method): 概念重构:重新定义“频率捷变(Frequency Agility)”,把它看作一种虚拟的空间孔径。 信号处理:把通信里的 LO 扫频信号直接复用。这是一种典型的 Signal-level Reuse,非常符合 ISAC 的大趋势。 技术细节(Implementation): 文章详细介绍了一种 2PO-mLWA-FMCW 架构。 利用漏波天线(LWA)将频率映射到角度,解决了传统 LWA 只能做一维扫描的局限,实现了二维空间感知。 🌟 值得借鉴的“高分句式” 作者在对比时用了一个很高级的词:Architectural Efficiency(架构效率)。 不仅比性能,更比“单位成本/功耗下的性能”。在 60-66 GHz 频段下,FaA 证明了近场感知可以Embeddable(可嵌入),这比单纯谈“高精度”更有工程价值。 💡 Idea 延伸: 是不是可以把这个思路用到太赫兹?或者结合超表面(RIS)做进一步的无源感知?这篇论文的“频率-空间”映射思想太值得深挖了! 论文写作 #科研 #研究生 #ISAC #通信算法 #博士 #学术分享 #arxiv
00:00 / 04:02
连播
清屏
智能
倍速
点赞32