谷歌 Veo 3.1 重磅发布：1080p + 原生音频 + 分钟级剪辑，AI 视频叙事控制再突破#谷歌 #AI

谷歌3.1如何

33

抢首评

5

3

举报

发布时间：2026-02-26 11:05

粉丝238获赞2164

相关视频

01:24
谷歌发布Veo3.1视频生成模型 #veo #veo3 #谷歌 #flow #ai视频
93不二何
12:29
谷歌Veo 3.1全方位指南：从电影感到广告大片 🔥 继Sora 2之后，谷歌携Veo 3.1重磅入局！网上好评如潮，但它真的有那么神吗？
本期视频，我们将拨开华丽的宣传迷雾，进行一次最全面、最理性的深度实测。我们将从“卖家秀”（官方惊艳案例）和“买家秀”（我的真实测试）两个维度，为你揭示Veo 3.1的真正实力！
🎬 你将在这个视频里看到：
1 五大关键词全解析: 深度剖析Veo 3.1在真实感、镜头视角、广告创意、参考生成和风格化方面的惊人表现。
2 买家秀真体验: 我亲自上手，在ComfyUI云平台 (Running Hub) 和 Gemini Pro 上测试了多个脑洞大开的提示词，从“做贼心虚的狗狗”到“鬼屋探险”，效果是惊是喜？
3 Sora 2 vs Veo 3.1: 在相同的提示词下，两大顶尖模型正面硬刚！谁的细节更胜一筹？谁的理解力更强？
这不只是一次简单的功能展示，更是一份帮你判断AI视频未来走向、并找到最高性价比工具的终极指南。准备好，迎接这场视觉与信息的双重盛宴！
喜欢这期硬核评测吗？请务必【点赞】+【订阅】，你的支持是我评测下一个AI神器的最大动力！
#waytoagi#runninghub#ai新星计划#veo31
76有趣的80后程序员
05:01
「实测」Gemini 3.1 Pro 突发上线! 这次到底更新了什么？(前端直接起飞?)
#ai新星计划#gemini3#Google#Canvas#实测
查看AI文稿
AI文稿
昨天谷歌发布了新的模型哈基米三点一 pro，如果我们只看名称的话，就会发现他只提升了零点一，那是不是能力也只是提升了一点点呢？并非如此，这次更新虽然是一个非常小的版本，但是他的整个推理能力有了一个非常大的跃升。而且我们看他官方展示的例子，只能说明官方很懂啊，他知道自己模型的强势点在哪，就是前端视觉，所以他们展示的是一个视觉方案。那么这只是卖家秀，接下来呢，将给大家展示买家秀是怎么样的。首先来到战备贷官网，不管你是什么账号，都可以进行使用，只不过额度不相同。就比如说我现在是一个免费的账户，点击右下角可以切换到 pro 模型，它默认使用的就是三点一，一个经典的小游戏，让它加上了音乐，我与板栗仔不共戴天，就是我这个免费账户，只用它生成了这一个案例，然后就已经达到了限额。然后是我的 pro 账号，让它生成了一个动画 svg，展示一只穿轮滑的鸵鸟，我觉得还是非常让人满意的，只不过这个行走动作呢，有点奇怪，像是倒着走一样。只要你是付费用户呢，你这个额度其实就非常多，可以一直去用，但是相应的他也学会了 open 那一套，对一些账户呢，给你随记录邮也就降至免费版，虽然次数少，但他肯定不会给你降至，原因呢，就是因为他肯定要让你看一个非常好的效果，然后你才会愿意花钱去购买他们的套餐。至于你已经购买的了，我就随便给你路由，一会让你好用，又让你不好用。这个就比较烦人了，学坏。给大家看一下我其他的生成效果，重复了很多次，有的降智了，有的不降智。就比如说这个，当我点击皮卡丘的时候，他会有一个闪电。我靠，但是有些时候他做的还挺好看的。你比如说一个精灵球，我去释放，然后会出来一个皮卡丘，它整个质感是不错的，只不过耳朵的位置错了。我也可以去继续跟他聊天，让他去纠正，他是可以纠正的。我测试过制作一个赛车飞速行驶的 svg 动画，那它呢？就会自动帮我们进行设计，去思考应该怎么做。那最终结果是这样的，你可以看一看，是完全可以用的，非常的惊人。但是因为我刚睡醒啊，有点起床气，没有那么激动。什么意思？在同样的提示词下，拆 gps 的表现就非常的糟糕。而 cloud 的欧帕斯四点六同样非常惊人，完全可用的状态。那国产模型里边 dbc 老师生成的呢？也是非常幽默，那可以看一下是飞驰。哇哦，那现在我们再来看 jimmy 生成的这个，这样对比之下，我们就能发现他的细节比上面两个模型要好非常多。不过这个时候呢，可能有朋友要质疑，那你生成个 svg 有什么用啊？就只是看着好看，好像没什么用。拜托，这是 svg 啊，他是一个矢量图，这个意思是不管我们放大多少倍，他都是没有像素点的。就比如说，我们可以直接把这一段矢量图放在我们的网站中，我之前他制作一个精致的赛车网站，把 svg 动画当做头图展示，直接让他来进行生成，这网站虽然生成了，但是说实话，配色整体的感觉是非常丑陋的，所以呢，我让他变得高级优雅，有设计感。这几个词呢，几乎已经被他训练在里边了，他一检测到这个词他就知道了啊，你想要一个那样的，我就给你个那样的过礼盒了。属于是现在我们再来看这个风格呢，就变得非常高级了，包括这个车的颜色呢，也进行了重新设计。哎呀我靠，艺术，这就是艺术。我这里呢还让他做了一个小小的演示动画，就是先是一个手机，然后变成赛车在赛道上跑，然后赢。我看一下整个动画呢，可以说是非常流畅而且很巧妙。这个模型对于一些三 d 效果呢，做的也是非常不错。就比如说我让他制作了一个图书的网站，然后是三 d 悬浮的书，然后可以这样去滑动去选，还让他制作了一个三 d 的赛车游戏，你可以注意一下这个车上面的灯光反射做的非常好啊，还有这个碰撞，每撞一下速度就会减慢，撞三次就死亡了。然后就是经典重现 mac os 系统，哇，整个图标的设计呢，也变得非常好看了哈，挺可爱的。还有这个小游戏对赢家 x 贪吃蛇，这能放大吗？还可以全屏细节，还能在系统设置里面呢，去设置壁纸。哎呦，总之这个版本的更新呢，前端依旧是非常的强劲，那至于后端，我们有更好的选择，高的欧巴斯， openid，酷拽的都是不错的。至于 jimmy 的话，就写写前端吧，他们好像是要在前端的路上一去不回了，要走到头，依旧牛大了，依旧无敌，非常的寂寞。各位如果感兴趣的话，可以下去自己试上一试，得出自己的结论，不要看我怎么说，也不要看别人怎么说，好不好用你用不用，最终呢还是自己来决定的。那以上呢，就是本期视频的全部内容了，对你的帮助和这个视频做的还不错的话，欢迎给个一箭三连，有什么想看的内容呢，也可以在评论区留下你的足迹。那最后祝大家新年快乐，今天已经初四了，年都跑远了，给大家拜个晚年。依旧祝各位晚年幸福，晚年安康，我们下期再见！拜拜！
1301神烦老狗
01:52
谷歌VEO 3.1新王者诞生？ #AI视频 #veo3 #谷歌VEO
3李可乐
04:29
谷歌掀桌子了！Gemini 3.1 Pro 发布：逻辑推理直接翻倍！#Gemini #谷歌 #AI #AI新星计划
查看AI文稿
AI文稿
大家好，就在刚刚谷歌发布了其最新的模型 jimmy 三点一 pro，这导致我现在凌晨四点前给大家在这在录视频拍解读。虽然这次看起来只是一个零点一版本的更新，但其实熟悉 jimmy 的朋友知道，这也是 jimmy 的首次，这种命名更新其实也可以代表这次的一个重大升级。三点一的设计书中主要是为了处理那些简单回答无法解决的复杂人物。首先我给大家先看一下数据，但是数据我觉得不是我们这个视频的重点，我们这个视频主要聚焦于官网那些 showcase 的一些展示，我们先带大家看一下官网展示的第一个 showcase，其实这个案例就是基于代码的动画，我们可以看一下 jimmy 三跟 jimmy 三点一，它动画的一个质量其实差距很多，我们就拿这个来看，可能之前就是简单的一个色块接一个色块，到现在有渐变，有场景，到其实他有一定的审美，从之前这种特别简单的效果，到现在有结构，我觉得这个 case 更清晰一些，之前就是一个简单的月亮，到现在其实它结构会变得更多，包括这种其实画面的丰富度会上来很多。我觉得我给大家打开中文，我们一起来更直观的观看一下。首先就三点一 pro 可以直接根据文本提示生成可用于网站的动画 svg，其实做设计的朋友都非常了解 svg，它就是一个文件格式非常小，清晰度非常高的一个格式。如果我我觉得这一块我们核心要看的是 jimi nike 三跟 jimi nike 三点一的一个对比的一个效果，现在我们可以通过文本直接去生成，其实我觉得这效率会高很多。那我们现在来看看第二个 case，其实这个 case 简单来说就是它可以把一些非常复杂的数据变成可视化的东西。然后我们看一下第三个 case，其实这是一个交互设计的一个 case，简单来说就是三点一 pro 可以能够生成非常复杂的这种呃，三 d 动画，它不仅能生成视觉代码，还能构建一些沉浸式的体验。用户可以通过手部、头部去跟踪鸟群，并聆听根据鸟群运动而变化的生成式配乐。这对于设计师来说吧，其实能非常快速的构建一个非常复杂且感受非常多重的 demo。我们可以大概先看一下。 after seeing a video of a starling murmuration i was inspired to ask gemini 3.1 pro to code a simulation of one for me the model created this cloud of voids that interact in similar patterns to a real flock of birds i then asked the model to make the simulation interactive so i could move the birds with my hands i also asked the model to create music that would change according to the movement of the meringue all of the features in the simulation can be controlled including the behavior of the birds and even the environment i was stunned at how beautiful the final result was。到达了我们最后一个 case。我觉得最后一个 case 是跟设计师最相关的吧，也是最好玩的一个 case，就是他现在三点一 pro 可以将一些文学主题转换成功能性的代码。让 jamie 奈为呼啸山庄去设计一个作品集网页的时候，他没有简单地去总结小说，而是理解了作品那种忧郁大气的情绪基调，并将其转化为一个现代简约的网页设计，精准捕捉了本质。最后其实就是 jimmy nike 其实现在可以在 as studio 都可以使用，甚至我们熟悉的 notebook 也是可以使用的。大家可以在评论区讨论一下你有什么根据新的模型能力，有没有什么你可以想到新的好玩的一些 case，我们可以在评论区一起交流。
366Josh赵士强
00:52
谷歌veo 3.1发布，支持多图生成视频和竖屏4k
#veo #ai视频 #ai新星计划 #gemini #ai创作浪潮计划
查看AI文稿
AI文稿
谷歌刚刚发布了 vivo 三点一，颠覆了涂声视频的玩法。这次的更新主要有三点，支持多图融合视频，支持竖屏和四 k 画质，提高角色和场景的一致性。多图融合视频就不用多解释了，博主先用自己的照片去给你们演示一下，图片呢，分别是博主的人像照，海边拍的沙滩，还有在成都拍的熊猫。然后我就按照这个简单的提示词扔给 jimmy，让我们来看看生成的效果， you enjoying the walk happy panda sale。有一说一啊，博主感觉自己还是比这个视频中的要帅一点的。此外呢，以前 ai 生成的视频大多数是横屏的，发平台呢，还要自己裁剪，而且画质呢，还糊的一塌糊涂。现在呢， jimmy 奶支持直接原声生成九比十六的竖屏，而且呢，支持画质放到到一零八零 p 甚至是四 k，以后转场动画我们就不用再费劲的去找竖屏的了。小庄这里还准备了 jimmy 奶 pro 会员的领取教程，点赞关注我直接领取！
176卷毛的小庄
00:14
谷歌甩出了 Gemini 3.1 Pro。如果说之前的 3.0 只是让你觉得“还不错”，那 3.1 的升级完全就是要把 AI 推向“数字生命”的高度。
我帮大家熬夜实测了几个核心升级，一句话总结：它的智商，终于追上你的野心了。#gemini3.1#谷歌#AI#Gemini
1GPT（Gemini）Grok4
00:41
谷歌 Veo 3.1 这个更新确实挺猛，把人物一致性和产品一致性都明显拉高了。
最近刚好有个做家具的外贸老板想自己出镜做 IP，
我用椅子快速跑了一下测试，效果不错！
#veo3 #库老师aigc #内容营销 #跨境电商 #外贸
7库老师聊AI图片视频
05:01
谷歌veo3.1 vs Sora2，AI视频生成哪家强谷歌veo3.1 vs Sora2，AI视频生成哪家强 #veo #sora #视频生成 #大模型 #人工智能
591清华姜学长
01:14
Veo 3.1大战Sora 2，相同提示词，看谁生成得更好？#跟傅盛学AI#AICG#谷歌#大有学问#电影
1904傅盛
01:15
谷歌大半夜上狠货了， Gemini 3.1
查看AI文稿
AI文稿
不是这大半夜的， google 直接扔了 gemini 三点一 pro，也没打算让大家活儿啊，推理能力直接翻倍！十六项测试里头拿十三个第一，又回到 ai 的最强位置了。推理测试 a g i，测试百分之七十七点一的得分，比上一代翻了一倍。这个测试叫二 k a g i 杠二，专门考验 ai 能不能去解答从没见过的逻辑题，被公认为是 ai 领域最难的考试之一。百分之七十七点一，听起来好像只有七十多分，但是排名第二的 clod opus，没错，就是现在比较公认的真神只有六十八分。而且不光这一项，科学推理百分之九十四点三，编码任务 s w e 八十点六，智能体长城测试百分之三十三点五。总之，十六项指标里头拿十三个第一， demo fork，然后价格继续怎么样？同样测试的情况下，花不到对手一半钱的，也就是说维持原价啊！但是有一个数据啊，怪不得呢，谷歌 ceo 劈柴，赶紧来发帖宣传，说了三点一 pro 是核心推理质的飞跃，大家赶紧去试一下，而且你想想，谷歌是不是给大家玩低调？都定了今年 i o 的开会时间了，也就是五月份要进行大更新，所以现在先给你一个点一，这就意味着到五月很可能就给你 gemini 三点五或者 gemini 四了，直接干飞了的某波儿。
6146口罩哥研报60秒
00:48
反向升级？谷歌 Veo 3.1 表现不如 3.0 体验了Google Veo 3.1后，感觉天塌了。
#AI #谷歌 #Google #AIGC
4爱睿评
01:40
Google Veo3.1硬刚Sora2 #AI #谷歌 #Veo3.1 #Sora2 #OpenAI
207杨博士说AI
01:26
谷歌于10月16日发布AI视频模型Veo 3.1，在画质、控制精度和音频生成三大维度实现突破。该模型通过多模态输入架构支持文本、图像及视频片段输入，结合首尾帧插值技术实现场景无缝过渡，生成视频最长可达148秒。在画质层面，Veo 3.1强化了光影模拟与材质细节，人物表情捕捉精度提升30%，支持720p/1080p分辨率及24帧/秒流畅度，复杂场景的景深控制和背景层次感显著增强。
核心升级体现在创作控制体系：新增3张参考图像协同生成功能，可精准复刻指定视觉风格；首创视频级"插入/移除对象"功能，AI自动匹配光影与物理运动轨迹。音频生成实现音画同步突破，支持环境音效（风声/脚步声）、对话对白及背景配乐的自动生成，使视频首次具备情感叙事维度。相较于OpenAI Sora 2的自然抓拍风格，Veo 3.1更侧重电影级精修效果，但生成成本高出40%（标准版0.4美元/秒）。目前该模型已集成至Flow创作平台，企业用户可通过Gemini API调用企业级场景延伸功能。#人工智能 #机器人 #马斯克 #奥特曼 #黄仁勋 @雷军 @尹烨 @红衣大叔周鸿祎
7海晏清的阳光海洋
00:29
谷歌的文生视频veo3.1是真的强 #veo #谷歌 #ai
36jesse
01:48
谷歌Gemini 3.1 Pro：AI推理王者的震撼登场
查看AI文稿
AI文稿
在人工智能的激烈角逐中，谷歌再度抛出重磅炸弹， gemini 三点一 pro 正式上线，以推理性能的飞跃式提升，重新定义了 ai 的能力边界。这款被寄予厚望的模型专为科学工程与研究领域的复杂难题而生。在评估逻辑模式处理能力的 arc agi 二测试中，他一举斩获百分之七十七点一的高分，推理性能较上一代 jamaican 三 pro 直接翻倍，实现了史诗级跨越。不仅如此，在人类最后考试中，零工具辅助的他拿下百分之四十四点四的成绩，超越 gpt 负五点二和 opus 四点六，展现出强大的综合推理与知识运用能力。 gemini 三点一 pro 的强大远不止于此，它具备原生全模态输入能力，无论是文本、图像还是音频都能轻松处理。高达一百万 token 的超长上下文支持，让它能深入理解复杂语境，给出精准回应。更令人惊喜的是，通过简单提示，它就能将绘色概念转化为直观图解，把海量数据浓缩成清晰图表，甚至直接生成可嵌入网页的 svg 动画。谷歌同步启动多渠道推送计划，开发者、企业用户和普通消费者都能便捷体验 google ai pro 与 ultra，订阅用户还将享有更高使用限额。谷歌 gemini 三点一 pro 的上线，无疑为 ai 发展注入了强大动力，也让我们对未来 ai 在各领域的应用充满期待。
4欧阳景泰
01:15
谷歌深夜放王炸！Gemini 3.1 Pro 史诗级进化，一键生成神级动画与电商大片！完全降维打击？🤯 #人工智能 #Gemini #AI工具 #科技数码 #AI绘画
查看AI文稿
AI文稿
谷歌深夜又放王炸啊！ jemmy 三点一 pro 正式登场，他的整体智力得到了史诗级提升，专门为伊布，不信来看看他和上一代模型的直接对比。同样是生成 s b g 史量动画，曾经的模型只能做简单的扁平移动，而 jemmy 三点一 pro 直接拉满细节，无论是质感拉满的液压开关，还是跟随使得转动眼睛的变色龙，甚至是骑自行车，动态效果简直丝滑到离谱！除了写代码做动画，他还给电商人带来了一个超级黑科技后魅力 photo 书。只需要上传一张极其普通的商品白纸图，选中你想要的场景模板，一键点击生成，几秒钟就能直接出炉。极其逼真的专业级摄影大片，轻松提升你的营销质感，而且目前在部分地区已经免费开放， ai 的进化速度真的太疯狂了！你觉得这个三点一 pro 的表现能打几分？评论区告诉我，记得点赞关注！
32Aimini
02:40
谷歌veo3.1发布生成式视频之争开启 #veo3 #google #sora #视频生成
7小鹏智享AI
16:12
炸场！谷歌 Gemini 3.1 上线，AI 音乐 + AI 炸场！谷歌 Gemini 3.1 上线，AI 音乐 + AI 摄影来袭，还有 Magnific Video 与 Midjourney v8！#随变ai随便玩 #织梦森林 #走进杨紫的花园世界 #ziont的歌曲 #paxton歌曲
查看AI文稿
AI文稿
今天终于不用被 c dance 二点零新闻刷屏了，没错，虽说字节跳动即将发布的视频模型一直在霸占各大新闻头条，但世界并没有因此停止转动。所以今天我们聊点跟 dance 无关的内容，就是 google 的几项重磅发布，包括 gemini 三点一、 larry 三，也就是那个音乐生成模型，还有一个叫 photoshop 的新工具。我知道大家一听到这儿肯定都竖起了耳朵，期待我会说出 vo 四这个名字。那个还没来，不过也许有个大字日期了，也许吧。视频方面， magic 推出了大家期待已久的功能，创意视频放大。而在图像领域，我们得以 equiminy v 八的真容，还有大量关于这一新模型的情报。所以今天脱下舞鞋好好放松一下，毕竟这是大家应得的享受。首先， google 最近可谓动作频频，其实就在我刚开始录这期视频的时候，他们发布了 gemini 三点一 pro，这次发布仅呈上周 gemini 三的 deep scene。更新之后，据官方介绍，新版本在核心推理能力上更进一步，更智能，解决复杂问题的基础能力也更强了。那么来看看跑分数据，你也知道我并不是什么跑分党，但既然聊到大圆模型嘛，看跑分也算是规定动作了，他们显然在高调展示七七点一分的 r k g i 二成绩，如果你还不了解的话，这是抽象与推理语料库第二版，主要测试模型的流体智力，也就是他学习新技能并仅凭少量视力及时掌握新规则的能力。为了让大家对百分之七十七点一有个直观的概念，人类测试者的平均得分大约在百分之六十六之间，尤其是在面对这类从未见过的谜题时，所以七七点一分显然更高。看来这部分测试我算是通过了。显然，三点一已经超越了人类的平均水平，也就是在这类抽象推理上的表现。至于那个名字起得最深得我心的测试，人类最后的艺考杰米三点一 pro 裸测得分百分之四十四点四，配合搜索和代码工具则达到了百分之五十一点四。相比 gemini 三 pro，这绝对是质的飞跃。有趣的是，这几乎形成了镜像对比跟 cloudops 的百分之四十和百分之五十三。说到底，在面对人类最后的艺考时，你们知道该怪谁吗？聪明人，你们这些聪明人得加把劲，多生些聪明的后代了。你们这些聪明宝宝最好也能提点更有水平的问题。没错，关于全球最强模型这座摩天轮，我们现在转到了这个位置。如果你想试用 gemini，它还是走那种典型的 gemini 发布套路，已经在 gemini app 上线了 pro 和 ultra，订阅，用户的使用额度更高。所以说，我得承认， gemini 经常满嘴跑火车，或者对自己的版本号含糊其词。话虽这么说，你也可以去 ais 里经常满嘴跑火车，选一下就行，你只需要把它切换到 gemini 三点一 pro preview 我确实上手简单，试了试用我的惯用测试手段，写个复刻版的导弹司令部，结果它完成的相当不错，整个过程只用了寥寥几个提示词，表现确实很好。这游戏其实是有声音的，但我把它静音了，毕竟你们现在应该不想听那种八十年代的阶级音效。说明一下，这并不是靠单样本提示一次生成的。其实在构建的过程中，他还会主动给出建议，比如问我要不要加点音效，或者在游戏中加入强化道具。而且他是边构建边提出建议的，感觉就像他在仔细琢磨我的提示词，然后顺便提醒我说，你这里可能需要点音效，或者想让游戏更具挑战性一点，肯定会有更多有趣的玩法在接下来的几天涌现。这只是我刚才随手试的一条指令。我说根据这个频道链接帮我做一个互动网站，结果它生成了。这个我觉得很有意思的一点是，它甚至还提供了一个提示词构建工具，这点确实非常有意思。接下来看看音乐方面， leary 啊也迎来了更新，这是酷狗推出的音乐生成工具，它目前只能生成三十秒长的片段，我觉得之后应该会支持更长的生成时间和续写功能。但就目前而言，这里面确实有不少值得关注的亮点。这主要归功于 gemini 三的多模态能力，包括能让你通过图片来进行创作。据我所知，还没有其他音乐生成器具备这功能，生成过程直接在 gemini 里完成。当然，这里有一些预设的流派，你可以直接用，或者也可以自己写提示词。咱们试个提示词，身穿蓝色西装的男子横穿马路，试图躲避想给他开罚单的警察。看这几个选项听起来确实挺适合当健声音乐的，咱们来试一下，看看效果如何。觉得有点无厘头？确实有点，但也有点九十年代末千禧年初那种神曲的感觉，也就是那种三十多秒的生成片段。我觉得它的定位并不是那种专业的全功能的 ai 音频制作工具，而是一个能让人轻松有趣地探索 ai 音乐生成的途径。其实这种多模态的尝试还挺有意思的，我上传了喷火女孩的原图，只输入了根据此图生成歌曲的指令，没加别的，来看看它的生成结果。准备好撕裂一切，看我点燃熊熊烈火。唯一的渴望唯一的渴望。我是说我个人觉得我不会选用八十年代风格的 pet bennett 摇滚金曲作为喷火女孩的主题曲，但这显然表明 levi 确实看懂了这张图，他能理解图中的角色是谁，并据此生成了相应的歌曲。我觉得很有意思的一点是每次生成的片段，而不会到了三十秒就突然断掉。这点确实挺有意思。所以我也会持续关注 lyra，感觉它后续还会有更多惊喜。而且说实话，我最近一直手痒，想搞点音乐，毕竟那些吉他在墙上已经挂太久了。 tony 也有一个相当有趣的更新，这是属于 google labs 的项目，我想这可能主要是针对观看本频道的品牌和营销从业者。不过我觉得一旦你看到它的效果，大概也能想到很多其他非常有趣的用途。这是一个叫 photo shoot 的新功能，顾名思义，它显然是用来生成产品。摄影大片的生成效果真的很棒。我随手找了张拍的很烂的 usb 极限器，照片刚好就在我桌上，就是这张。没错，拍的确实挺烂的，但我们就用这张来上传，接着就能看到这些拍摄模板，你可以对它们进行修改，还有很多其他选项，我们先用默认的就好，比例就选九点十六分试试看吧，这样更有卖相。点击生成 w，随后生成了这四张图。说实话，我得承认效果真的挺棒，毕竟我给他的底图其实就是张随手拍的废片，确实挺让人惊艳的。所以你看，如果你手头有想处理掉的东西，比如一直堆在地下室，想在二手平台上卖掉的，只要随便拍张烂照片上传到这里就行了。接下来配合潘美丽工具，你可以直接用那四张图片，基本上就能直接生成一整套广告方案了。我刚才给他传了一张全球最强 usb 扩展物的照片，来看看他最后给出的效果。瞧出来了，也就一分钟左右的时间，我就做出了一套全能枢纽无限可能的广告。你知道这种技术以后会在哪大显身手吗？比如在亚马逊，在那我们能看到很多类似的功能应用，请问有点意思，其实你在这里也可以给素材制作动画，所以这基本上就是免费版的 nano banana pro，估计还有 vo 三。说到这，我知道最近有很多人都在问 vo 四到底什么时候出，不过要先声明一下，我这儿并没有任何内部消息。虽然我一直都坚持认为这会在 google s o 大会上发布，官方也已经官宣日期是五月十九号，毕竟 i c o 可是 google 的年度重头戏，所有真正的重磅消息通常都会在那儿发布，所以我猜到时候就能见到 v o 四了。单从时机和日期来看，这都最合情合理，再加上你也知道，毕竟这是个展示实力的大舞台。所以再次声明，我并没有什么内部消息。我呀，五月十九日，言归正传， magnificent 推出了大家期待已久的视频放大功能。如果你关注 ai 圈子有一段时间了，你肯定知道 magnificent 是最早的一批，即使不是首创，也是创意图像放大工具。而且显而易见的是，视频放大功能呼声很高，上线第一天起就在期待，现在它终于正式上线了。确切地说， magnificent 和 freeplay 现在都支持这一功能了。我们这就来把这两个都看一看。 magnificent 的老用户对这个布局应该不会陌生，很明显，这里是文件上传区。放大模式主要有两种风格，自然或生动。还有一个创意程度调节滑块分辨率，支持一 k、二 k 以及四 k。还有一个高质量开关，开启后处理时间会变长，但最终的画质表现会更出色。还有 fps 提升功能，我想它能让视频帧率直接翻倍。至于 turbo 模式，则可以大幅提升处理速度。我还不清楚如果同时开启高质量模式和加速模式，效果会变成怎样。这里有锐化滑块和智能颗粒滑块。不过我想提醒一下，就像调整其他参数一样，很多时候适度才是最好的。比如把我们之前生成的这段 cds 视频，再用 magnifik 放大增强工具处理一下，效果非常明显，我想你们应该能看出来。我也拿不准。很难说 youtube 的压缩机制会产生什么影响？但帧率确实提升了。总的来说，它的确名副其实。感觉画面有点，至少我觉得对比度太强了。这是将创造力设为零，并上彩样到二 k 的效果，开启了高级质量和帧率提升。锐化设为零，颗密度也设为零。我觉得这个模型非常擅长处理 cgi 和动画风格。这是另一个 cds 生成的结果，不过随着画面推进，它确实能修复并清理掉大量的瑕疵。不过我想说的是，效果确实非常出色，但它偶尔也会产生一些诡异的细节。正如你所知，这是这类 ai 放大工具的通病。这也是需要稍加留意的地方，因为它偶尔会生成一些奇怪甚至有些莫名其妙的效果。比如这里我们可以看到这朵云，或者说这里的这道烟柱。 magnificent 看到后心想，哦，这是个踩着悬浮滑板的人。不过说句公道话，只要人在画面里，它就能一直维持这个滑板人形象。这点倒还算过关。他还会搞些骚操作，比如在没脸的地方硬塞张脸，比如在这个红色标志里， magic 却硬是觉得这里面有张脸。确实，我也知道这很离谱，挺诡异的，挺荒诞的，但我好这口，我也说不上来。这就像 ai 里常有的那些灵异瞬间，我超爱看这些玩意儿。不过我得提醒一下，画面可能会出现反转，甚至某种程度的换脸现象。就像这里看到的，这是一个 c 部 cds。我懂了，这是 magnificent java 生成的片段展示威尔史密斯大战意大利面怪，挺有意思的，你能看到它对这只意大利面怪的处理效果非常棒，我是说画面优化得非常非常干净，所以说威尔史密斯的脸确实有点像被换脸了一样。当然，这个片段的画面变化很快，以至于我不确定大家是否真的注意到了，但这确实是个值得注意的问题。不过我觉得他在处理 c g 角色方面表现得尤为出色。这其实只是巫书四预告片里的一张截图，你是指这些经过视频压缩的素材，截图后又再次导入，所以画质看起来满是噪点，非常糊。但它在修复这类画质问题上效果拔群，特别是你基本没看到犀利的脸部有任何走样。至于这一张，我直接把创意度拉到了百分之四十六。也就是说，即便你把参数调得很夸张，最后生成的效果依然相当不错。我还想在 free pick 上也尝试一下。这里的逻辑稍微有点绕，因为它把功能分成了几个不同的预设动画、三 d 写实艺术和自定义。首先用三 d 动画模式来试一下，看看效果如何。如果你想要所有那些进阶选项及我们在 magic 看到的那些，你需要点击下方的这个自定义按钮，这样就能解锁和 magic 完全一样的配置了。所以这里有两个不同的入口，都可以进行操作。这里有个挺有意思的玩法，就是拿我拍的这段视频来做演示。这段视频其实是在 wallabs 里录制的，就是那个三 d 世界模型工具。我们前阵子刚聊过，他顺便提一下，他们刚拿到了十亿美元的融资，整整十亿美金，简直太惊人了！把这段视频放进 magick 进行放大处理，我是说出来的放大效果确实非常出色。我最喜欢用 marble 的一点是将其作为虚拟背景进去截几张不同角度的图，然后导入到 nano banana 里，把角色放进去，效果非常不错。既然 cds 二可能下周发布，而输出分辨率只有七二零 p，你肯定会想要个画质放大工具，或者手头备个创意放大工具，所以很值得收藏一下。接下来， midori 的 v 八版本也快发布了，我们现在可以抢先预览一下，还有一些令人惊喜的消息。值得注意的是，我们现在看到的是 v 八模型的早期评分测试。正如官方所说，这些图意在表现的平淡无奇、中规中矩、不带主观风格，并不能完全代表 v 八的最终水平。但如果你是 me journey 的老用户了，你会发现它们在重大版本发布前总会来这么一手，目的是根据社区的反馈来微调模型。不过这确实能让我们提前了解 v 八的发展方向，比如文字生成能力。终于 midori 能够生成正确的文本了。虽然看起来我知道这谈不上是什么颠覆性的进步，但这确实是我们许多人期待已久的功能。此外，说实话， v 八还会带来常规升级、更好的提示词理解、连贯性及构图能力，毕竟每次新模型发布时，这些都是老生常谈了，而且据说这个版本的运行速度会非常快。我非常期待 v 八最终成型后的样子。再次强调，目前的状况并不能完全反映模型的最终表现，但根据我和 midori 内部员工的交流来看，他们其实是在表达比起 v 七对 v 八的期待值要高得多，远远超过了当初发布 v 七时的热度。不可否认， v 七发布时的表现确实有点差强人意，显然连他们自己也多多少少承认了这一点。看来我们很快就能见到全新的编辑器了，我猜测它可能会更符合现代化的 nano banner 图像编辑风格，并且能提供更强大、更可靠的图像参考功能。除此之外，据说我们还会迎来一个全新的深层界面。他们还提到今年年内将推出全新的 v 二视频模型，而且该模型的规模将远超之前的 v 一版本。显然他们现在手里掌握着充足的算力资源，所以这绝对是一个值得重点关注的视频模型。 mid journey v 八最快下周发布，但别忘了延期惯例，毕竟他们发布东西向来有自己的节奏，不按常理出牌。说到时间，我今天的节目时间也差不多到了，接下来我会再去四处搜罗一下，看看还有没有其他值得关注的新鲜事。那么除此之外，其实就是做下准备，为下周一大波 c dance 的内容。至少我是这么认为的，我觉得这事肯定准。虽然官方还没公布确切日期，但我估计应该是。那么在那之前，感谢大家的收看，我是 tim，我们下期再见。
22小胡-API
02:48
谷歌又封神了？Gemini 3.1 Pro实测 #谷歌 #gemini #黑科技 #编程
查看AI文稿
AI文稿
谷歌刚刚放出了他们目前最强性能最好的 ai 模型杰莫尼三点一 pro，这不仅是一次常规升级，而是一次全方位的实力碾压。今天这期视频我就带大家硬核实测它的真实表现，看看它能整出什么花活，以及它在精准测试中到底有多变态。废话不多说，我们直接开始。首先测测他的三 d 和空间理解能力。我上传了一张平面的宝塔照片，他不仅直接写出了精美的三 d 动画代码，而且细节还原度暴打目前市面上其他顶流模型。以为这就完了，我让他给我手搓了一个可以自己画音符的钢琴卷帘窗界面，然后让他生成一段大师级绝唱的三十二小节钢琴曲，结果不仅毫无违和感，和声还极其专业。接下来是本期视频最让我震撼的多模态实测，我给他发了一段关于日本地震科普的视频，注意，我的提示词里没提日本，也没提地震，完全依靠他自己看视频理解。结果他直接给我写出了一个完整的网页 app，点一下地图，不仅能模拟地震波纹，还能根据你设置的政绩自动计算对周边大城市的影响，这理解和执行力绝了。实测这么猛，跑分怎么样？规格上，它支持惊人的一百万 tock 上下文，塞进七十万个单词或者一小时的视频，轻轻松松。榜单方面，他在测试智商和涌现学习能力的 a、 r c、 agi 二测试中直接断层领先 opps、五点六等一众大满贯选手。他还能在不联网的情况下拿下高难度人类最后考试的最高分，而且幻觉率极低，也就是很少一本正经的胡说八道。不过有意思的是，在另一个比较玄学的 l m irina 盲测榜单里，它的代码和文本得分却意外低于 g p t。五点二，看来在特定语境下，它还是有些水土不服的。总结一下， jammer 三点一 pro 毫无疑问是当下最全能、最具性价比的顶尖 ai 模型之一，无论是做三 d 动画、写小游戏，还是跨模态的视频转代码，它都展现出了极高的完成度。目前你已经可以在 jamming 网页端或者 ai studio 里玩到它了。大家觉得这次谷歌的绝杀能打几分？欢迎在弹幕和评论区告诉我，这里是赛博前少带你追踪最前沿的 ai 科技，我们下期视频见！
31赛博前哨

热门推荐

热门分类