粉丝428获赞1361

欢迎来到 gemini onni 的 世界, gemini onni 和 c n s 二点零到底哪个强?今天我就为大家测试一下。整个 gemini 的 ui 都已经改变了, 我们现在无论是手机端还是网页端都可以选择三点五。 flash 最大的变化还是左边栏。以往这个 gem 我 常用的那几个,我可以按一个图标,它会固定在这里,现在呢,它把它们藏在里面,要点进去才能够用到,希望这个功能能够恢复回来。 接下来进入今天的测试,重点就是这个制作视频 gemini omni, 打开这个页面以后,你会发现好像似曾相识。 这边能够添加参考,这边能够选择它的比例。我打开 check to b t 的 图片生成,你大概就知道什么意思了。这边能够上传参考,这边能够选择比例。下面有一些灵感的案例,你看一下这个 洗面奶 omni 是 不是还蛮像的,但它是视频生成,那我们马上来测试一下。我上传了自己的形象照,随便用一个模板来测试一下。点击这个年代时尚,然后直接什么都不写,按提交,他正在分析,他告诉我这个可能要几分钟的时间,正在生成视频。 ok, 我 们看一下成品,一共十秒, 不太像,就样貌的还原, 有点拉垮。这个测试我自己是不太满意的,那刷到视频生成,就不得不拿他跟 c 点二点零进行对比了。我就拿这段提示词加这三张图,看能不能生成一个媲美这个视频 的成品。那图片呢?我已经上传到 jamalony 这边了,提示时也是一样的,只是它不能 at, 你 看我按 at 它是没有反应的,所以我直接把这个 at 删掉,然后直接生成它,现在正在生成中,我们等待一下。那在它生成过程中,我们先看一下 cns 二点零的成品是怎么样的。 ok, 我 们来看一下成品, 感觉很到位,很高清, 虽然他没有标那些文字出来,但是我觉得他整一个质感呢,跟他的呈现是比刚刚 c 点十二点零更加高级 的。然后从图片还原度上,你其实会看到他是高度的还原的,几乎是一模一样的,所以这个模型还是蛮强的。但是有一点还是可以吐槽的,我们再看一遍, 你来看一下它的运镜,它为什么这个包会自动会转呢?就是实际上我们应该用 这个相机啊,镜头去运镜,去找不同的角度,但是它这个包自动转起来就有点就是脱离现实了。那其他来说,我感觉它整一个场景啊,跟呈现啊,跟还原度都非常的好, 来个稍微复杂的,就是通过这一段提示值这个形象,然后穿这些衣服,再给一个参考视频最后的成品是这样子的,那我在 jamalani omni 这边呢,上传了图片以后,准备要上传视频的时候呢,他说呢, jamalani 也可以参考的,视频时长不可以超过十秒,也就是说我在这边我需要选择一个时长, 那我就拉后面一点吧,就从这里开始就好了,我大概就选这个,看它,呃,效果是怎么样的,选完以后我就按完成。 ok, 那 你现在看到我 模特在这边,衣服在这边,视频在这边,提示时,我也粘贴进来,把这个 app 去掉,那我们直接就这样提交。那他这个还是挺严谨的,因为有人像, 我先按同意,他已经在生成当中了。 ok, 结果来了,无法生成该视频,也就是说涉及到人像跟一些有人像的参考视频,那可能就会违反他们的政策,就无法生成了, 这个也是能够理解的,我们就换其他来试一下。那么换成这个案例啊,就是这两个就是不太像真人,用这一段绿幕的打斗视频 跟这一段运镜,看一下用这个提示词能生成怎样的效果。那我已经上传了两张图片跟两段视频,并且粘贴这个提示词,我直接按提交。不知道这种偏卡通一点的人物形象会不会过审,但是还是有点担心的,因为呢,这边有真人的一个 示范,这个呢是一个运镜,我们静待结果吧。 ok, 我 已经确定了,就是有真人的都无法生成,那我们再换换这个女士背影在晾衣服的,这个应该就可以了。那我已经上传的图片在粘贴提示时直接提交。我们先来看一下 cds 这边的成品是怎么样的, 优雅的女士在晾晒衣服,动作还挺娴熟的。 ok, 我 们看一下鸳鸯这边的版本,晾晒衣服。呃,这个镜头的切换有点声音啊, 也没有背景音乐。呃,基本是做到了,但是就是我感觉这个刚刚那个切到桶那个镜头有点奇怪,其他还好吧。 我现在又想到一个事情,就是我第一个测试不是有人像吗?难道是用无片的人像?可以视频的人像参考是不能的。那我来验证一下我的这个想法, 当我要验证的时候发现呢,我这边已经变成了灰色,也就是说我这个 pro 会员每天只能生成三条视频,我只能等到明天再验证我的想法了。 ok, 过了十二点,我的额度又回来了, 我又重新把今天模特换装的图片上传了,这次呢,就没有传视频,因为我今天的第一个测试是有人像图片,他都成功了,而我后面两次是既有人像又有视频的人像,所以失败了。那我现在就验证一下,只是有 图片人像到底能不能成功?那我已经上传了,并且呢,我后面这句呢,就改了一下,就不是再参考视频了,我试一下成不成功,另外我把比例也变成竖屏的发送,见证奇迹的时候啊,到底 能不能成功呢?他现在正在生成视频当中。 ok, 成功了。也就是说我们上传的素材,如果是图片有人像的没问题,如果是视频带人像的就不让你通过。那我们来看一下成品怎么样?好可爱,这个可能要打码了 啊,它整体效果呢,就是还原了我提 只是说的鱼眼,然后转场。但是呢,衣服呢,好像有一些变化,我们来验证一下。首先我们来看一下第一套衣服啊,他这个豹纹的上衣是差不多,但是他的裤子呢,颜色是有变化的,然后包包也有, 鞋子也是对的,那他第二套的变化就有点太大了,你看他的上衣这边就直接是蕾丝镂空的,然后他原版这边是下半部分才是镂空的,而且他裤子也不太 太像。我们再来看下一套啊,这一套就是只有这个包包挺像的,衣服的颜色啊,裤子的颜色啊,还有他鞋的构造都不太一样,并且他这个项链他也没有戴上,那下一套呢,就是衣服呢,就完全不一样了,因为他这里的一个 勾肩是黑色的,他这边呢就是黄色的,然后字体呢又不一样,包包也不一样,裙子也不一样,鞋子也不一样,就是像,但是不太一样。那我们看一下最后一套啊,就是上衣完全颜色是变了,然后他这边是没有眼镜的, 就佩戴了眼镜。这个包包呢就不太一样,裙子也是不一样,包括他的这个袜子啊,跟鞋啊,也是不一样的。也就是说他这次的换装呢,只是把衣服变成类似的,但并不是真的就换上了这些衣服。那我们来看一下 c 店三点零的这个版本是怎么样的? 还原度很高,这个衣服的颜色不对,这一套就 就这一套呢,也还原度很高,只是这个裤子呢颜色不太对。那其他其实它整体的还原度是比 jimmy 二点零是完胜的。接下来我们来测试一下 p 视频,我先用我的形象照跟一个背景参考图,让它生成一个视频,那等它等一下生成完这个视频以后,我直接让它改背景,看有什么变化。 ok, 已经生成了,我们播放一下, 欢迎来到 gemini omni 的 世界。 omni 的 世界怎么多了一个 omni 的 世界,就是它整体的还原度, ok 的, 人物的还原度,环境的还原度就 ok, 只是说话呢,有一点点的问题。 那接下来呢,我就要测试一下保持前景的人物,跟他说话的内容不变,然后只替换这个背景, ok, 我 告诉他保持人物以及说话的内容不变, 只把背景替换成中国风发送,我们看一下它到底是不是保持前景不变,只变背景, ok, 视频深层呢,它确实把背景替换成中式的风格,我们来播放一下, 欢迎来到 gemini 的 世界, omni 的 世界。哎,怎么第二个 omni 的 世界,它切换了一下背景,但从整体的效果来说,它确实是替换了背景。那前景人物的动作啊, 声音,包括读多的那个 only, 都跟刚刚那个视频是一样的,只是第二个 only 的 时候,他把背景切换了 一下,那这个效果呢,其实我还是满意的,确实可以 p 视频了, ok, 最后我就来评价一下,通过这几轮测试以后,我对捐满了 only 的 感。 首先呢,从整体的测试效果来说,其实他是能玩的,但是呢,我这个 pro 的 会员呢,他每天只有三次,所以也就只能是玩完了。那从生产力来说呢,它的效果其实对比 c 点四二点零呢,还是有一段的差距的。虽然他最后这个视频替换背景的效果还是挺好的,但是国外视频模型的录 还很长,我们国家的 seed 是 二点零还是遥遥领先。 ok, 以上就是今天的所有分享,那你玩过没有呢?把你的感受写在评论区,我们下期再见。

好,今天给大家测试一下这个 cds 和谷歌新发布的这个 omni 这个模型很多人说是 v o 四啊,我也不知道,我也不知道这个到底是不是 v o 四,然后呢,这个具体的对比呢,我们用的是同样的提示词,基本上所有的条件都是一样的, 然后生成出来的视频我已经给大家放在上面了。最后呢,大家猜测一下到底哪个是 omni 生成的,然后你们更喜欢哪一个?最后我会在评论区告诉大家 哪边是 sheldon 哪边是 omni。 然后呢,我会在这个视频给大家放完之后,跟大家总结一下我对于这个的理解和分析啊。 stop you're doing it all wrong watch this watch this and honestly watching all that nasty dirt just just disappear is so satisfying look at that look at that this pressure washer nozzle turns your regular garden hose into a no electricity, no gas and no heavy machine to lug around it's perfect for blasting caked on mud off your car grime off your patio or gunk off your driveway。 好了,视频我们已经看完了,可能比较眼尖的兄弟们已经看得出来了啊,哪个是 cance? 其实我感觉进步是有的,只是说没有想象的那么夸张,我觉得他的水平跟 sara 我 估计差不多吧,听话程度,我认为 cance 的 听话程度会更好,就是我们对他的描述啊,就更符合我们想展示的效果,是比较听话的。 首先第一个成本上来说,肯定是奥尼尔的,这个成本更低啊,所以大家可以挑的选你像我们做一些最后的这种痛点的啊,卖点展示的这些视频,奥尼尔其实很多都可以符合要求,但是没有说。 呃,那么完美,有些片段还是可以用的,就是成就费片率还是比较高。奥尼尔的,如果你让他展示十秒钟内的剧情,或者是你想展示某个卖点, 他总是用切镜头来表达。我,这个我也很纳闷,我也还在测试当中,这是他一个问题啊。嗯,可能就是像官方所说的,他更遵循的物理逻辑就是更真实,就是你让他我们本来在物理世界当中,这个是三秒钟能展示完的,你让他一秒钟展示完,他就给你切镜头, 这是现在这官方说的啊。这个我也不太具体,是提示词问题呢还是什么问题?这个我也还在测试当中。 呃,还有很多测试的就是换装,这个很多人认为这是他们的主力。哦,我个人觉得这东西因人而异吧,所以你们怎么看?对于哪个是奥尼尔,哪个是 cds, 你 们也可以打在评论区。

大家好,我是可涩谷歌的视频魔仙 omni 上线了,还有 gimini 三点五也上线了,接下来我给谷歌的 omni 和 cds 二点零进行一个视频对比,在同样的职业词和脚本以及图片的情况下进行对比。我们先看一下 omni 生成的一个效果, 这是用力复出的一个, 这是横版的一个视频效果对比,然后再测试一下触感的 给大家看一下,七个是二点一出的, 为了测试不同的情境下的一个效果,我还用了九宫格的,这是 omni 的 一个视频效果 啊,再看一下用 c 点是二点零四的啊。 嗯,除此之外,我还给他上传了一个视频,进行一个编辑,他原视频是这个,让他给他换个背景, 他进行了一个修改的动作。 整体来讲这个说实话这两个模型没有办法对比,我迷你连 happy house 都比不 上。这个 jimmy, 它是可以免费用的,我们打开 jimmy 的 这个官网,然后找到这个 video 在 这里生成,你可以上传图片去 生成,也可以直接出提示去给它生成,这个是可以免费用的。还有另一个是它的 flow, 就是 jimmy 它本身有一个 flow, 你 在 flow 里面也是可以免费用的,但是它生成的比较慢, 目前来讲,他这个生成应该是一次出三个,然后出完之后你得隔一段时间他再次出,是可以继续的。

最近呢谷歌发布了全新的 ai 视频生成大模型,也就是 jimmy 欧米尼是这样的一个模型,那么在官方的宣传页面里面可以看到这个模型呢,它的生成效果是非常好的,包括各种的动作, 各种的物体的稳定性都是非常好的。今天呢来实际测试一下它究竟具体的一个效果怎么样啊?我们呢可以先看一下别人制作的一个关于大模型对比的一个效果, 使用的呢就是谷歌新发布的这个欧米尼模型,跟我们国产的这个 c 弹子二点零的一个对比, c 弹子二点零呢是目前来说全世界范围内啊,它的效果是最好的。 然后呢我们来进行一个对比,看一下它的效果,究竟它的距离啊有多少?大家看一下这个整个的一个视频,那么上面呢是谷歌的模型,下面呢是 c 弹子二点零的,咱们看一下它跳水的这样的一个动作啊,非常的不自然,好再看一遍, 好看到这里啊已经落水了,然后呢他又重新回到半空中,并且呢这个人物的整个的一个姿势啊,非常的怪异啊,跟我们的 c 弹 z 二点零是完全没有办法比的,可以说在人物动态上, c 弹 z 二点零可以说非常的真实和非常自然。下面呢还有更多的一个案例,比如说像这种 双人就是两个角色进行一个大范围的移动啊,很明显的可以看到 c 弹子二点零呢,他的整个的一个环绕运镜和慢动作,对吧?和一个细节的整个的一个姿势啊,动态非常的流畅自然。上面呢就不用说了,非常的死板,其他的包括还有这种运动镜头的 啊,一样的运动镜头的 c 弹子二点零呢,同样的大家可以看到非常的自然,对吧?上面呢 整个的你看整个的动作,整个的非常的怪异,这个呢是网上别人的进行的一个对比,那么基本上不用咱自己的测试啊,非常明显可以看到 这个谷歌的模型完全跟这个 c 档三点零完全没有办法比,所以说呢 c 档三点零虽然说现在啊价格比较贵,但是贵有它的贵的一个道理啊,它的效果确实非常好的。那么下面呢给大家说一下咱们如何去 使用这个谷歌的新的大模型,现在呢谷歌模型咱们可以免费去用,这个呢,虽然说他效果没有那么好,但是啊他免费用咱们是可以去用一下的,咱们在这个谷歌呢直接搜索这个 flow, 在 这个平台呢咱们直接可以免费去用的,咱们直接打开一下,来到他的一个账号的这个页面主页,大家呢可以去登录一下,登录一下之后呢咱们可以看到在这里啊去选择这个具体的创作模式啊, 它默认呢是这个图片模式,大家可以看到,那么咱们把它选择视频模式,然后在下面呢就有这个具体的整个的模型的一个选择,那么谷歌的模型呢是 vivo, vivo 就是 vivo 三点一的模型,那么最新的就是最上面这个呢就是最新的欧米尼 flash 这样的一个模型啊,咱们可以直接去选择,那下面呢秒数啊,最长是十秒钟,上面呢这个生成的比例选择,这个九比十六 真和素材是什么意思呢?比如说你上传一个素材呢,上传一个图片,让他模仿这个图片里面的人物的长相啊之类的,这个真呢就是首尾针,对吧?首尾针去生成中间动态的一个视频。 好,咱们选择素材就可以了,这里呢选择好之后直接去书写咱们的题词,直接去发送。那么我之前呢也给大家做好了一个这个视频,这个视频呢就是一个女孩在滑板,就是在场地去做滑板滑板动作这样的一个视频啊,大家可以看一下整个的动作,我感觉啊 非常幅度非常的小,而且他的一个整个的动作非常的不自然,所以说呢还是大家呢可以去试一下生成一些动画动作幅度比较小的这种视频还是还是可以的,但是呢像这种大范围的动作 确实啊是不太适合的,在这个 flow 里面呢,大家直接可以免费的去生成,那么现在呢他是有送的,有这个积分。好,大家可以去测试一下。

本期是 jimmy nike i o 大 会的一个总结,加上 omni 的 一个深度测评对比。首先非常推荐大家看一下我一个五月二十号的一个 i o 大 会的发布会的原视频,你可以看英文版的,也可以看这个五月二十一号的中英文演讲。那以及我们最关心的一个 omni 的 一个模型测评。首先这个模型需要谷歌 jimmy 的 点积分,生成一条七二零的视频,大概需要二十点积分。 新建项目这里你可以选选择上传图片, 也可以根据,比如用 double 创建一个角色,就是可以固定一个人物形象,那也可以对一个场景进行一个创建啊,或者你可以自己上传,这边就用我之前做了一个案例为主,打开我们之前的文件夹。这边我以我以这两张图片为例子,做一个简单的教程啊, 就如果你想要创建视频的话,你需要点着选择视频,然后这边有两个选项,一个是选择帧,帧是指的是关键帧,但目前这个最新的模型它不支持关键帧,如果你使用之前呢,就是那个三点,一是支持的,如果你使用 最新版的模型,它是不支持着关键帧,那我们可以选择把变成素材,然后这边可以选择艾特这个素材,然后说这个是关键帧,再输入你的题词,这边是画面比例,一个是竖屏,一个是横屏,然后这边是选择生成几个视频, 可以看到这边是消耗的点数,然后这边是选择模型,我们选择一个最新的模型,然后点击这个生成,它就会进行排队,但有的时候可能会排不上,这个时候你可以把你的题词复制一下,可以再等几个小时再去试一下,如果还不行的话 可以看到我这边。呃,选择了很多,我在十点跟九点钟以及七点钟都试过了,目前七点钟我是生成了几个视频,那接下来就以我七点钟生成这些视频进行一个测评为主。然后接下来就是一个提示生成视频的测评, 可以看到 omni 这个模型生成的猫的毛发不太自然,而 c n 四二点零的猫看起来会更加自然一点。 然后是首尾针的一个铁磁测试,这是一个篮球场的手针,然后这是一个人在转球的一个尾针,就我想让摄影机快速旋转 下降到这个打篮球这个人,然后这个人在转这个球。那我们来看下这两个的一个测试对比啊。首先是欧米尼,欧米尼你需要注意一下,他没有手尾针这功能,但是我是通过艾特这个图片是手针,艾特这个图片是尾针进行制作的,可以看到他手针是已经确定好了, 然后中间是一个非常短的一个旋转,最终的尾针也能停住,然后这是 cs 二点零, 然后这边开始旋转,注意看这旋转,这个旋转还是非常有,这个旋转还是非常有镜头感的, 然后最后停留在这个球在旋转的这个尾帧上面,这尾帧上面没问题,在这个方面我觉得是 c d 幺二零会稍微好一点。然后接下来就是一个图片生成加思考, 这是我给他一张草图,就根据我上传的草图,参考图片中的鱼的形象加游动轨迹生成鱼饵在海中游动,然后再跃出水面,再落入水中的一个写实风格的视频啊。首先这两个模型生成起来都有些问题啊,先看我们的欧米尼 这边可以看到它突然出现箭头了,这个不是很好, 然后这个它也确实是按到就是这个鱼的顺序。然后接下来就是 c d s 二点零,可以看到它这边就是给自己加一条鱼 啊,可以看到我这边是给他一张草图,然后这边,然后这边是提示用的是 c d s 二点零, 可以看到他生成四个视频中有只有一个是没有箭头的,就在这个方面就是两个模型表现都不太好,都需要答应了抽卡才能得到我们想要的画面。最后最后简,最后简单总结一下奥米尼存在性问题啊。 最后最后我对奥米尼进行一个简单的评价,就是目前他的算力不足,如果你想要尝试,你需要非常有耐心,那以及它生成效果不是很好,我建议还是支持咱们的国产的 c s r 零这个。

jamn 欧米尼翻车了!就在昨天的 google i o 大 会上,全新的视频模型 jamn 欧米尼正式亮相发布之中呢,所有人都期待他能够创作出超越现有视频模型的作品啊,但现实似乎并没有按照大家想象的方向发展,就连 jamn 欧米尼一直强调的真实世界物理规律,在 cds 面前也毫无还手之力。 无论是画面、构图、分镜,还是单纯的生成效果,都显得一塌糊涂啊。讯息能力似乎与 cds 完全不是一个级别, 但詹姆尼真的很差吗?其实也不完全是啊,在连续编辑上,他的表现反而更加出色。以这段视频为例,将画面中的小提琴手所处的场景更换为草地,人物的动作、神态、表情都完整的保留了下来。 将手中的小提琴给去掉之后呢,仍然能够看出前后非常高的一致性。再看这段发布会上演示过的案例啊,经过欧米尼的多轮编辑后呢,人物会根据不同的设定做出不同的反应, 同时保留出真实的物理效果。由此可见, java omni 并不是专门用来做精美短视频的模型啊,更像是视频版的 nano banana, 它可以精准的根据用户指令修改视频,而不是单纯的创作虚拟型作品。 所以,如果你想通过 ai 一 键成片啊,我想 cds 仍然是现在的第一首选。但如果你追求可控编辑、灵活修改,那么 java omni 无疑更加值得尝试。 比 cds 那 种令人惊讶的视觉效果, jimmy 欧尼更像一个可控的视频工作站,你可以反复修改,局部调整,灵活性远高于 cds, 换句话说,欧尼的价值比生成画质本身更加突出。目前你就可以在 jimmy flow 里进行体验了,赶快试试吧!这是我还推荐第五百四十一个神器,关注我,解锁更多硬核 ai 工具。


哇,酷狗新模型憨爆了啊!好吧,也拉爆了! siri 君花了五天烧了八亿头坑!一分钟带你吃透酷狗新发布的大模型!一句话总结,有憨有啦!先说炸场的 omni, 首个全模态大模型 omni 憨到什么程度呢?拯救废片,再也不用反复抽卡了! 他其实是一个顶级缝合怪可灵的参考视频模仿生成,或者是参考图首尾帧故事版,他全都能用。但是他对运动和物理规律这块非常拉, 所以除了运动,其他方面还是可以使用的。他最好的优点是不用排队。 再说第二个主角, jimmy 三点五 flash, flash 版就是入门版,它的速度和精度居然比上一代的 pro 版还要高,它还有支持一个 a 准的模式,就像小龙虾,它现在就可以自己在云服务器上拆任务,自己干活。那么意味着你可以用 jimmy 三点五 flash 去 去掉奥米尼,自己去照视频,剪视频,改视频,发文案。但是他拉的地方在于价格,基础版的价格居然比 pro 版的还要贵!将雪下在房间里,在刚刚的视频上修改了,去除雪,放一群鸡进来,鸡换成一群模特在拯救。 把模特去掉,房间里有瀑布!

谷歌发布了 gemini omni, 很多人第一反应是 cdenis 二点零是不是要被取代了?首先,整体成片稳定性这一块, cdenis 二点零目前还是更稳,画面连贯,动态效果一致性。日常做短视频,它依然是更省心的选择。但 omni 并不是全面碾压,它藏在两条很具体的线, 一条是视频编辑,一条是物理模拟。先说视频编辑,你可以上传自拍或者任意素材,然后用自然语言多轮改改风格加元素换材质。官方演示里手摸镜子那段很典型,人物动作基本保留镜子和手臂材质,按指令替换,而且每一轮指令会接着上一轮结果继续生成。人物和环境上下文尽量保持一致,这更像可控剪辑,不是整段童话。再说物理模拟, 这是奥秘技术含量更高的部分。比如弹珠在轨道上滚动,字母表对应奇怪物体,还要卡节奏、字幕量式、帧数和收尾。它要把语言、图像和意义一起对齐,不只是看起来像。从能力结构看,奥秘是把文字、图像、视频、音频放进同一个生成框架,背后整合了图像、视频和世界模型。 所以它能做教学动画,也能做交互式仿真。输入可以很复杂,输出也可以很复杂,但理性一点看,也有几个限实现制。第一,它不是所有场景都赢,网友实测里, cintens 整体更稳, omni 在 特定镜头更强。第二,算力和配额不便宜, pro 用户每天有生成次数限制。第三,谷歌给生成视频加了三 c d 水印, 真实人脸,还有额外规则,说明他也在防滥用。所以怎么选?如果你要稳定出片,批量做内容,优先看 c 跟 c 二点零。如果你要改已有素材,多轮精修,还要物理逻辑更靠谱, omni 更值得试。最后一句结论,这不是谁彻底取代谁,而是 ai 视频进入分工阶段,一个偏稳定量产,一个偏可控编辑和物理理解,创作者按任务选择合适的工具。

这两天微毒有个新的 ai 模型,那么我们看一下它跟 cds 二点零是不是真的打的有来有回。好,我们现在来看一下这个视频啊, 感觉七天十二点你还是打的比较有逻辑一点啊。下面看一下这个 we do 的, you get them oh no go let's get them you get them i don't feel heat i don't go yeah let's get it。 其实我感觉后面这两段都挺好的,我们再给它加一段进来, 最后面这一段从那个画面衔接上来说, cds 二点零要好一些,从远到近特写的放大比较符合我想要的那种感觉。当然上面那个 voodoo 它也不错,剩下的素材它就都是 voodoo 的 了。我们再看一下吧, 他们这样看我感觉还可以,我真的感觉还可以再再看一看,这都是网上面收集过来的, 这个动作上有些失误啊。看着这个 vdo 的 新模型跟气垫是二点零,谁更好呢?欢迎打在评论区里面一起讨论一下。

dance 二点零这次终于有对手了!谷歌刚刚发布的视频模型 omni 到底行不行,我们一试便知。先来看 omni 强在哪里?首先是视频编辑能力, omni 能够在改变画面元素的同时,保持角色和场景的一致性,比如把现实中的雕塑变成泡泡,一触即破, 把自拍里的镜子变成液态,让人碰到就变成终结者。或者是把小提琴手从音乐厅挪到草地上,再变换一个拍摄角度,不过他好像忘记把琴带出门了,真是尴尬。其次是物理引擎更加精准,那说人话就是重力、速度和碰撞之类的效果更加真实。 另外,奥尼也拥有了全能参考的能力,除了能够参考图像、视频和音频合成最终效果之外呢,还能给视频加上指定的特效包装。正为我的动销同事捏一把汗, 那接下来我们看看同框对比 omni 和 c dance 二点零谁的效果更好呢?实测下来, omni 的 物理效果确实更加优秀啊,画面风格也更加丰富多变,但中文能力就远远不如国产模型 c dance 了,这些有机材料就能自醒发光,而且 c dance 的 人物位置更加稳定,画面更有影视风格。 目前这面的 omni flash 模型已经正式上线,不过每天只能生成三条视频,你觉得 omni 能够和 c dance 一 战吗?来评论区咱们接着聊。

google 开始挑战 sedance 了!在今年 google i o 二零二六上, google 正式发布了 gemini omni, 官方的核心方向非常直接, any input to any output, 也就是任何输入生成任何输出。这里是 co 科技日记,带你看懂 ai。 根据报道, gemini omni 可以 基于自拍视频图片,已有视频素材继续生成新的风格化内容,甚至还能把真人素材重新编辑成不同风格的视频。 它已经不只是生成视频,而是在网理解视频加编辑视频加重做视频。比如你拍一段普通自拍视频以后,可能直接一句话帮我改成电影感,改成赛博朋克风,重新剪成短视频节奏,帮我生成另一个场景版本,然后 ai 自己完成。 而且 google 这次还推出了 omni flash, 它现在已经开始向部分订阅用户开放,并接近 gemini app flow 和 youtube shorts。 这其实很关键,因为以前很多 ai 视频工具更像独立软件,但 google 现在想做的是直接把 ai 视频生成塞进自己的生态搜索 youtube、 android gemini shorts 以后可能全都能直接调用 amni。 而这背后,其实也是 ai 视频行业正在发生的一个变化。以前大家比的是谁的视频更长,谁的画面更真实,但现在开始变成谁更懂真实世界里的视频素材。这也是为什么最近越来越多人开始讨论 citizen's、 happy horse val、 gemini amni 这些新一代视频模型。 当然,现在 gemini omni 也还远没到完全替代真人剪辑、复杂剧情、长视频人物一致性,目前依然是行业难点。但有一点已经很明显, ai 视频生成正在从做一个视频变成理解现实素材,然后重新创作。而 google 现在真正想做的也不只是一个视频模型,它想做的是一个能理解文字、图片、 声音、视频和现实世界的多模态 ai。 所以 这次 gemini 真正值得关注的不是 google 又发了一个 ai 视频工具,而是 google 开始认真下场争下一代 ai 视频入口。最后问你一句,你觉得未来 ai 视频最先冲击到的会是短视频剪辑、广告宣传,还是影视后期评论区?说说你的看法。

我觉得 google 奥尼更新之后最神奇的功能之一就是可以直接修改视频里的指定元素。下面进入到实操环节,这是我在网上找到的一个可乐的 tpc 广告,那我们想把这个可乐的瓶子换成,比如说百事可乐,那我们该怎么办呢? 其实很简单,我们就把这段视频直接上传给乌米尼,然后就用大白话和他沟通,然后大家可以看一下效果,基本上所有的转场运镜,包括产品没有任何的问题。 再看另一个例子,这段视频是我用 c dance 跑费的一条画面里多生成了一只手。以前遇到这种情况,我们可能只能重新抽卡, 但现在其实有了一个更直接的解决方案,我们把这段视频上传给欧米尼,然后告诉他去掉视频里拿荧光棒的那只手,可以看到最终效果非常好,基本能修掉这类穿帮问题,也能明显降低反复抽卡的概。

上一条评论说国外模型白幽兽不能生成,特意用 omni 尝试突破限制,嘿嘿,没想到通过文本转分镜图在生成视频成功突破了。哈哈哈,那下面我们来看看 c dance 二和 omni 的 对比效果吧。看到最后那个转身我实在没绷住,感觉 omni 差一点就赢了。

哈喽,兄弟们,昨晚通宵看了谷歌 i o 大 会,现场演示是天花乱坠,从模型到 agent 再到硬件,全线 ai 产品轮番上阵,看得我那叫一个心潮澎湃。结果实测之后就一句话,大部分都挺拉垮的。 omni 是 这次发布会重磅首推的演示效果相当炸裂。官方定位很明确,万物皆可生成的第一步,代表着在世界理解多模态和编辑能力上的一次全面飞跃,人物细节、风格、 环境角度全都能随意切换。听上去视频模型的新标杆好像就这么立起来了。 其次是 jamming, 三点五, flash 主打一个快高效能打复杂任务,多模态也不在话下,而且官方特别强调他的 agent 能力,在个人 agent 助理和全新的 anti gravity 二点零中都主推三点五,要的就是性能和速度的那个平衡点,吹的都很猛,但到底行不行,还得上手册。 听发布会的同时,我第一时间打开了 gemini, omni 已经上线了,这个版本应该是 omni。 flash 拿前两周做的慢剧提示词测一下,他们家首尾帧要在提示词里写明给大家看一下,这是首帧,这是尾帧续章里祁昌云来凌虚城开奶茶铺的那一段, 等了差不多五分钟,速度还可以直接上,结果 那就开个奶茶铺,大翻车,场景一致性全崩,细节缩水,两档衣服跟原图差了十万八千里,运镜拉胯。最后的配音我差点笑没再放一遍。你们听 开个奶茶铺,对比一下我之前用 cds 做的视频提示词,一个字没改,一轮直出没抽卡, 那就开个奶茶铺, 这个差距就一目了然了吧,而且我用的是 c dance two fast, 再给他一次机会,换个正脸图,输入仍然跟 c dance two 完全一样,节省时间。直接看成片 回到其梦里,对比一下 c dance 的 出品, 首帧,双方表现都很好,中间部分 omni 未能理解提示词中的雷劫,而到了尾帧再次出现了场景偏移。详见屏幕。对比之下, c dance 准确遵循了首尾帧及提示词中的天雷滚滚。 本轮 omni 的 表现略有改善,但首尾帧一致性不足,实用价值有限。 中文视频我感觉奥尼是真不行,正准备测一下英文的时候,屏幕上直接提示额度不够了,大家看,我一个月二十美金买的 pro 订阅就跑了两视频,五小时的额度直接见底了。谷哥你这是搞啥呢?离了大谱了。 得了,就剩这点额度了,给大家测一下 flash 三点五吧。先确认一下,现在用的是新版的 flash 模型,没有问题。第一道题,咱们来测测新版 flash 的 中文,我让他用王家卫的风格写个黑咖啡文案,这个输出速度比 deepsea v 四 flash 慢多了。 我真的读了三遍,只能说太尴尬了啊。抄的几句不说了,我读下这句,零点零一公分,那是我们之间最近的距离。等等,你看看文理,我们是谁啊?这句话有点太不合适了吧, 谷歌这个蒸馏技术是不是把情商也给蒸发了?从二点五时代起, gemini pro 一 直负责我的创意写作,中文一直能打,可是最近这两代 flash 在 这道题上都翻车了, 大家对比一下,左边是三点一,老 flash 跑同一道题的输出,一上来就王家卫说特别僵硬,那最后一句更是让人读不懂他在说什么。然而今天右边的三点五 flash 又刷新了我的认知, 我就不信邪了,它到底强在哪?都说 svg 是 大模型视觉能力的一道坎,因为它逼着 ai 左手写代码,右手还得有审美。那就让三点五先出一个造型精致的 svg。 机器人是可以当吉祥物的那种,要求有点高,我们直接打开扩展思考模式, 提示词我打在屏幕上了,需要的可以截屏。扩展模式花了不少时间,我们直接快进,看结果效果还行,方方正正的。机器人要求的组建细节都到位了, 可惜金属质感和微妙的光晕没画出来,做吉祥物还是差了点意思。再看老版 flash 生成的整体感觉还是比新版弱一些,基本全是线条拼出来的。但话说回来,新版三倍的价格有点不值, pro 就 不用比了,虽然做不到惊艳,但光泽感强太多。 最后用真实世界的复杂任务测一下 flash。 三点五,谷歌这次重磅发了 antigravity, 二点零,我升级好,打开那一刻真的蒙了。看屏幕,他说升级后就剩 agent 的 工作台了, ide 得单独下个 app, 我 当时火就上来了,虽然 agent 和 ide 我 都用,但你不声不响搞成两个也太莫名其妙了吧。 只能收拾一下心情,打开一个一直想重构的工程。上周用老版本 jimmy flash 写的这个项目我不怎么满意,今天刚好让升级版出马,修一修自己之前挖的坑。 这个页面并不简单, remotion 和 three js 做的三 d 短视频编辑器配了十套模板,但模板实现的很套路,随便看两个,第一个三 d 效果平庸,文字对比度不足。 第二个质量还行,就是风格不够。赛博交互逻辑也有不少坑。滚个模板列表全页跟着动,还加了一堆没有实际意义的元素。 打开升级后的反重力,选择新版 flash 模型,思考强度选 high, 在 升级后仅剩的输入框窗口里,让它全面重构刚才这个页面以及所有相关代码。我的要求是更新 u i u x, 优化已有的视频模板,并新增十个不同的模板, 每个视频效果都要做到最佳。目测这个重构速度比老版本的 flash 快 了一到两倍,但是达不到官方宣传的十二倍提速。 三分钟后,重构结束,来打开验一下这个重构后的版本,把排版整个重写了一遍,模板加到了二十个标题,文字全都调过,还新增了模板搜索栏,左侧列表滚动终于独立了。 打开第一个模板,看看配色,这次合理多了,光效也能看清楚,动效马马虎虎吧。再看第二个框线,换成了绿色,但好像就没做更多优化了。下面看新加的模板, 选这个运动实时遥测做的挺好,足球场上有球员轨迹,中央的圆圈有点抢戏,运动方向需要调一下。 最后看个分子料理装盘,配色很赞,中央旋转的菜品标签让人眼前一亮,那些大波纹似乎想表达味道,有点用力过猛。改下标题看看, 没问题,功能正常,小节一下,新版 flash 三点五在反重力加持下提速很明显,能力也增强了,但代价呢?额度消耗是之前的三倍多,刚才这个重构五小时额度的四分之一没了,你算算五小时满打满算只能干十二分钟。 对比升级前老板 flash 几乎无限的额度,大伙啥感受?评论区说说看。 i o 大 会我每年都看,二点五发布后 jammin 就 成为我的主力模型之一, 但这次的翻车程度恐怕仅次于一点零发布的灾难现场。你们可能会在其他地方看到清一色的异美之词,我敢说没实际跑过的探击生物退役指南,喜欢就点个关注,下期见。