哈喽,小伙伴们大家好啊,昨天阿力终于把我们心心念念的被子给开圆了,我这边大概测试了一下,发现还是得采用这种双彩的方式才能达到一个比较完美的状态。我这边大概过一下整个流程,再给大家说一下为什么要采用双彩的方式。 首先我们高噪的话加载的是一个我们的类似的模型, d 噪的话就是采用一个我们 turbo 加速模型,整个步数还是按九步来计算,高噪的话我只给他跑了三步,这个值的话 需要调整,根据你的出图的类型需要调整。后面的话我会讲到,我这边采用双采的方式,其实有两个主要原因,第一个原因的话就是一个随机种子的问题, 我们之前使用 turbo 模型的时候会发现一个问题,你即使让他随机整着他整个画面的变化是非常小的。我这边出了几张图给大家看一下效果,像这张图是 turbo 跑的,同样提示时跑了三张,第一张记住这个整个构图,第二张的话只是 角的话有稍微些许的变化,整个构图的话跟第一张基本上没什么变化,角度也是一样的。第三张的话 基本上也是没什么变化,包括后面的相片背景的这些书基本上都是一样的。好,我们再来看一下贝斯的随机种子,这是第一张人物构图,然后第二张整个人物的姿势是有变化的, 包括这个前景的草莓,透视角度也是有改变。然后再看一下第三张,整个姿势的变化就更大了, 包括后面的书架,墙壁上的照片排布都是有变化的,变化的幅度还是非常大的,相对于这三张来讲,所以这就是第一个原因,我为什么要采用双彩的方式, 我们高噪情况下让他种子随机低噪的话让他固定就行了,那这样你整个筹卡的话,他这个变化的幅度就会非常大。 然后第二个原因的话,我们直接来看一下图片的对比,我这边跑了十组不同类型的图片,我们来看一下对比。这是第一张图片,左边的话是贝斯,右边是 turbo, 乍一看 好像左边这个更抢眼。你看整个氛围的话,说实话我更喜欢左边这个氛围,但是我们仔细一看,这个手已经变形了。 我们还会发现一个细节啊,虽然后面都是背景虚化的,但是他这个场景的复杂度明显是比我们右边特薄会高很多的。好,我们再看一下下一张,这张就更明显了,无论是整个皮肤质感还是这些碎屑,这些细节包括背景的丰富度 都是特步没办法对比的。但是整个崩坏程度的话,贝斯崩坏的会比较严重一点,这个已经完全就只剩一半的小提琴了。我们再看一下下一张,同样整个氛围,我还是更喜欢左边这个,完全就把个赛博朋克的光线感觉 表现出来,而且传过雾以后,它会经过一个慢反射,整个照片都会有一个荧光的感觉。这个赛博朋克的风格是完全体现出来,右边的话就是 普普通通,跟赛博朋克完全不搭边,只是兜了几个霓虹灯的这种广告牌而已。整个艺术风格还是左边比较好,但是仔细一看的话,远景的这个汽车其实已经是崩掉了, 右边的话是完全没有崩,我们再看一下下一张,这张风景的对比也是非常明显,右边的话整个 风格一对比就会感觉有点寡淡,色彩有点寡淡。左边蓝天白云,包括这个雪山的倒影,包括这个湖底的水藻,这些细节都是非常到位的。好,接着来看一下下一张这是一个二次元的风格,像这种吉普利风格的这种漫画高饱和度还是有优势的。 在细节方面的话,同样是向日葵,它前后基本上都是一个形状的,像左边这个前面的话比较大个,远景变小了,整个透视关系就很明确,给我们整个画面都有变化的感觉,包括这个云层,他有光线打到这边,背面是打不到, 整个层次分明,前后关系的话非常明确,向右边的话就画了一片阴影后也没有高光,整个画面就非常的平淡。 我们继续看一下下一张同样也是二次元的一个漫画人物,简单的来讲还是整个元素的丰富度还是差了挺多的。好,接着再看一下下一张。好,这是一个艺术建筑的一个摄影,左边的话同样的特点就是 整个细节丰富,右边的话虽然没有崩坏,但是整个图片的话就感觉非常的单调,所以这就是我为什么要搭一个双彩的工作流。我们来到千问发布模型的简介页,然后他这边也是有说明啊,我们直接抓重点看几个字。他这边美学多功能系 超现实摄影,电影级数字艺术到复杂的动漫和风格化的插图划重点复杂,包括下面的面部身份和光照的多样化,这几个形容词 简单来说就是你同样粗的图片,贝斯的画面肯定会更丰富,而贝斯的最大由此还是在于它保留了完整的训练信号,就是 你用贝斯模型训练 lowra 的 效果肯定会比真流版的更好。而我们再回到这边工作流,我这边我最开始说了,这个数值的决定性还是比较重要的,这决定你贝斯模型采用步数,因为你只要有贝斯模型的加入采用, 那你都会有可能出现像这种排列无章这种手脚画不好的情况。一个的话我们是可以通过这个负面提四折来控制。第二个的话,我们就是通过这个高燥的彩样步数,让贝斯画的步数越多,他出错的概率越大,但是同样的,他这个细节会更丰富。 你让贝斯的步数越低的话,那我们画面崩坏的情况就越低,但整个画面细节就会无限接近 你。特爆出的这个图片元素较少,虽然我这边搭了一个双采方式啊,但是整个出图的时长基本上没有变化。喜欢的小伙伴可以在我的简介区通过链接进入这个工作流体验一下,然后通过我简介区的链接注册的话,可以赠送一千的积分。好,今天的分享就到这边,我们下期再见。
粉丝3025获赞17.4万

如果说你已经厌倦了 ai 纹身图那种千篇一律的塑料感,那么今天呢,我们迎来了 z image 的 完整版,也就是我们说的 base 模型。那相对于特步模型,这一次呢,不仅仅是一次版本的更新, 更是一次从快捷生成向深度掌握的回归。那相对于特步模型来讲, base 呢,是一个非蒸馏版的基础模型,它保留了完整的训练信号, 而且支持全功能的 c, f, g 和负面提示词。那大家现在看到的是这 image base 在 抱抱脸上的页面,那我们详细来看这个模型,它最大的特点呢,就是突出了真实性, 那比方说这儿有一个美女在宿舍里的合照,那大家会发现这 image base 生成的人呢,几乎都是一样的, 但是在 base 版本里边,每一个人物的辨识度呢,还是很强的。还有一个非常重要的内容呢,就是副像提示词。那 我们看左侧的这个图片,首先他是一个西方人,另外呢,他有一个手臂的畸形。但是如果我们添加了西方人和人体畸形这样的副像提示词,大家会发现人物变成了东方的美女, 而身体的畸形就不见了。而下面这个例子则是加入了 side 的 这样的提示词,大家会发现啊,他的表情呢,就没有那么悲伤了。我们可以这样讲,这个版本最大的提升还是在真实性方面, 所以说呢,我们就设计了九个场景来测试它的真实性,那这九个层面都包含什么呢?第一个呢,就是人物面部的特写,那么既包括写真人物啊,也包括写实人物。那另外呢,就是一般场景的真实感,还有互动场景的真实感,光影场景的真实感,镜物场景的真实感, 以及呢副像提示词的一个基础的使用。那目前呢, comfyi 的 官方呢,已经支持了这个模型,那这里边呢,有一些势力的图片, 包括模型的一些基础的介绍,那在这儿呢,大家可以下载对应的工作流,大家可以在 bobo 脸上下载到 comfy 官方提供的 gmail 贝斯的模型,大家注意是一个 b f 幺六的版本,大小呢是十二点三个 g。 那 在图片生成和视频生成领域,我们最怕的呢,就是环境报错和显卡带不动, 其实呢,只要思路打开,云端运行才是一个最高效的解决方法。那 ready cap 是 我一直在用的一个在线的工作平台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。 好,下面呢,我们来看一下具体的工作流。整体的工作流呢,和 z image turbo 呢是一样的,那只不过就是我们将模型换成了 comfy 官方提供的 base 版本的模型,那关于文本编码器和 ve 啊,这个并没有任何的变化,那关于采样的部分,大家注意,首先采样步数官方建议是三十到五十步啊,但是呢,他提供的视力工作流给的是二十五步,那我建议大家呢,还是改成三十步, 而 c f g 呢,他认为是三到五。那在这呢,我们给的是四点零,而官方给的采集器呢,是一个 rise multi step, 那 这个呢,是我们之前没有用过的一个采集器。好,下面呢,我们就看一下具体场景的生成,那第一个场景呢,其实是一个写真美女的面部特写, 那在这里边呢,我们可以看到它在整体的面部上呢,有一个非常漂亮的妆容,甚至呢我们可以看到整体面部有一些湿湿滑滑的感觉,那大家注意它眼部的刻画, 嘴唇的展现,这个都是非常漂亮的。当然可能很多人会说啊,很多模型都会对写真美女啊做着重的训练和调优,那我们下面就看一下其他的场景。第二个呢,我们同样在测试写实感啊,这个呢是一个小男孩, 他在吹蜡烛的一个感觉,那我们在提示词里边,重点要描述他吹的这个动作,包括面部肌肉的一些变化 啊,包括蜡烛产生的烟雾,大家看一下,在整个场景当中表现的都是非常到位的。那第三个场景,其实是一个老年人的面部的特写,当然我觉得这个模型在这种面部 斑点的展现上有点过,那如果你在提示词里边着重去描写人面部的真实性,并且呢强调他有雀斑,那有些有强迫症的人呢,可能会描写他大概有一百多个雀斑,那这个时候你得到的面部效果呢,其实是没有什么美感的啊, 所以说呢,我觉得他在面部斑点这个特征上表现的有点过啊,反而失掉了相应的真实性 啊。当然这种面部特征和整体的老年人的皱纹啊,包括和他的胡须,眉毛整体的组合起来,那我们可能感觉会好一些。如果是一个青年人,或者是一个美女啊,那他脸上有这么多斑点啊,你会觉得其实呢是不太好看的。 好,下面呢我们看一下一般场景,这个呢主要在测试的是一个抓拍的瞬间啊,女孩坐在小溪边,然后用手呢把这个水给撩起来,那我们会发现整个这个瞬间的动态表现也是非常到位的,包括人物的表情啊,水花溅起的这个状态, 那我们再来看下一个,我把它定义成叫做互动的场景,在提示词里边重点描写着这样几个内容,第一个就是男人骑着自行车,第二个就是一只手啊,然后呢提着包子递给他,并且呢 描写的是中指在提着这个包子,那这个表现呢也是非常准确的。另外呢,我们在提示词里边重点也描写了在花上呢有未干的露珠, 那大家看一下啊,露珠的形态表现的也是非常到位的,而这个场景呢,我们叫做光影的写实性,那大家会发现啊,整体的这个光影的感觉是非常漂亮的,那为了让大家看到写实性的这个特点呢,我们把人物的发丝啊也放到了这里边, 当成了一个主体,而且呢它有这种远景的发丝啊,也有近景特写的发丝啊,大家会发现啊,这个表现的都是非常棒的, 而人物的皮肤状态啊,光影的层次感,整体的质量的提升的也是非常高的。下一个叫做镜物的写实性,在这里边的话呢,我们重点描写的是带露水的西红柿, 然后放在了一个亚麻的布上,那大家会发现啊,整个这个布的质感表现的是非常漂亮的,而露珠的形态呢, 也是非常棒的。那最后呢,我们来测试一下副像提示词的这个效果啊,大家看一下,这段提示词呢,很长,那在这个里边呢,我们对这三个女孩的动作和表情呢, 做了非常详细的描述,首先展现的是非常准确的,那我们会发现人物的民族特征表现的不是特别的强啊,有的像东方人,有的像西方人,那所以说呢,我们可以加上副像的提示词,那这就是我们最后一个图的效果。 这里边儿呢,我们在复相的条件里边儿加上了 western go, 呃,也就是说我们不希望出现西方人,我们就得到了三个东方人的效果啊,那你看一下,整体的写实的感觉也是非常棒的,包括宿舍的这个状态, 并不像一个摆拍的场景。如果我们将复相提词词变成了 eastern go, 那 我们来开始生成的效果, 那这个时候呢,就生成了三个西方的女孩,那整个环境的特征呢,也像西方大学的一种场景。那所以说呢,你会发现啊,负向提示词在 base 模型里边呢,是非常有效的。当然呢,有很多人也会去测试 c f g, 但是我觉得意不大,那其实在我们快速生成图片的时候呢,更多的还是正向提示词的一些特点呢,突出展示给大家。 当然呢,它最大的缺点就是生成速度太慢,那大家会发现啊,如果使用 b f 幺六的模型,生成的时间大概在一分钟左右, 这个跟特步模型相比的确要差很多,但是呢,我们的确在质量上也得到了一定的提升,那这个到底怎么去取舍,就得大家自己去考量了。好,今天我们就说这么多,还等什么,赶紧自己试一下吧!关注我,做一个懂爱的人。

哎,千盼万盼以为能开源一个编辑,结果等来的还只是一个生图模型 z e image 啊,不要这样消耗社区的耐心了好吗?难道说,难道说你真的打不过克莱因? hello, 小 伙伴们大家好,那么终于啊,这一 made 的 base 模型呢发布了,但是比较遗憾的是这次它不带编辑啊,只有一个升图模型 啊,那么这个模型呢,我们看一下它的一个基本的一个特点啊,首先呢,它的需要更高的一个步数和更高的 c f g 啊, 但是光康菲尔官方这边推荐的呢啊,比如说 c f g 等于四到七啊,我试了一下,四到七的话,它会有点过你和啊,会造成画质的一个怎么讲会有这种色块啊,奇怪的色块啊。 那么这个的话,我们可以适当的降一下 c f g 啊,目前我这边跑了一组是二点五啊,那么推荐步数呢,是 三十步到五十步,那么其实我试了一下,二十步也是能出图的啊,二十步也能出啊,也能完成离合, 那么这个模型呢,他的多样化会更好啊,意思是什么呢?就是说如果换不同的种子和不同的彩样器啊,那么他的这个变化会很大,我们又能重新找回这个抽卡的乐趣了,能够找回抽卡的乐趣了,所以说,呃,这也是一个比较优势的啊, 你看这样同词的,然后啊,不同种子它的变化是非常大的,变化非常大 啊,这也是一个好处啊,那么这个时候呢,我们就把这个 turbo 的 模型呢,还有这个我们新的这个 z minus 的 base 模型, 跟我们的克莱因的九臂的模型啊,同场竞技一下啊,跑了十组提示词,那这十组呢,包含了我们这个时尚的一个摄影啊,还有我们这个刘亦菲的自拍, 二次元的这个,还有我们中式的一些元素的,还有一些建筑的图,还有一个特写,面部特写啊, 小清新,日系的一个写真,还有就是说一个风光啊,还有我们日常的一个这种写实的这种摄影,还有一个就是平面设计的,我们看一下他的一个对比的一个表现啊, 首先从第一组开始啊,这个就是我们的一个时尚写真的,这个我们靠的这个画质啊,明显的就是说,呃, 贝斯模型呢,比这个 turbo 模型呢,它的对比度和饱和度啊,包括色彩更加的浓一些啊,更强一些, turbo 呢,就是相对来说稍微清淡一点啊,但是贝斯呢,它的这个对比的质感就更强一些啊, 那么克莱因呢?克莱因的话,它的美感就是不如这两个啊,毕竟,对吧。呃,这这个模型是非常符合我们国人口味的,但是克莱因呢, 它就不太行,不过克莱因也不是毫无优势啊,克莱因的这个像素的密度就是有效像素,它比这个 z 的 两个模型都要高一些啊,都要高一些,我们分辨率是一样的啊, 我们看一下,你这的话,稍微放大一点就能看到,对吧?他的边缘也好,就是没有那么清晰啊,贝斯会好一些,贝斯会好一些,但是克莱因呢,我们可以看到啊,即便放大我们这个边缘,包括肌肤的质感也是比较清楚的,这也是克莱因的一个优势的点啊, 但是说这的这两个模型已经足够我们用了,我这边分辨率都是幺五三六乘以幺零二四的哈,好。第二组刘亦菲的写真,那么 对吧,我们看了以后,这个其实两个 z 的 模型表现都很好,是不是啊?那么 base 呢,感觉更加的真实化一点,他没有像那种就少了一些小红书那种滤镜那种感觉啊, 但是对吧,克拉因啊,就比较油了啊,比较油,而且他也不认识刘亦菲,对吧?但是克拉因还是像我说了,他的边缘啊,包括这种像素点的这种质感啊,更加清晰,更加结实啊,比这个 turbo 的 包括这个贝斯都要结实。我们看这衣领的位置能看出来啊, 就是更清楚,说白了就是更清楚,这个图更锐利啊,更结实啊。那么二次元二次元的话,其实贝斯的话我觉得表现会更好啊,为什么? 因为就像我们刚才说的,它的这个饱和度和对比度都会更强一些啊,都会更强一些,那么其实对二次元来说,这个对画质反而是一个提升哈,因为 turbo 的 话,它都会有一点点的,就是说比较稍微清淡一点, 那么对二次元这种需要这种强烈的画风表现的呢,就反而是不是一个优势啊,那么 face 模型这时候反而就有优势了, 那克莱因这个就不行了啊,克莱因一个是肢体崩了啊,二是他的这个,呃,怎么讲呢,也不是日漫啊,有点像美漫欧漫那种感觉啊,这个风格有点问题。 那么中式这个也是啊,中式还是啊,这个不知道为什么手有点点崩,可能是有些像素不够啊, 同样的也是明显的一个饱和度和对比度都要更强一些,就是图片看起来整体的更加锐利,更加结实一点啊,包括色彩的对比度也是。那么当然, turbo 还是很讨喜啊, 这种这个很适合摄影的风格,那么 colour 就 没办法了。 colour 你 不认识中式元素对吧?你无论你的画质再怎么结实,边缘处理的再清晰,你不认识就是不认识,你不会就是不会啊,那没办法。 呃,这个建筑,这个我反而觉得克莱因的表现会比较好啊,我们看贝斯这个呢,他就是相对那个色彩更加浓艳一些啊, turbo 呢,就更加的那个 稍微低饱和度那种感觉,而且就是细节会相对缺失一些啊。对,贝斯,那么这组我们看克莱因的表现是最好的,无论是材料的质感啊,细节的表现,包括色彩的一个把控啊,我觉得都不错,都更加像我们的一个建筑的摄影作品, 我们这个角色的一个面部特写啊,这个就能看出 face 一个特点了,它这种肌肤的质感纹理啊,比这个 turbo 要高的多啊,毕竟 turbo 它怎么讲是我们蒸馏过的,相当于摄影专门 强化了一个模型啊,理解为他做了一个美颜哈,专门做了个美颜,这个就对吧,很欧美啊,虽然说非常清晰,但是说太欧美了,就说审美,跟我们这个中国的审美是有点冲突的。 那么这个也是啊,这个日系小清新的一个摄影前任哎,很有味道是吧?他不像说这个 turbo, 他的这种滤镜风特别强啊,滤镜感特别强, 他是很自然的一个抓拍的感觉是吧,就是这一点也是一个优势啊,那么克莱因这个反而表现的让我有点惊讶哈,他那个表现还不错,实话说,包括这个颜色,包括这个质感啊,画质都不错。呃, 挺好哈,只能这三个我觉得各有特色啊,那么这个风光的也是很明显,我们能看到啊,就是 base 的 模型,它的这个饱和度啊,明显要高一些,这还是我在降了 c f g 以后啊,如果你 c f g 调高的话,它的饱和度会更高啊,对比度会更高。 那么 turbo 呢啊,也是一如既往的比较清淡,那么这张我觉得 flux 的 克莱因表现的会更好一些,他的还说因为风光嘛,风光的图片,大家玩摄影,能够照风光的照片就是要一个锐啊,就是要锐,对吧? 啊,光圈开的尽量小,那么克莱因这个就做到了,包括这边缘这些树啊,远处这个山峰的边缘,对吧,都比这个 turbo 的 要结实啊,比这个 base 也要结实一些,对吧? ok, 那 么这个生活,这个写实的这种场景呢,这肯定就是我们国产的模型的一个主场,无论是 base 也好,还是 turbo 也好,表现的都非常棒,包括这个文字写的也都很好啊,但是这个茶叶蛋十五块钱一个,太贵了,少了个点 啊,中文也是,对吧,这个就没办法啊,我们国产模型就这个优势。科莱因这个呢,就差很多啊,就是很像那种有点儿 chad g b d 四 o 那 种黄不拉几的感觉,对吧,而且这些吃的也好, 呃,文字也好,都没有那么多的重口味啊,因为我们提示词里边有烟火气这三个字,那么克莱因很直白的给你把火点着了,冒了一股浓烟,但是我们国产模型他就很理解烟、火气这三个字的含义啊, 就是说这个,但是这个豆浆好大一桶,好大一桶。这个我觉得贝斯的表现很好啊,表现特别像一个计时摄影,那么 turbo 呢,就更像我们手机拍的一个, 那么这个一个,呃,我们中式的一个讲二子平面设计啊,关于马年的这样一个 看文字的表现,哎,这个 base 的 文马 base 的 文字呢,写的应该是更好啊, 写的应该更好,包括上面这几个字啊,表现的更好一些,但是 turbo 呢,就稍微差一点点,虽然它图片看起来更规整啊,但是文字写的就差一些,下面这些因为字太小,它已经崩了。单纯看这几个字主题的这个字啊,这个贝斯表现会更好一点, 那克莱因就没办法了,对吧?克莱因就是你不认识,你不会啊,你怎么样都没有用啊,这就是简单我们这几几组其实词的一个对比啊。那么,呃,个人感觉总结下来就是说,呃, 从这个升图时间上来讲啊,这个 base 模型,因为我需要更高的步数,对吧?更高的 c f g, 它必然是很慢的,大概是我们这个 turbo 模型的十倍的这样一个速段,像我 turbo 模型生成这十张的话用了五十四秒,那么 base 模型呢?差不多用了五百九十九六百秒啊, 那么克莱因是最快的,克莱因大概只要三十多秒啊,因为他只需要跑四步,然后其次呢,就是说,呃,就像我们官方这边也提示了 base, 他的生图呢,就是,呃, 应该从美感来说是不如这个 turbo 的, 因为 turbo 相我们理解为一个摄影专门的一个强化模型啊,强化模型啊,那么但是我这次跑一下,如果按照这个参数设置呢,其实效果也不错啊,就是一个慢一些,慢一些, 只能说各有各的味道, turbo 呢,像是一个风格强化的这样一个模型, 但是呢,这个贝斯呢,这次也提供了一个更好的一个多样化啊,我们大家可以正常的去抽卡了啊,不会像这个呃, turbo 模型锁的这么死啊,同时呢, ai two kiss 啊,也就是在第一时间已经支持了这个 我们的这个贝斯的一个训练啊,大家可以看一下,我们今天晚上我就把这个炉子再装上啊,感受一下这个训练的速度怎么怎么样啊, 这就是整个的这样一个个人的一个使用感受啊,目前来说,我,嗯可能主力模型就是生图模型,还是会用这 turbo 啊,毕竟又快嘛,对吧,超级快,又快又好啊。克莱因呢,可能是我拿来做编辑用的啊,毕竟 这次他只发了一个生图模型,没有放编辑模型啊,也是有点小遗憾,期待一下编辑模型能够尽快的放出来,这样的话我们的整个生态呢就可以连接上了。 ok, 那 就给大家简单分享这里啊,模型呢,还有工作流我都会上传到网盘啊, running hip hop 现在也已经支持了啊,大家也可以在线上去体验。好,就这样,拜拜。

听说好多人都不知道 ps 最新版内置的香蕉 ai 模型怎么正确安装,让效率大大提高。就按照图中的图片,我们第一步需要某宝某鱼买账号,账号啥的很便宜的啦,可以去搜搜看。第二步就是需要去浏览器下载 ps 的 官网,官网在中间 这里登录购买的账号,登录上去,这里注意,你要是用的十艾国版,就需要把原有的删掉,重新下载。界面上面的最新版香蕉 ai 是 需要搭配加速器才能用的,啥加速器都可以,我这里教一下大家正确的用 ai。 我 这里要让图中的 cocom 老师头发向右飘,就需要把这段话输入下去,中文英文都可以。 ps, 香蕉 ai 还是很听话的,在生成的时候一定要注意框选工具一定要是正方形的形状,这样生成的出来的像素位移不会太大。梅多英 花痴忘记说不要太长了。这个香蕉 ai 就是 抽奖,我一般抽奖三次左右可以第二遍,我喜欢。 我们再用蒙版把要的地方擦回来。有时候生成出来的素材不是很高清,其实可以用香蕉再二次高清优化,太高清了,可以降低一下清晰度, 还是一样用相同的操作。这个图感觉有点单调,加个猫耳朵试试。哎呀我去,忘记改关键词了, 这个香蕉有点叛逆了。没事,把喜欢的地方涂回来就可以,精细程度还是够的,希望能对你有所帮助。

朋友们,你有没有想过,有一天你随口说一句话,比如一座被巧克力盒环绕的棉花糖城堡,然后几秒钟内,你就能像玩游戏一样,走进这个完全由 ai 创造出来的世界,在里面自由探索?这听起来像神话里的阿拉丁神灯,对吧? 但就在昨天,二零二六年一月三十号,谷歌把这样的神灯第一次向公众打开了。这个项目代号叫精灵,英文就是 g。 你 它可不是简单的 ai 画画或者做视频,它是一个世界模型。 什么意思呢?简单说,以前的 ai 像 sora, 是 内容生成器,给你生成一段固定的视频,而这个精灵是个世界建造师,你给他一个文字描述或者一张图片,他就能瞬间给你搭建一个完整的、实时的、可以互动的三维虚拟空间。 你可以在里面走跑跳,环境会根据你的视角和行为动态生成,就像背后有一套物理规则在实时计算一样。 这技术有多厉害?它被认为是目前最先进的世界模型之一,是谷歌世界模型 genie 三的实验性原型,第一次对外亮相。 不过现在它还像个婴儿,每次体验被限制在六十秒内,物理效果可能还不逼真,操控也有延迟。而且想玩到它,门槛不低,目前只对年满十八岁的美国 google ai ultra 订阅用户开放,三个月要一百二十五美元。但你别小看这短短的六十秒, 在 ai 圈子里,这声惊雷已经炸开了锅。因为人工智能领域的顶尖大佬们几乎一致认为,这届模型是打造下一代 ai, 甚至是通往通用人工智能 a g i 的 关键,你可以把它想象成给未来的 ai 智能体 或者机器人提供了一个无限大、绝对安全、成本可控的模拟训练场,让 ai 先在虚拟世界里学会常识和因果逻辑,再走进现实。这部子可就卖得太大了,所以巨头和大佬们早就开始抢跑了。 ai 教母李飞飞教授创立的 world labs 公司最新估值据说能达到约五十亿美元,而 ai 教父杨立坤的 amy labs 估值也可能达到三十五亿美元。 英伟达的黄仁勋早就说过,世界模型能实现物理人工智能去操控机器人自动驾驶汽车。 meta 的 团队也在为了机器人而构建世界模型。 你看,这已经不是未来概念,而是真金白银在投入的科技前沿了。那么,这个凭空造势的技术,会先砸了谁的饭碗,又先给谁带来黄金机会呢?行业里普遍认为,游戏和影视行业可能会是第一个被重塑的。消息出来的当天,资本市场就用脚投票了, 美国那边的游戏公司股票跌了百分之十,游戏平台 roblox 跌超百分之十二, 游戏引擎公司 unity software 更是暴跌了百分之二十一。为什么反应这么激烈?因为传统游戏开发一个三维场景、一个角色模型,都需要美术师、程序员耗费大量时间和金钱去制作高端游戏,开发周期可能长达五到七年,花费数亿美元。 而世界模型展示的可能性是把部分前期设计和原型构建压缩到几分钟甚至几秒钟。 这虽然不会立刻取代专业的游戏引擎,但很可能会彻底改变创作流程的起点,极大加快创意验证的速度。李飞飞教授在推广他的 ai 三维世界生成系统 marvel 时就说,像 unity 和虚幻引擎这样的传统游戏引擎,这一切都将被颠覆。 聊完了行业冲击,咱们再看看这股浪潮对咱们 a 股市场意味着什么?普通投资者能关注哪些方向?首先要明确一点,二零二六年是十五五规划的开局之年, 发展新质生产力是绝对的核心,而 ai 全产业链正是这核心中的 c 位主线。世界模型的突破,属于 ai 技术从算力基建向应用落地生化的重要一环。具体到 ai 应用与内容生产端, 世界模型直接立好。游戏、影视、动画、虚拟现实等数字内容产业,那些积极拥抱 ai 工具、用于提升开发效率、创新玩法的公司,可能会迎来价值重估。同时, ai 生成视频、 ai 辅助创作等相关软件工具和服务提供商也值得关注。 第二是算力基础设施的持续需求。别忘了,创造这些虚拟世界是极其消耗算力的。 谷歌的研究人员坦言,用户每使用一次金陵,背后都有一块专用的计算芯片在全功率运转,所以 ai 芯片、光模块、服务器、数据中心以及配套的液冷散热电源设备等需求依然强劲。有分析指出,全球算力资本开支仍在持续高增。 第三是机器人产业链。世界模型被看作是连接当前 ai 与未来巨深智能的桥梁,它为机器人的训练和仿真提供了完美的杀核。因此,人形机器人相关的核心零部件, 比如四伏电机、减速器、传感器等可能会随着世界模型技术的成熟而加速发展,二零二六年甚至被认为是人形机器人的量产源年。第四,可以留意前沿未来产业,像商业航天、固态电池、六 g 通信等 这些与国家战略高度契合的卡脖子前沿领域,本身就具备高成长性,也可能受益于更广泛的智能化模拟仿真需求。当然,投资也要注意风险,目前世界模型技术本身还不成熟,商业化路径需要实践验证。 对于 a 股的相关概念,公司要仔细甄别,关注那些有真实技术积累、业务关联度高,并且能切实将技术转化为业绩的公司,避免纯题材炒作。 最后也是最重要的,这场技术革命对我们每个普通人意味着什么?我们的生活会被怎样改变? 短期看,作为消费者,我们可能会更快的享受到更丰富、更个性化的数字娱乐体验。也许未来玩游戏、看互动电影,每个人进入的都是独一无二的世界。 教育领域, ai 可以 生成沉浸式的历史场景或科学实验,让学习变得像冒险。医疗上,医生或许能在高度仿真的虚拟人体上进行手术预演,但更深层次的影响是对我们工作方式和核心能力的重塑。 像基础的文案写作、简单的编程、数据录入、客服等重复性、规则性的白领工作会加速被 ai 替代。一项预测显示,全球可能有数千万个岗位受到影响, 这对很多人来说是实实在在的挑战和焦虑。那么普通人该怎么办?核心思路不是对抗,而是学会人机协助。未来的核心竞争力可能不再是你会背诵多少知识,或者熟练执行某个固定流程,这些 ai 可能做得更好。 真正的价值将体现在你提出高质量问题的能力、你的跨领域判断力、你的复杂决策能力,以及你的创造力和情感联结能力。就像夏维奇,人类顶尖骑手现在都借助 ai 训练,但最终的对弈和战略抉择依然需要人类独特的直觉和洞察。换句话说, ai 会把我们从大量繁琐重复的劳动中解放出来,让我们有可能更专注于那些真正需要人类智慧、情感和创造力的领域。 当然,这个过程不会一帆风顺,社会需要建立新的技能培训体系,甚至探索像全民基本收入这样的新分配机制来应对转型期的阵痛。总而言之,谷歌精灵的亮相不仅仅是一个酷炫的科技演示, 他是一声发令枪,宣告 ai 正在从一个内容深层者进化成一个世界构建者。他正在模糊虚拟与现实的边界,并将深刻改变从产业格局到我们个人职业发展的方方面面。这既蕴涵着巨大的机遇, 也充满了未知的挑战。我们每个人都将是这场变革的亲历者和参与者,你准备好了吗?

web coding 的 模型到底怎么选?每次去 coser 面对一排这种模型就会很困扰,到底该什么场景下选什么样的模型啊?包括如果没有用 web coding 的 软件,我直接去使用大模型,哪个大模型该充,哪个大模型不该充。那我们今天请丁老师来跟我们分享一下, 把他所有花过的钱的血泪史都跟我们分享一下。首先我们讲 jimmy, 好 吧,好 jimmy 我 觉得他最好,最喜欢他的一点就是他们家最大方,因为毕竟是谷歌的。首先 jimmy 他 有 es studio, 几乎是不要钱, 几乎是纯免费。虽然它也有说是有额度限制,但是正常人使用几乎触及不到额度限制。我在二五年基本上都是在 a s 九九里面的使用它们最新的模型,而而且它们只要发了最新的模型,你都可以用到。对,完全免费。可以真说是 jimmy nike 陪伴我们长大,让我们打开了 ai 世界的新大门。 nano banana, 它的身涂能力非常强,而且尤其是现在这个 jimmy nike, 它可以跟这个 notebook lm 联动在一起, 所以 gemini 加上 nano banana 加上 notebook lm, 它成了一个体系来说,这个全家桶壁环非常好用。对,其实现在总结一下 gemini 的 优点就是第一个 便宜,它不管是 as studio 或者是你去 gemini 的 就是用户测那个网页,你去现在网上去充一个,一百五十块钱也能买到一个一年的账号,也非常实惠。 可以用 nasa nasa pro 的 那个模型,它的深途能力也是全全国外模型年限是最强的,甚至可以说世界最强。第三个就是知识学习,如果你想要通过模型 ai 去学习一些什么东西,我觉得 jimmy nice 最适合的,因为我觉得他毕竟可能做了 nintendo, 这个应用出来以后对他自身也是有一些帮助的。 ok, 对, 接下来就是点 缺点,就是要横向去比较,之之前其实用它的时候还没觉得,但现在后来用了 cloud 以后就发现 jimmy nice 的 东西啊, ai 味特别重, 用人话说就是油腻,他里面他总喜欢去写一些大的口号打比喻给你,总喜欢把一些东西,他感觉自己好像很容易的就把它讲的很轻松,用一个很好的排比比喻,想搞这种东西。对,就特别营销,反正不适合一些 正常生活中的一些文章,他可能写一些什么宣传文,还可能还比较小。红书自媒体,我觉得用 gmail 非常好。对,正好我们还有一项对于我们中国用户的友好度, 我觉得还算是可以的,反正不会故意去针对我们中国用户,我觉得非常友好,相比于其他的人是非常友好。同时还可以夸赞一下,比如说因为这个不算不算吉米奈了,谷歌家的,像他们还有一项那个 stench, 他 们的一个 ai ui 设计软件,这些都是免费的,所以谷歌家这方面都非常好。说到对中国友好度,我们正好延伸到第二个模型 cloud, 就是 s r p。 他 们家最大的缺点就是非常针对我们中国用户,我已经被他封了两个号,血淋淋的三百块钱花下去了,要不是迫不得已 我也不会用。对啊,但是他们的模型是真的强,从平均分能力来说,我觉得 claud 是 最强的,因为他不管是他的逻辑思考能 力和他的整体架构的设计的延展性,他这个能力不光是用来代码领域,用在你的文案,比如说老板让你就出一个什么方案,你想要他帮你梳理一个逻辑严谨的方案什么的。我觉得 claus 四点五是完美的, 我这几天用它写了整体的全年的二零二六年部门的规划非常好,而且废话所有东西都很精简,出来东西就是你想要的,而且它的就你刚讲的那个框架设计,它每次讲一个点的时候,它会把整个体系化的东西想好,就非常强。卡尔的还有一个大缺点,贵, 非常贵,加上它对于中国用户的封封号这个程度,反正 api 也贵, token 也贵,封号又封的严,所以用起它来真是血哗啦啦的流。 买他们的 cloud 充他的 pro, pro 账号用不了半个月就封,用他们的 tiktok, 哗哗哗,这个血直流。总结下来可以非常好,但是没必要有点高攀不上。对对对对,这样就是 gbt 了。 gbt 现在没想到的是它在编程领域 弯道超车,现在在在最顶尖的那个编程领域是比 cloud 强的。如果你想要你的代码没有容易不出问题,或者你要解决一些疑难杂症,那你用 gbt 五点二可代 x 模型是 完全没有问题的,可以放心。但是在代码领域对比起来, call cloud 更像是一个通才,它理科通才,它在大部分情况下可能给你解决很多问题。嗯哼,五点二 ctrl x 是 在顶尖领域给你解决一些复杂问题,嗯哼,所以都能用,但是 g p t 有 比 cloud 的 好的,也没有那么针对我们大陆用户,它也没有那么贵,一百一百五, 一百六,有一个月他在文章领域,其实我没有看到他有什么特色,反正我觉得规划文章写材料最好的,目前以往来其实还是可好的。我觉得 open ai 这两年可能有点像应用侧发展,但在模型侧没有那么。以上言论只代表个人观点,都是我最近用下来后的感觉。对,大家只要喷丁老师,不要 喷我,跟我无关,反正最后我们做个总结, ok。 如果你想先尝试一下国外大模型,感受一下国外大模型给你带来的冲击感,那可以先用奇米娜,门槛很低,用用它的 as studio, 完全不需要任何的付费。如果你想要再深层次,那就尝试一下 astropik 的 cloud。 最最近这两天监理已经被 cloud 冲击到了。我现最近一直在用 coser, 开始写我的所有的材料,我把所有的文章的工作啊已经搬到 coser 上来。我们下一期可以讨论一下这个内容,关心的同学们,特别是 文科生,处理文档内容,用 coser 真的 是你会打开新世界。本期所有的内容,我们在这边会总结一个表格,如果大家需要这个表格的话,可以在评论区留言,表格我会私信发给你们。 ok, 那 本期就这样,下次再见。

哎呦喂, c m j bass 开源了,一拖又拖到了美国时间, t 八那瓜窝子顶着鸡窝头嗷嗷叫,大半夜也不消停,直到我拿起了妥协,世界才恢复清净。 c 一 晃都两千三个月了,我倒要看看到底怎么样 啊。大家好,我是 t 八啊,又到了那么晚了,今天呢,给大家更新一下啊, c m j 啊,虽然把 base 去掉了,虽然它就是个 base 模型,也就是我们可以正常训练了,不用再担心之前 turbo 的 展现问题了。 然后呢,我认识的几个训练师,他们之前就拿到模型了,已经在训练了,甚至有的已经把罗拉已经做出来了。那今天我们还是主要是以基础的工作流,我们先来看一下。好吧,我更多的测试,我还是要等温总那边都弄好以后, 我们先看一下啊。首先,嗯,从官方这边看,效果还可以啊,因为现在 cf 级要赶上四,以后呢,我们就要写 naga。 下面我们来看一下这工作六工作六,像跟以前是差不多的,这是大雄这边已经更新的 cme 九工作六。 然后呢,我这边没有用 ip 八一四 m 三直接啊跑的下面的颗粒不等都没有变啊,就是我们主模型改了一下,甚至这个模型跟之前的特步的模型大小一模一样,我们可以看一下一模一样。然后呢,我们在 negative, 也就是负面提示词的时候呢,要加上这一堆, 因为我们刚才看一下啊,如果说你不加的情况下会发生什么,比如说像这种啊,脸部看上去有点悲伤,我们在负面加上 side 以后呢,它就变成微笑了。 如果说你出现啊,西方人或者畸形的情况下,我们可以这边加上这样一些提示词,比如说你还是希望出我们亚洲啊,那我们这边加上一些西方人就可以了。所以说啊,负面提示词在新版本里面是非常重要的。 然后呢,这个速度确实挺慢的,我可以看到啊,也可能是我一直没有重启的情况下,跑了十分钟,刚才我问了一下 fischer, fischer 他 居然跑了一下也要四分钟, 但是,呃,五零七零的 smile 它就挺快的,它也十六 g 显存,跑了就一分钟啊,所以说我现在不知道什么情况,但也可能跟我用这个 resmarty step 啊,这个残差多步是有关系的啊,我们可以把它改成 ula 也可以的啊,我们刚才没有看他们用的是哪个传感器,我这个本身就会多一倍时间。然后呢,我们的推荐的采用步数呢,是在三十步到五十步,然后 cf 级是四到七。 那如果说你用 rasmart step 的 话,我们可以适当的往下调一下,否则的话这个时间就会特别的长。 然后呢,我没有跑二 k 的, 因为平时我们所以没准是跑二 k 的, 在本地十六级的情况下,跑二 k 的 话,它的速度就更慢了,我们来看一下,那有一个问题呢,就是经过我们跑下来都会发现它的图呢,会有点发蓝, 哪怕你这个提示词并不是蓝色系,就就是会有一点点发蓝啊。但是刚才我们看整体来说呢,效果还可以,但是我们要知道这个 base 呢,主要还不是我们用来跑图用的啊,最主要的还是用来训练模型用的 啊,所以说呢,这个单炉呢,明天我会把这个上清一下。然后呢,然后我们要体验的话,也可以在 reno 上体验一下,目前呢,温总已经把模型更新了,然后呢,本体 包括他的后台正在重启,大概一点半的时候,也就是二零二六年一月二十八号啊,早上凌晨一点半的时候就可以用了。好吧,重启完就能用了,那现在可能会千分之三四笔报错, 那一会儿重启完就可以直接用了啊,通过剪辑链接注册也会送一千点,每天登录都一百点啊。如果说我们想玩的话,可以来 runnyhabb 的 比赛啊,大家也务必参加一下。好,谢谢大家,就到这里了。

ai 大 模型到底是什么?今天我用三分钟时间一次性讲清楚。如果你当前没耐心看完,可以先点赞收藏,等你有时间慢慢再看。我来用一个比喻解释 ai 大 模型。 想象你有一个超级用功的学生,他读了互联网上几乎所有的书,文章、网页总字数超过万亿。这个学生不是死记硬背,而是在阅读中学会了语言的规律、世界的知识、逻辑推理的能力。这个学生就是大模型。 ai 大 模型它到底是什么?简单说,大模型是一个经过海量文本训练的超大型智能程序,它的核心能力是预测下一个词, 就像你发信息时,手机帮你猜下一个字,但因为它读的实在太多,这种预测能力进化成了理解、创作、推理和对话的综合能力。 他如何工作?你问他天空为什么是蓝色的?他会迅速在记忆里解锁相关知识,然后用最通顺的语言组织答案。 他不是去数据库里抄答案,而是根据学到的语言规律生成答案。就像一位知识渊博的朋友在给你讲解 他能做什么,对话聊天,像真人一样交流创作内容,写故事、诗歌方案解答问题,从简单常识到专业咨询处理文字翻译、总结分析、 逻辑推理解数学题分析原因、关键特点,规模大、参数多、脑细胞多、训练、数据海量、通用性强。同一个模型能做各种各样任务。有些能力,当规模达到一定程度,突然就会了很多新技能。 它不像人类真正理解世界,而是基于统计规律生成最合理的回答。有时会一本正经的胡说八道,因为它本质上是在组织语言,而非思考真理。 目前最有名的代表是拆 gpt 背后的 gpt 系列,这类技术正在改变我们获取信息、创作内容的方式,就像当年的互联网一样,可能重塑我们的工作与生活。 简单说,大模型是一个通过阅读人类所有公开文本,学会了用人类语言与我们交流的超级语言助手。他不完美,但确实打开了人工智能的一扇新大门。

哈喽,大家好,我是桃酥猫,然后我这个系列的视频呢,主要是以从零开始来进行一个大模型学习。嗯,主要针对的是零基础的小白用户,我会以最简单的方式来讲解大模型的一些个知识。后期呢,我也会带大家来做 一个比较简单有意思的一个项目,就是关于一个合同的一个 ai 风险能力审查,他主要是借助 ai 的 一个能力来进行发现合同中的一些法律风险啊或是不利条款。嗯, 这个项目的话呢,相对还是有一定难度的,相信大家学习之后呢哦可以有一定的能力的一个提升。 嗯,如果你也想通过 ai 来提效,或者说是做一些比较有意思的应用的话呢,可以关注我,跟着我一起学习更多的一个 ai 知识。 当然这些东西呢都是我自学然后总结提炼出来的,如果有大神觉得哪里说的不对的地方,欢迎批评指正。好了,废话不多说,我们开始今天的一个学习生活吧。 其实 ai 大家应该都不陌生,像市面上的千问啊,豆包啊,这些都是大语言模型,想必大家基本每天都会在使用。 那大家有没有想过大模型背后他是怎么运作的?他是一种什么样的杂体啊?存在于这个世间的,他为什么会回复我们这个消息啊?这个的话呢,我们就以一个比较很简单的一个方式来讲解一下。嗯, 首先我们会打开这个叫做摩塔社区的,我们可以进行一个搜索,叫摩塔社区, 点击第一个是摩塔社区,这是阿里开源的一个大模型平台,上面有非常多的这种免费开源的这种大模型啊,我们都可以把它下载到本地来进行一个运行哦,当然呢他对硬件也是有一定的要求的,这个根据大家的一个自身情况来选择 哦,我们随便打开一个叫智普的一个模型吧,我们可以看到 啊,这里会有一个叫模型文件的一个文件夹,点击这里一个查看原信息权重,原信息这个的话其实就是我们大模型最重要的一个文件了,他其实 啊他是一个权重文件,他里面只组合了我们的一个模型的很多矩阵的一个大集合啊。什么是矩阵的?其实我们通俗讲理解的话,你就可以认为是很多个数 组成的一个大集合,它其实就覆盖了很多的一个知识。而矩阵这个东西,它又为它又为什么可以运行起来,那其实就是等于我们的一个是 transform 架构啊,这个图的话呢,是简化的,不能再简化了, 是这就这样理解吧,因为不一定也正确。真正的创思 form 的 话呢,它的一个复杂度是很高的,像什么编码解码层呢, ktv 的 计算呢?但是我们为了方便讲解的话,其实理解这样就够了,我们就可以理解大模型了。 而真正大模型要运转起来的话呢,它其实是要经过这样一道非常多的流水线的,其实我们就可以把它这样一层一层比喻成我们的一个工厂的流水线,这个圆点点呢,就比喻成我们的一个工人。而我们的这个矩阵呢,其实就是作用在每一层的一个参数的集合, 就是说一个一个的数,我们就一个工人与下一个工人进行一个数,然后进行一个预算,然后得出下一层的数,然后一层一层要运行起,最后得到一个最有可能的结果啊,我们就这么通俗的理解就差不多了,其实这个东西我们就把它理解成就是 four more 结果 大模型之所以运行起来的话呢,我就可以,主要是我们只要把这个穿丝封膜流水线把它给架起来,再把我们刚刚下载的这个权重文件啊和一些个配置啊,把它下到那个 加载到这个流水线上,我们就可以进行一个对话了,就这么通俗的理解我们其实就差不多了,就明白它为什么是一个权重文件了 啊?我们主要是存在一个应用嘛,我们如果说要想真正运行起来一个大模型的话呢,我们可以通过这里一个下载模型, 通过 get 的 这个命令的话呢,我们可以把大模型下载到我们本地的文件,当然不知道 get 小 伙伴呢可以去网上搜索一下啊,或者最简单的就直接可以把它全部下载下来,然后丢到我们的一个 文件夹,我们选定好一个文件夹路径,把这个下好的大模型呢,比如说这是我之前下好的千万三 b 的 一个模型,都选在这个存放到里面去了。 然后呢我们这个运行起来的话,其实要下载一个比较简单的工具,叫做 l m studio, 这个工具的话,其实我们通俗的理解它就是一个实现了穿梭 form 流水线的一个平台,它就可以加载我们的权重,然后把模型给运行起来, 这里的话呢,可以看到还可以发现了我们下载到刚刚那个文件夹里面的各个文,那个就是我从他社区上面下载下的这些文件,他就可以发现这是模型的存在,我们正在一起下来的话呢,可以点击这里加载模型, 我就选择一个零点六比的吧,比较清亮的,然后加载模型,这的话呢,就已经加了成功了, 这个模型就已经运行起来了,就可以进行一个跟他对话。你好,我是前头位,有什么可以协助我的吗?这个模型呢其实就已经在我的一个本地内存中就已经运行了,他主要的话呢,我是 a 卡, a 卡的话运行的一个速度其实是不太行的, 所以说大家如果说以后啊想玩这个系列的话呢,最好是买 n 卡, n 卡的抠打计算平台呢,还是比较强劲的, a 卡还是有很多限制的。嗯, 他的这里会有一个叫开发者选项,其实未来的话呢,我们做模型的一个开发,他并不会像我们刚刚这种方式以一种聊天窗口的方式来进行,而是会通过调用他的一个相关接口,在程序里面进行一个运行,然后将能模型能力赋予到我们的一个应用程序之中。 好了,今天呢我们的一个简单的介绍就到这里了啊,大家如果喜欢这个讲课的风格的话呢,可以给我一个一箭三雕,你的支持就是我最大的动力,好了,拜拜。

我用人话讲一下,最近 ai 圈爆火的那个 cloud bot, 也就是龙虾钳子到底是什么东西?首先呢,人家已经改名了,叫 motbot, 因为 cloud ai 的 母公司觉得龙虾你在蹭我的模型的名字, 都叫 cloud, 所以 我要起诉你。第二,它是用来干什么的?它就是你的电脑端的基于大模型的外挂,换句话说就是以前的 rpa 加大模型放在你的电脑上, 你提出任务,大模型理解任务,然后在你的屏幕上动态的持续的去截图大模型来理解每一张截图的内容,再加上模拟点击, 那理论上你所有的任务都可以被这样的执行掉。是不是很熟悉?这不就是豆包手机吗?只不过龙虾可以在你的电脑端操作。第三,大模型的视觉理解,加上模拟点击好像并不是一个新的东西。那么龙虾到底 牛在哪里?核心在于它调用的模型是 cloud 三点五的 sonet。 那 这是一个视觉理解模型,但它不光是知道一张图里面有一个苹果,两个香蕉这么简单,它可以把 一张截图里面的像素转化成坐标,也就是它可以实现像素级的视觉理解,这个非常夸张,当然代价就是它会消耗大量大量的 token, 而且它可以精准识别 ui 世界里面这个按钮到底是前进后退确认还是取消?另外呢,龙虾整个代码工程,对于大模型实现像素坐标的转化,对于任务理解,模拟点击头肯消耗等等等等都做了分装和工具化, 从工程上说,它也是成功的,所以效果就很惊艳。举个例子,你用豆包手机剪视频,也许豆包打开剪映捣鼓两下就停止了,但是你用龙虾剪视频,它也许真的可以帮你实现一个复杂的长视频的剪辑, 因为它可以实现像素级的点击,以及超长上下文的任务处理。第四,为什么大家要像疯了一样的去买那个 mac mini 呢?其实你用 windows 也能跑,你用任何一台电脑都能跑, 只不过人家龙虾的开发者在最开始是写给 mac 的, 而且当时手边恰好就是一台 mac mini。 但实际上任何一台 mac 电脑都可以带得动,你的 windows 电脑也可以带得动,因为本质上你并没有把大模型布到服务器里,你只是把这个工程文件 download 的 下来,而它的模型还是调用的 cloud 提供的。三点五, sony 的 a p i。 所以 用 mac mini 来跑有点浪费,一是费钱,二是费算力,因为你用不了那么多算力, 但是你也不要把它装到你的主力机你的电脑上,因为它有权限去读取你电脑上面的任意信息,所以还是找一台旧电脑, 只要能装 python, 能联网,能下载浏览器就可以。那最后一个问题,龙虾跟豆包手机跟 minas 好 像都是智能体,都可以自动的去执行一些任务,它们有什么区别?豆包手机本质上是开放了手机的操作系统,权限给到大模型,所以它可以有一些调用,是接口级的。 那龙虾就是暴力的 rpa, 直接模拟点击。所以呢,龙虾的内容可能也会被一些网站,包括微信银行的 app, 或者说银行的这种 web 端去拦截, 因为模拟点击还是很大概率会被识别出来的,你的移动速度,包括你的随机性,是没法做到像人这样的真实。最后就是 minus, minus 你 可以这样理解,它就像一个外包公司,你的任务交给他,在他的环境里面去运行处理解决,而 龙虾是你请了一个临时工,坐到你的工位上帮你操作电脑,直到任务完成,这就是他们的区别。

hello, 朋友们,今天讲一下 google a s studio 怎么去调整节目的三点零 pro 的 参数,这里面的参数呢,具体会是什么含义?我推荐大家看到结束补充一下对 ai 模型的一些基础认知,用其他 ai 的 时候呢,也能够去快速上手。首先就是进入 google a s studio 的 网站, 我们选择 gemini 三 pro preview, 参数调整就在右侧,我们一个一个去看。第一个就是模型选择,这里可以去选择不同的模型,下面有详细介绍它的扩展消耗是怎么计算的。 这次我们选择就是 gemini 三 pro preview。 第二个呢, system instructions, 这个重点要讲一下,你可以把它理解成是在 ai 的 脑子里面去植入一个人设芯片, 通常呢是用来去定义角色的一个身份,语气输出格式,以及必须遵守的一个硬性规则,让他知道自己是谁,该怎么去说话,什么能做,什么不能去做。 那在这里设定好了 ai 的 人设以后,你就不需要每人对话都提醒他你是一个健身教练,就算后面你会去说你现在是个厨师, ai 坚持自己是一个健身教练, 也不会因为上下文太长忘记自己的身份,大概就是这样,但是这里的提示词啊,一定要记到精简。如果你去给 ai 一个几千字超级详细的人设,那么你后面聊天的时候每说一句话, ai 都要去先读一遍,这几千字的人设比较消耗。 token, 这个在 jamming 的 官网上也可以进行设置,对应的叫 get。 第三个是 api key, no api key 说明你现在用的是 google 提供的免费额度。第四个叫做 temperature 系统默认的温度是一啊, google 官方的开发者指南也提到使用 gmail 三,强烈建议是去保持默认值, 因为 gmail 三 pro 引入了叫 thinking 思维链的一个机制, ai 在 生成最终的答案前,内部有一套严密的逻辑推导路径。我尝试过将温度去调高,结果呢,输出的是一堆乱码,使用之前的版本也可以去调整温度,调低温度,你可以适合去做数学计算,代码生成等需要精确答案的任务。 调高温度呢,适合你去做多个不同的创业方案,比如说写故事,诗歌等艺术创作,还有头脑风暴阶段。第五个呢,是 media solution, 这个控制的是 ai 识别你上传的图片、 pdf 等内容的一个理解程度。选择 raw, ai 只能去识别基础内容,但是选择 media, ai 能识别上传文件的更多细节。 选择 high 呢, ai 能识别复杂内容,比如说像图片中的小字识别复杂的一个图标,但是 token 消耗量会非常大,如果你没有特殊要求,那就用 default 让 ai 自己去判断。第六个叫做 thinking level gemini 三 pro 具备了先思考后作答的能力,在回答前先在后台进行一连串的一个逻辑推理。 thinking level 呢,就是控制这个推理过程,要想多久,想多深的一个参数,遇到难题的时候调成 high, 可以 去深度推理,处理简单任务。调成 low, 可以 去节省时间和算力。这个默认是 high, 因为你既然用上了杰米兰三 pro, 那 就用 high, 看它到底有多聪明。 但是如果不涉及到复杂的数学代码或者逻辑的内容,日常闲聊,我还是建议你可以先设成肉,七个是 tools, 主要有几个,一个是 structured outputs, 让 ai 以特定的格式去输出内容,日常聊天写文不用开。如果你是开发者,那就需要去开启。 第二个 code execution, 让 ai 自己去运行代码来得出答案,涉及到计算数据处理的时候就开启, 提高回答准确率,因为纯元模型对这些方面的内容容易是算错的。日常聊天的时候,你的纯文本任务也不需要去开。第三个方形 colin, 让 ai 调用外部工具或者 api, 日常使用呢也不用开。第四个 ground in with google search。 开启。这个 ai 会实时去搜索最新信息,因为 gemite 三的训练数据是二五年的一月份。第五个 url context, 让 ai 读去链接的网页内容后再去回答。建议呢,也可以去开启。 最后一个是高级设置 safety settings, 这个开启 ai 就 会很保守,稍微敏感的一点的话题就会去拒绝回答。如果你关掉呢, ai 就 会比较敢说,但可能会输出争议的内容,默认你可以是去把它关闭的。第二个叫做 s stop sequence, 这什么意思?这个只可以去设定一个或者特定的词, ai 在 输出内容的时候,当看到有这个词的出现,它就会立即停止生成。你可以防止 ai 自言自语太久,或者防止它开始扮演用户的角色来说话,正常使用你可以不用去管。第三个叫做 up pause, 这个是 ai 回答的一个字数,上限 六五五三六头衔,相当于大约是数万个汉字或者几十页代码,已经是一个很大的数字了。 第四个叫套屁,这个控制 ai 回答的一个多样化和创造力,默认也是零点九五, ai 的 回答会更丰富,更像真人,更有创意。 如果是零点一呢? ai 的 回答就比较死板了,像机器人,但是很准确,适合法律解读这种。像 temperature、 套屁这些设置不只是 jamie 有 chat、 gpt、 cloud 等也都能看到。这些参数是 ai 大 元模型的通用设置,遵循相同的一个底层逻辑。 ok, 那 今天对于 jam 的 三 pro 各个参数的一个分析以及解释就在这里,如果大家感兴趣,或者说大家想学更多 ai 知识呢,也欢迎点赞、关注、收藏一下。

哎呦喂,提把那瓜窝子简直卷成麻花,同时开四个视频一起做,群里有人吐槽问咋不上五开,他翻个白眼,我,老子只允许四并发,剁一条直接死机, 削到我两面都喷键盘,我倒要看看他还能整杀咬窝子,简直逆天。 大家好,我是 t 八,那 cimage 呢,也已经开源了一天了,然后呢,昨天啊, diffusion studio 啊,它同步开源了一个项目叫 cimage i 退啊,我们在千问的时候啊,是有试过的啊,如果说我们看过之前的视频, 因为我们一般来说训练人物是比较简单的,但是大部分人呢,对于训练风格来说啊,一个呢,他是需要更多的步数,也就是我们需要花非常多的钱,然后呢,要非常多的时间去整理训练级。所以说呢, 啊,它这种 i to l 的 方式,只要几张图片就可以快速地获取我们图像中的特征啊,对于训练它的一个图像的风格来说,是一个最好的一个办法,也就说可能一两分钟就可以训练一个罗拉,而且这个罗拉是可以服用的。 那这次呢,啊,直接出了这个 c e m g 的 it 啊,我们来看一下啊,这是它的一些效果,本身 c e m g 我 们喜欢也是喜欢它的这种美学的风格,然后呢,各种方面啊,都非常不错,这次 b s 开出来以后呢,就是会发现 看呢写实特别好,然后呢多样化也特别好,在各种风格下都能达到一个很好的效果。如果说我们把工作流搭成,比如说双材三材,甚至可以获得更多的一些特征啊,当然这个我还没有给大家做工作流,这个不着急,有空了再给大家弄。那今天我们还是要来说一下这个, 那这次呢,我们看一下啊,他尝试了非常多的风格,甚至我们还可以用他来进一步强化写实的细节,也是可以的 啊。就这样的话,比如说像嗯,很多一些优秀罗拉,实际上都是想办法再进一步加强他的写实,对吧?在这种情况下,我们可以低成本的训练一个写实的罗拉。 大家好,我是真真没点关注的,快来关注下 t 吧,然后我们人民哈普的温总啊,昨天第一时间给大家把这个项目开圆了, 我们非常感谢他,可以看到很多项目啊,有一些麻烦的,基本上都是他在弄,也是免费给大家开源的,虽然本身是个商业平台,但是我们还是不忘初心的啊,所以说大家也多多点个 star 啊,关注一下,我们可以在本地安装。 那然后呢,我们可以来到 runnyhab 啊,给大家看一下啊,今天这个啊,首先我们先来到我们这边首页啊,因为有些问题要跟大家说一下啊, 实际上我这次呢在做好几个视频同时在做啊,我们先把这个给做好,那这次呢,比如说像看这个啊,这个呢就是服饰柜风格的一个附用 啊,这个呢就是一个训练,训练以后呢,我们可以直接保存浏览啊,我们一会一起看一下。那如果说你第一次往人民汉堡,也可以通过简介区链接或者评论区链接啊,注册一下会送一千点,每天登录都一百点。 那我们先来看一下我们这个工作流啊,然后他的一些问题,那首先如果说我们要训练级,我给大家做了一个啊,拿到 banana 训练级,可以看到我们上传任意一张风格的图片,比如说这个蓝色风格的,对吧?其他你都不用管啊,都是自动的,他会帮你生成十个 类似风格的,然后呢会自动帮你切图,我们看一下啊,这是十张切好的图 啊,这个如果说我们要训练是非常简单,对吧?你可以用我们之前的千万的 i to l 训练,也可以用这次的,因为在一些风格他学习的,比如说特征抓不住的情况下,我们图片多一点的话呢,他的会提高他的礼盒的这样一个情况啊,所以说 默认四张就够了,如果不够的情况下,我们就改十张。下面我们来看一下我们这边的工作流的一个生成和保存 啊,这里呢我们加个 batch, 也就是说我们把图像 batch 过来就可以了啊,让它变成个批次,如果说你觉得不够,我们比如说改成十个都是可以的,对吧?就看你这边有多少张图,这是五张图,我就用五个。 好,然后呢我们就给到这个节点,这个节点呢生成以后就是个模型,而且呢是可以下载的啊,在这边直接可以下载模型,下载以后你可以上传到 runninghub 啊,然后呢如果说用的人多,你还有收益啊,是不是直接闭环了,对不对啊?非常的不错,而且这个是没有水印的,所以说哪怕你是免费的用户,你也可以通过这种方式啊去赚到钱。 然后呢我们把这个罗马传过来,我们看一下它的一个效果,这里我就写了,对吧?一个女人可以看到啊, 整体来说还是可以的,当然考虑到不同的风格,可能你合程度不一样啊,如果说你觉得你合的不够,我们只要提高我们这边罗拉的权重就可以了。下面的 clip 不 需要提高啊,上面呢是可以提高的,但在一些复杂风格的情况下,我们是完全不用提高的。 那比如说给大家看一下啊,像这种风格服饰会加新中式的,可以看到这种如果说我们 自己去训练啊,需要非常多优质的素材,然后呢还需要花钱用香蕉去生成,然后呢训练的时间也比较长,尤其这次 bass, 它的训练时长是我们 turbo 的 好几倍。那我们看一下现在的情况下,我们训练一个要多久? 一分钟对吧?六十三秒就跑出来了,让我们看一下效果,效果是不是非常炸裂啊,无论是他的整体的一个美感,这就不得不说这个模型确实是优秀啊。另外呢,目前呢,还有一个问题,我给大家也稍微说一下啊, 也就是我们在官网上我们看一下这种极简风啊,他是正常的,虽然说黑白变成这个白猫白狗等等,我们来看一下我们在这边的啊,这边的 看出来最后出来的并不是这个现代化对不对?甚至我提高权重也是一样的 啊。这呢就是有些问题,可能是付线问题,目前温总跟石子鱼正在看啊,我下午一直在看这个问题 啊,所以说如果说你跑这种简约风的话,你就先不要弄了,等他们更新后,估计晚上会更新的嘛,目前在找问题,因为官方是正常的 啊,或者说你要跑这种我们可以先用之前的,也就是我们千万的 iq 啊,这个呢,用简约风都是没有问题的对不对?但是我刚才试了一下,像这种复杂的这种 颜色比较多的,比较丰富的这种风格暂时是没有问题的啊,所以说应该是付线的时候,哪里代码有点问题。 那今天呢,我们这节教程就到这里了,我们可以先感受一下。好吧,然后呢,先不要做这种简约风的罗兰,可以搞一些比较好看的这样一些风格,然后呢,等待我们后面修复这个问题啊,那今天课程就到这里了,谢谢大家,记得给 t 八点个赞。 刚才我和摩搭社区负责人聊了一下,然后我让他去看了一下,确实啊,不是我们问题,是目前好像就这个简约风有问题,在摩搭上也是有一定概率会出现这个问题的。那目前呢,已经去找 differences studio 小 组,让他们去看一下是不是要更新一下这个代码或者模型啊。那先到这样了,好吧,后续如果更新了,我会在 unihelp 上给大家更新这工作流的,但是现在一些复杂的一些风格是没有问题的啊。

解释一下大模型的随机性,当我们向大模型发的指令比较多时,他这次呢,丢掉了 a 条件,下一次丢掉了 b 条件,总之每次错的都不一样,你让他自我纠正,他把这个错误纠正了,但是呢,可能改出一个新的错误, 所以大模型为什么总是不稳定呢?我来尽可能通俗的解释一下。比如我们问大模型一个问题,一加一等于几?其实对于非常简单的问题呢,大模型每次输出其实也是不一样的。比如第一次他认为等于二的概率是百分之九十九,等于三的概率是百分之一。 而下一次呢,他认为等于二的概率是百分之九十八,等于三的概率是百分之二,他只不过是把那个概率最高的返回给你了,所以你看到的都是肯定的、确定的一个答案。 但是如果这个问题比较复杂,概率值刚好在零点上,比如说这次是百分之五十一,下次呢变成了百分之四十九,那这样的话,你看到结果两次就是不一样的, 这跟我们常规直觉很不一样。我说函数嘛,确定输入肯定对应确定的输出,但是在记学习里面有很多的随机因子,这种随机的思想可以追溯到随机森林,那还是二零零一年提出的算法 随机森林。这个随机主要体现在两个方面,第一个是样本的随机性,第二个是特征的随机性。 最后出现的各种算法,虽然说在名字上没有随机二字,但其实呢,随机思想已经深入到了记学习的骨髓里 来。看样本为什么叫随机?首先我们要明确记学习它大部分时候是一批样本一批样本的进行学习,而样本的分布可能不是随机的,不是均匀的。那如果说第一批次的样本,它们刚好具有某种共性, 那模型就会在这个方向上进化太多,以至于过了头。而下次呢,又是完全不同的另外一种样本, 模型一要掉头纠正,这就会导致模型每次进化迈的步子太大,很容易走进死胡同。所以呢,我们希望稳健点,保守一点,于是每次在选样本时,我们就随机的从整体样本里面选一个小 p 四, 这样会混合的比较均匀吗?不至于太过偏激。再来说学习力的随机性,任何模型都是用来做预测吗?根据输入预测输出, 那我们当然是希望模型的预测值跟真实值相差越小越好,就是误差越小越好。这呢,会有一个误差函数, 机器学习的过程就是在使得误差函数最小这个过程,所以我们的最优点就是误差函数的最低点。 假如说现在在 a 这个点,那下一步应该向哪个方向进化呢?向左还是向右?站在 a 这个点,显然往右走误差会更小,因为往右走是下坡嘛。但实际上,我们站在上帝视角,知道他应该往左走, 左边才是局最优解。所以呢,我们给他一个随机扰动,那在随机情况下,他就有可能会往左走。 所以学习力的随机性不仅体现在不长的随机性,也体现在移动方向的随机性。其实呢,甚至包括特征,包括模型结构本身,都可能是随机的, 因为在众多特征里面,有些特征可能影响比较大,他比较强,有些特征呢,作用比较小,这样他会导致那些弱的特征很难分配到权重。 所以如果我们每次学习都随机的丢弃一部分特征的话,那么小特征就可能会受到更多重视,他可以更早的学习到一个理想的状态。 在神经网络里面,每一个神经元你也可以想象成是一个特征,那么在每次学习时,他会随机的砍掉一部分神经元,也相对是让这些特征随机组合嘛。这个方法称之为 drop out, drop out 指一过来就是丢弃。 其实不光是在模型的训练阶段,哪怕是在推理阶段,有些模型里面它也具有随机因子。比如说大语言模型,我们可以配置温度,配置套 p, 这两个参数值越大,模型就越随机,所以设为零可以在一定程度上减小随机性。 之所以不能够完全避免设模型,里面可能还有其他的随机因子,在使用大模型时,我们想让它减少随机性。还有一个方法就是尽可能把你的提示词描述的详细一些, 插播一条上岸信息。我录制了一些编程课程,包括 python, 勾元,区块链变化,还有智能体,我是一个人,一个公司,没有立即变轻的压力,所以呢,我可以花更多时间去打磨一门课程, 所有课程都是经过我的精心剪辑的,尽可能让大家花更少的时间达到一个更深的高度。感兴趣的可以进我主页橱窗进行了解,或者呢直接私信咨询。

面试官问你,为什么思维链能提升推理能力?很多人的回答是因为让模型一步步思考,可以把复杂问题拆成小步骤。这个回答没错,但太表面了。面试官追问一句,为什么一步步思考就能提升能力? 大部分人就答不上来了。今天把思维链这个话题讲透,先理解一个前提,大模型的计算本质是什么?大模型每生成一个 token, 做的计算量是固定的, 不管这个 token 是 回答一个简单问题,还是解决一个复杂推理,消耗的算力是一样的。这意味着什么?模型的思考深度和输出 token 数量直接挂钩。如果你问 一百二十三乘以四百五十六等于多少?让模型直接输出答案,它只有一个 token 的 计算量来完成这个乘法, 但如果你让他写出计算过程,他就有几十个 token 的 计算量来逐步完成这个任务。这就是思维链的第一个本质,用更多的 token 换取更多的计算量,但这只是表象。更深的问题是,为什么更多的 token 能带来更好的推理?大模型的另一个特性是,他只能访问已经生成的 token, 每一步生成只能看到前面的内容,看不到后面的。这意味着,如果模型不把中间步骤写出来,这些中间结果就没法利用上一步的结果。 打个比方,你心算十七乘以二十四。如果不允许你在纸上写任何东西,你需要同时记住,十七乘以四等于六十八,十七乘以二十等于三百四十,然后把它们加起来。认知负荷很高,容易出错。但如果允许你把中间结果写下来,你每一步只需要做一个简单运算, 前面的结果已经在纸上了,随时可以查。思维链就是给模型提供了一张草稿纸,把中间结果写进上下文,后续的 attention 就 能访问这些中间结果。这是思维链的第二个本质,外部化工作记忆,降低单部的认知负荷。 还有第三个层面,预训练数据里存在大量的推理链,数学证明是一步步写的,代码是一行行写的,论文是一段段论正的 模型。在预训练阶段见过无数前提推导结论的模式。当你用思维链格式提问时,相当于激活了模型在预训练阶段学到的这些推理模式。格式本身就是一种 prompt, 告诉模型,现在进入逐步推理模式。 如果你直接问答案,模型可能会匹配到问答模式倾向于直接给出结论。但如果你说让我们一步步思考,模型会匹配到推导模式 倾向于展开过程。这是思维链的第三个本质。通过格式激活预训练中学到的推理模式。 deep seek 二一的训练过程提供了一个很有力的证据。 deep seek 做了一个实验,直接从 base 模型上强化学习,不做 sft, 看模型能不能自己学会。推理结果很有意思。 训练到某个阶段,模型突然开始在输出里自发地写 wait let me reconsider 这样的反思语句。 没有人教他这么做,也没有在训练数据里给他示范过,是他自己发明的。 deepseek 把这个现象叫做 aha moment。 为什么会这样?因为强化学习的奖励信号是最终答案对不对?模型在探索过程中发现,当他写下反思和自我检查的步骤时,最终答案的正确率会提高,于是这个行为被强化了。这说明什么? 思维链不是人类强加给模型的外部技巧,而是模型为了最大化任务成功率,自然演化出的策略。更进一步, r e 的 训练揭示了一件事, 思维链能力在预训练阶段就已经潜伏在模型参数里了。 base 模型已经具备了反思、重新检查、分布推理的能力, 只是在普通的 prompt 下不会主动使用。强化学习做的事情是给模型一个激励,让他意识到使用这些能力可以提高正确率。这也解释了为什么思维链 prompting 有 效。当你在 prompt 里说让我们一步步思考,你其实是在手动激活模型本就具备的能力。 强化学习则是让模型自己学会什么时候该激活这个能力。再延伸一点,为什么思维链对复杂推理有效,但对简单任务效果不明显甚至有害?因为简单任务本身只需要一步计算,强行拆成多步,反而引入了更多出错的机会, 每多生成一个 token, 就 多一次出错的概率。而且思维链会消耗上下文窗口,对于长任务永长的思考过程,可能把真正重要的信息挤出窗口。所以思维链不是万能的,它有适用边界,任务的复杂度要超过模型单步计算能力的上限,思维链才有收益。面试时怎么答这个问题? 先讲计算本质,大模型每个 token 的 计算量固定更多 token 意味着更多计算深度。再讲记忆机制,中间结果写入上下文,成为后续步骤可访问的工作记忆。然后讲激活效应 思维链格式激活了预训练中学到的推理模式,加上二一的例子模型在强化学习中自发演化出反思行为,证明思维链是模型内在能力的外显,不是外部技巧。最后讲边界思维链对复杂任务有效,对简单任务可能有害,需要根据任务复杂度权衡。

ai 生成纹理这种东西大家肯定见过不少,但我问一句啊,玉璧这种三 a 游戏大厂的 ai 材质技术,你见过它对外开放吗?啊,没错啊,最近玉璧把自家一套 ai 材质技术开源了,项目全称是 背后是玉璧内部的技术研究部门。在图形学大会二点我发表的论文。整套流程分为三段,第一段,纹理图像合成,可以通过输入文本现稿、草图、高度图来生成一张可无缝平 铺的二 d 纹理。第二段,图像到材质,也就是把第一段生成的纹理图转换成一整套 p p r 材质贴图,这里用到了自研的大模型。第三段,材质放大,因为游戏里常用二 k、 四 k 纹理,所以第三阶段啊,负责把前面得到的材质贴图放大两倍或四倍。重点来了, 这次开源的部分呢,实际上是第二阶段中的大模型,以及一套可以在抗腐 u i 中直接跑的节点啊。所以在实际的流程中呢,深层还是得靠抗腐 u i, 只是这部分呢,是由玉璧开源而来。那么 up 这里就尝试了一些风格的贴图,像地砖、刺绣、 摊地、新入谷物与风格的地面。 这些呢,确实是可以直接生成好一整套平铺纹理啊,不需要你再到 samsung 的 里面去慢慢调啊,但它也不是无脑一件事, 你不加关键词步骤约束,经常会生成一些不是平铺的纹理,而且如果生成的这张图片带有明显的阴影透视,那么后面生成出来的批 b 通道呢,就容易带着偏差跑啊。整个生成阶段呢,非常看重关键词,这个时候肯定有小伙伴说了,哎呀,那它跟其他 ai 纹理生成器好像没啥本质区别吧?区别就在这里啊,市面上大部分工具做的都是帮你生成一张好看的,能平铺的纹理,换句话说, 会 ai 绘画啊,你最多生成一张好看的图片。而玉璧这次公开的这个大模型呢,是在回答这个问题,这张图片如果要进引擎,发现粗糙度、金属度应该长什么样,猜成通道之后合不合理。 所以啊,它的效果更接近三 a 游戏管线里的材质判断与拆解,而不是又一个 ai 深图机器啊。那么问题来了,为什么玉璧忽然要开园了?其实很简单啊,就是让大家都来试试看这一套在项目里到底可不可行,把关键的模块做成抗腐 u i 节点,把这套东西接入真实的工作流,让更多人去试,给反 馈。然后最关键的问题来了,听到这,肯定很多小伙伴都很兴奋,那我是不是可以拿它用来做商业项目了?答案其实是否定的,因为在项目页面赫然写着这几 个大字啊,仅供研究使用,原因也不复杂。一旦允许商用呢,你就可以把生产的材质交付给客户,放进游戏上线,哪天出了版权质量责任问题算谁的?所以,现在这个形式还挺微妙的,代码加模型加 comui 节点全给你用。但在 法律上呢,严格明确,你可以研究,可以测试,可以在内部验证,但不能把它作为商业生产力啊。用一句更直白的话总结就是,怎么造船,哎,我教你啊,但你拿出去跑,还是出了事别来找我就行。 所以啊,如果你是技术、美术或者正在试材质资产自动化的这个流程,那么玉璧这个项目呢,就非常值得你花时间去研究,因为它公开的就是拆解 p b r 材质的方法论。而如果你只是想找一个一键出材质的工具,甚至指望它取代贴图岗位,那你高 起的太早了。最后啊,如果你也想试试的话,可以去 com u i 官网看看本地部署,晚上也都有很多教程啊,这里 up 也就不展开讲了,官网链接会放在阿 b 的 评论区里。好啦,这里是 c g 快 报,关注我,了解最近 c g 海又发生了什么事情。