粉丝1.3万获赞9.7万

在过去几十年里,人类一直在让机器更聪明,但大部分 ai 的 聪明其实是教出来的,靠人工标注,靠专家打分,靠大量示范, 一步一步为给他知识。但如果有一天, ai 能靠自己成长,自己判断、自己纠错,就像一个真正自主学习的学生,那会是什么样子?今天我们要讲的就是正在朝这个方向逼近的突破。 agent 零 leo, 一个能够自我进化的视觉语言智能体 首先,当今的 ai 还不够聪明。虽然如今的 ai 会写文章、解数学题、看图说话,但他们依然面临两个难以克服的问题。问题一,自我评估会胡说八道。当模型反思自己的推理时,语言听起来很有逻辑,但内容可能与图像毫不相干, 这就是所谓的评估幻觉。例如,图中明明是一条蓝线,模型却能一本正经地解释成红色曲线,你让他检查自己对不对,他甚至照样瞎编。问题二,训练太依赖人工 要让一个视觉语言模型进化,通常要靠人类做评分,人类给奖励,人类告诉他哪里错了。这既昂贵缓慢,还限制了改进速度。模型越大,需要的人力越夸张。 为此,有了 agent 零 v l 的 革命性设计。 agent 零 v l 的 突破在于将一个模型拆成两个斜坐的人格,让它们形成闭环。人格一, solve 解析者他负责真正的推理、看图、读取信息、分解步骤、调用工具,最终输出答案。 这个 solve 不 只是猜,它可以调用工具,比如计算几何、角度、求距离、分析图表数据等,让推理不再只是语言,而是可执行逻辑。人格二, fire fire 审查官 verifier 则像一个严格的老师,一步步检查 sour 的 推理链,独立调用工具验证,给出评分致信度,指出逻辑漏洞,写出批评意见。如果他发现问题,就会启动下一步人格联动。 self repair 自我修复。 verifier 会生成一个修补建议, 告诉 solve 哪一句推理有问题,哪里需要重写。然后 solve 会根据建议重新生成正确步骤。两者不断协做,形成一个循环,推理评估、批评、修复、再推理。这被称为 cirk 自我进化推理循环 self evolving reasoning cycle。 最关键的是,整个过程不需要人工介入。 ai 在 自我成长。工具驱动的自我监督传统模型的反思只是语言片段,但语言很多时候能说会道并不代表正确。 agent 零 v l 的 优势在于,它使用工具来让推理落地,比如几何题调用数学工具计算真实数值 图标题,让工具实际读取坐标点。技术任务使用视觉 a p i 精确识别逻辑推演,在沙箱里执行代码验证结果。这样悲哀的每一步推理都必须接受现实检查, 不是嘴上合理,而是事实正确。这让它极大减少了幻觉问题,特别是在数学、物理、图标推理等对精度敏感的领域。 这就是 agn 零五 vl 的 强大之处,它不是等你纠错,而是自己纠错,而且会越错越强。效果到底多强?在多个公开视觉推理基础上, agn 零五 vl 展现了惊人的提升,比昆二点五 vl 七比平均提升百分之十二点五, 多个复杂任务甚至超过 g p t 四 low。 在 mathfist、 how bench 等难度较高的科学题中表现优加。随着训练迭代增加,模型性能呈稳定上升趋势,即便只把 verifier 拿出来给其他模型做评分,也能让它们提升百分之七点三。 这说明 agent 零 v l 不 只是自己强,还是一个非常优秀通用的评分。老师对未来的启示 agent 零 v l 展示了一种新的 ai 学习范式,不是靠人工位数据,而是让模型自己学会判断,自己学会推理,自己学会修正。这意味着 未来的 ai 能够更加稳健可信,训练成本将大幅降低,多模态 ai 的 推理能力会突破天花板,自主学习、自主强化可能成为主流路线。 在某种意义上, beacon 零 v l 像是早期的启蒙智能,它让 ai 开始迈向真正的自我成长。当 ai 能够自己找错,自己纠错,自己变强,它的学习速度将远远超越人类。 而 agent 零 vl 或许就是迈向强人工智能的一小步,但也是最重要的一步。

深度使用 open cloud 的 第四天啊,我觉得它的优势在于能自我净化啊,这有点夸张啊,叫自我修复吧,就是比如我现在跟他去聊,让他帮我整理某金的走势。好,他整理完了,然后呢,我让他去生成一份非书的文档, 然后他去生成了,但是你看他生成内容是空的啊,他只有标题,然后内容是空的,然后我就跟他去聊,啊,为什么是空的?然后他告诉我有什么什么问题啊啊等等,但是他给我了几轮之后呢?还是空的,然后呢, 我就让他什么,我就让他把,呃,你看他说是飞书写的时候报错了啊, 然后呢,就是 a p i 的 写入有问题,好,那我就让他把报错的内容发给我,然后我帮你排查, 然后其实呢,他在自己就去研究了如何去处理这个报错,最后呢,他把这个文档就生成成功了,你看现在他就有内容了,对吧? 所以它是可以去自我修复的,然后呢,我可以让它把这次修复的结论避免下一次它失忆嘛?啊?它幻觉,那么我就让它把这样的修复的经验啊放在它的 skill 的 md 里面,那么下次它可以直接按照 md 里面的一些问题, 然后等于是经历经验的积累嘛,然后就可以去下次能够更高效顺畅地去完成要求。

live coding 的 时候 bug 超多,所以我就引用了这个 skill, 这个 skill 叫 superpowers, 在 github 上已经有四万星了,使用的方法非常简单,我就直接把这个链接丢给了 cloud code, 让他帮我安装一下这个 skill。 安装好了之后呢,我就让这个 skill 直接来读取我的这个项目文件夹,让他帮我去看里面有哪些 bug, 有 哪些问题,他马上就能给我扫描所有的文件,然后给我 检测出来的结果。这个结果看起来就很专业啊,反正起码比我这个文科生要专业很多。然后再让 cloud code 继续按照他帮我们列出来的这样的一些问题,逐个进行修复就可以了, 这样就能帮助我们这些文科生不懂代码的人超级快的把 back coding 的 代码质量做的更高,真的推荐大家可以尝试一下。 那今天就分享到这了,这周还会分享更多跟 webcoding 有 关的一些教程和视频,因为近期正在做很多 webcoding 的 项目,而且我们在本周五晚上也会有一场专门的闭门直播分享,有兴趣的朋友们欢迎直接评论区报名,记得一键三连,下期见!

为什么全世界最顶尖的 ai 在 医学考试中几乎满分,却可能根本治不好你的腰痛?甚至如果你继续忙下去,下一次受伤可能离你并不远。很多人不是偷懒,而是不知道如何去判断。所以把 ai 当成神, ai 给什么,你就练什么。而这种认知易用性,会让你忽视身体最真实的痛感,直到你的关节。 不要把 ai 当医生,它只是一个无穷无尽的知识库,是我们身边的认知外骨骼,起支撑作用的是它,但决定方向和速度的是你自己。 所以,掌握 ai 的 第一步,是学会如何从康复师的视角看待身体。康复师靠的是扎实的基础加清晰的判断逻辑。现在 ai 可以 作为你的知识库,你真正需要的是那套能帮你读懂身体信号的思路, 只要你掌握了这个思路,你就可以把你真实的感受、训练反应以及生活环境准确教给他,这样 ai 就 可以成为你真正的康复助手。接下来的视频,我会教你如何从康复师的视角使用 ai, 找回身体的掌控权,康复才刚刚开始。

搜索、编辑、代码、报错、调试、 修复。刚才这一切都是自动完成的,从请求到结果,没有人碰过键盘,这里没有什么新的人工智能。你一直在用的还是同一种语言模型, 不同之处不在于大脑,而在于他周围的支架。在本视频中,我们将详细了解到底发生了什么,循环工具调用,哪里出错。让我们打开引擎盖看看, 你已经知道这是怎么运作的了。你问问题就能得到答案。完毕。这个模型就像一个被锁在房间里的杰出专家,你把问题从门缝塞回来, 聪明但孤僻。他们什么都检查不了,什么都做不了,也看不到任何结果。代理人就是当你给专家一部手机、一台电脑和一个系统,让他们可以进行多次尝试,并根据每一步学到的知识不断改进时,就会产生的。 现在他们可以说让我查一下,真的去查,看到结果后说,嗯,我需要更多信息,再次搜索。好,现在我来写代码, 写完后让我测试一下,运行它,发现有错误,我来修复修复它。还是同一个专家, 同样的大脑,能力却完全不同。代理人就是一个带有工具循环的 l l m。 这就是整个概念模型,会思考行动,观察结果,并重复这一过程,直到任务完成。 其他一切都是实现细节。每个代理都运行着同样的基本循环。研究人员称这种模式为 rect, 即推理与行动相结合。现在,这几乎成为了所有代理框架的基础。让我们一边分解,一边看看它是如何工作的。 第一步,感知或收集上下文。有些框架称这为思考阶段,代理会被提供他所需要的一切,用户的目标,可用的工具,以及以往对话中任何相关的记忆。 第二步,推理大语言,模型会查看所有这些信息,然后决定我该做什么,我是否知道答案,还是需要先做些什么。第三步,行动。模型会输出一个具体且结构化的工具请求。第四步,观察 工具会被执行实际运行,并将结果返回给模型。真实的搜索,真实的数据。 现在模型拥有了新的信息,现在这个循环会重复进行。模型又获得了新的信息,它再次进行推理,我有了 lts 版本,现在我需要迁移的信息。 再进行一次搜索,再进行一次观察。现在它已经有足够的信息来回答了。两次循环,两次工具调用任务完成。 简单的查询可能在一个循环内就完成了。复杂的任务可能需要十次,二十次,甚至更多。模型会一直进行,直到他认为任务完成为止等等。模型只输出文本,那么文本是如何变成真正的网页搜索的呢? 模型本身并不执行任何操作,是你的代码在执行。模型只是以你的代码能够理解的格式提出请求。 你需要用名称,描述以及所需输入来定义你的工具。描述很重要,模型会读取描述以决定何时使用每个工具。这些定义会被放入系统提示中,模型会看到这些就是你的工具。 当模型想要使用某个工具时,它不会输出普通文本,而是会输出像这样的结构化 json。 你的编排层,也就是你围绕 l, l m 编写的包装代码负责管理这个循环,会捕捉到这个 j s。 解析它发现模型想要搜索,然后执行实际的搜索操作。 真正的 api 调用真正的结果。这些结果会被格式化后作为观察结果反馈给模型。模型提出方案。你的代码执行模型看到结果,这就是握手过程。 每一次循环迭代都是一次 a p i 调用。循环越多,延迟和成本就越高。一个包含许多迭代的复杂任务,成本会迅速累积。 这是一项工程上的限制,不只是个角度。那么当对话变得非常长时会发生什么?或者当你希望智能体记住上周的某件事时会怎样?语言模型有一个上下文窗口,也就是他们一次能看到的信息量是有限的,可以把它想象成桌面空间。 当前的对话会占用空间,工具的结果也会占用空间,最终你会用完所有空间。 当这种情况发生时,你就必须做出选择。总结旧内容,舍弃不太相关的部分,或者使用滑动窗口,只保留最近的历史。 这就是工作记忆,也就是当前绘画受上下文限制。长期记忆,也就是跨绘画的记忆则更难实现。常见的做法是,当有重要的事情出现时,你会把它提取出来。 你会把它转换成一个嵌入向量,可以把它看作是捕捉含义的数字指纹。 这些嵌入向量存在于一个高维空间中。相似的概念会聚集在一起,相关的记忆在几何空间上彼此接近。 当智能体需要相关内容时,它不是通过关键词搜索,而是通过含义搜索。与异相似性,这些向量会被存储在数据库中,之后当它可能变得相关时,你会在数据库中搜索,并把匹配的记忆重新拿到桌面上。 有些系统为模型提供了明确的工具,比如记住这个和回忆功能。智能体会自行管理自己的记忆。 最新研究表明,这种混合方法小上下文窗口加上外部记忆,远远优于把所有内容都塞进上下文中。 准确率提升百分之二十六,延迟降低百分之九十一,所需 token 减少百分之九十。这不是可选项,这是生产环境中的智能体的工作方式。真正能够随时间进步的长期学习,这仍然是一个悬而未决的研究难题,但基础组建已经存在, 这就是他们的工作方式。现在来说说他们是如何崩溃的。如果你在用智能体构建系统,这些失败模式迟早会找上你。 无限循环模型不断的搜索,不断的尝试,永远无法收敛。它卡住了。你需要设置最大迭代次数限制和循环检测。 幻觉工具调用模型会凭空创造不存在的工具或者生成格式错误的 jason。 你 的解析器需要具备优雅的错误处理能力。错误即联某个工具失败或返回了错误数据,而模型却将其当做事实。垃圾输入自信输出垃圾。 上下文膨胀循环了二十次,上下文里塞满了工具的结果。模型已经忘记了最初的目标。 成本意外,每一次迭代都会消耗 tokens。 复杂任务的花费可能是美元级别,而不是集美分。要进行监控并设定预算。错误的工具选择模型误解了某个工具的功能,选择了错误的工具, 工具描述不清导致了这种情况。清晰准确的描述能大大减少这种问题。 要明确说明每个工具的用途以及何时使用,这些并不是要你避开智能体的理由,这些都是可以用工程手段解决的工程问题,但你需要知道它们的存在。简而言之,智能体就是在循环中的大语言模型, 模型相同,架构不同。这个循环包括感知、推理、行动、观察、重复 工具是结构化的,请求模型提出方案,你的代码来执行。记忆是有限的,工作记忆就是上下文窗口。长期记忆需要外部系统。 智能体会失败,这是可以预见的。我们讲过六种失败模式,循环、幻觉、急连、膨胀、成本、错误。工具 要针对所有这些情况进行设计。如果你想真正掌握这些内容,就从零开始,构建一个最小化的智能体。一个工具,一个循环,不超过一百行代码,这个练习比任何教程都更有价值,这就是智能体的底层原理。

今天啊,咱们来聊一个人工智能领域里特别有意思的故事。故事的主角呢,是一个曾经被看作是天才的 ai 大 脑,但他身上却藏着一个挺要命的缺陷。直到后来,一个简单到你可能都不敢信的修复方法出现了,一下子就把整个局面给彻底扭转了。 哎,咱们先从一个问题开始,你觉得一个 ai 的 记性太好,是好事还是坏事?可能很多人第一反应都是,那当然是好事了,记性好还能有错?嘿!但是在 ai 的 世界里啊,还真不一定,记性太好有时候反而会变成一个大麻烦。 这种现象呢,在咱们行内,有个专门的词叫过逆河,说白了,就跟咱们上学时候班里那种指挥死记硬背的学生一样,你看他能把整本教科书一字不差的背下来,考卷上只要是原题,那绝对满分。可是一旦老师把题目换个说法,稍微变通一下,他就直接蒙了,完全不知道怎么答。 这种 ai 就是 典型的书呆子 ai, 只会背,不会用。好。那了解了这问题之后呢,咱们今天故事的主角就要登场了,它是一种非常特殊的 ai, 叫循环神经网络,它的英文缩写是 r n n, r n n 最大的特点,或者说它的超能力就是它有记忆性。你看啊,一般的 ai 可能就像金鱼一样,看完一张图片,再看下一张,前一张是啥早忘了, 但 r n 不 一样,他能记住之前看到过、听到过的信息。这在什么地方特别有用呢?比如说翻译一句话,你要是记不住句子的前半段,后半段还怎么翻呢,对吧?所以呢,就是靠着这个记忆力, r n n 再处理像语言呢,语音呢这种前后关联特别强的事情上,简直就是一把好手。 但是呢,问题也跟着来了,当时啊,科学家们就想,这好办呢,既然他这么厉害,那我们把他做得更大更复杂,不就更聪明了吗? 结果你猜怎么着?事与愿违,这个 ai 大 脑变得越大,他那个书呆子的毛病就越严重。他记忆力是变态的强,但就是学不会,举一反三,成了个只会死记硬背的优等生。 就在所有人都头疼的时候,其实啊,当时已经有了一款专门治过你和这个病的神药了。这个方法在其他 ai 模型上效果特别好,可以说是药到病除。但怪就怪在当人们把这个神药用在 r n n 身上的时候,诶,它居然完全不好使了,这就奇怪了,为什么呢? 这个神药呢,名字叫 drop out, 中文我们一般叫它随机失火。它的想法即是特别有意思,也特别巧妙,你想象一下哈,一个班的学生在学习,为了让每个学生都独立思考,而不是老指望旁边的学霸老师,就想了个办法, 上课的时候,我随机点几个人的名,让他们撬课出去玩一会。这么一来,剩下在教室里的学生就没法依赖别人了,对吧?每个人都得靠自己去理解知识,这样一来,整个班级的学习能力反而变得更强更扎实了。 这方法听起来很棒,对吧?问题是,这么棒的一个方法,在其他 ai 身上一用一个准,偏偏到了我们这个有记忆力的主角 rnn 这里就失灵了,不但没效果,有时候甚至还帮倒忙,让 rnn 变得更笨了。这就成了一个大谜团,到底哪儿出问题了呢? 后来啊,经过很多研究和实验,科学家们终于找到了问题的正解所在。而那个让他们一下子想明白的关键点,其实就藏在一个我们每天都在经历的东西里面,那就是时间。 要明白这个,咱们得稍微看一下 r n n 的 内部工作原理,你看啊,可以把 r n n 想象成一个正在处理信息的大脑, 它里面呢,信息主要有两种流动方式,一种是纵向的,从下往上这部分负责处理新进来的信息。比如你刚说的一个词,还有一种呢,是横向的,从左到右。哎,这条线就特别关键了,它就是 r n n 的 记忆通道,负责把前一刻的想法和记忆传递给下一刻的自己。 这一下子,谜底就揭晓了,大家终于明白问题出在哪了,之前的做法太一刀切了,那个随机俏客的方法,不仅用在了处理新信息的纵向连接上,还用在了负责记忆的横向连接上。你想想,这是什么概念?这 就好比这个 ai 正在努力思考一个问题,需要用到刚才的记忆,结果你啪一下把他刚才的短期记忆给随机删掉了一部分,那他还怎么思考下去?记忆都断篇了,这学习效果能好才怪了。 所以啊,一旦找到了这个病根,那开出的药方就简单的让人拍案决绝。咱们来看看这个绝妙的修复方案到底是什么?你看这对比一下就特别清楚了。左边这个是原来的老办法,不管三七二十一,把所有连接都拿来搞,随机翘课,结果呢,把记忆这条生命线也给搞断了。 再看右边这个新方法就聪明多了,他说咱们翘课可以,但只在处理新信息的横向连接上搞,基于那条负责传递记忆的横向连接,那是咱们的宝贝儿,绝对不能动,要完完整整的保留下来。就这么一个简单的区别,一下子就解决了所有问题, ai 的 记忆终于保住了, 那光说不练假把式这个理论上看起来很棒的改动,实战效果到底怎么样呢?来,咱们直接上数据,先看 第一个任务,叫语言模型,说白了就是猜词接龙,让 ai 根据前面的话,预测下一个最可能出现的词是什么。在这个任务里呢,分数是越低越好,分数越低,说明 ai 猜的越准。你看啊,没用这个新方法的标准模型得分是一百一十四点五,用了之后呢,分数咚一下降到了七十八点四。我的天,这可不是什么小修小补,这简直就是智的飞跃啊。 咱们再来看一个机器翻译,把英语翻成法语,这个呢,反过来,分数是越高越好,代表翻译的越地道。修复前分数是二十五点九,修复后涨到了二十九点零三,你可别小看这三点多的提升,说实话,在机器翻译这个领域,能提升个零点几,都算是重大突破了,这个成绩可以说是相当惊人了。 当然了,它的厉害之处还不止这些,比如说语音识别,用了这个方法, ai 的 耳朵就更灵了,听得更清楚了。还有一个看图说话,就是让 ai 描述一张图片里的内容,这个效果就更夸张了,一个用了新方法的 ai 模型,它的表现居然能跟十个没用新方法的旧模型组合起来打个平手,你想想一个顶十个,这效率提升的有多恐怖? 所以咱们来总结一下这个简单又巧妙的修复方案到底做对了什么。其实就一件事,它精准的保护了 ai 的 记忆链条,它就像一个聪明的外科医生,做手术的时候精准的切除了病灶,也就是过你河的风险,但又完美的避开了所有重要的神经和血管,也就是记忆。 这么一来呢, ai 既能通过随机翘课,学会灵活思考,又不会损伤自己最核心的记忆能力,可以说是鱼和熊掌终于兼得了。 最后呢,就像这篇论文的作者们自己说的那样,他们的工作终于让 drop out 这个强大的工具也能在 r n n 上发挥作用了,并且大大提升了各种应用的性能。这个故事其实也告诉了我们一个道理,对吧?有时候啊,解决一个天大的难题,可能并不需要造一个更复杂更庞大的机器,真正需要的可能就是一个闪光的、优雅的、简单到极致的好点子, 一个小小的视角转变,就能为整个领域带来巨大的突破,这可能就是做研究,搞科学最让人着迷的地方吧。

那你要是用 animate def 去生成一个动画,你最头疼的事情是什么?或者你最希望会出现的一个技术是什么?这个我觉得很多人的答案应该都是一样的,那就是像 after detailer 一样能进行面部修复,那我们都知道啊, 当这个像素不够的时候,人的脸和手呢都会崩掉,那这个时候呢,我们会采用呃高清修复或者是 after detailer 这样的后期修复技术来实现。但是在 animate def 这种视频生成技术里边呢,视频生成的人脸效果 本身就不好,尤其是对比这种单图片的模型,甚至来讲,那今天呢这个问题呢就被解决掉了,那就是说我们可以针对视频来进行面部修复,而且修复的效果呢也非常的棒。那到底怎么来做呢?我们一起来看一下。在整体的这个动画流程里边的话呢,我们先来看一下最基础的部分,这个呢就是一个基本 的动画的一个设置,那我们用到的主模型呢是麦吉威六,然后呢我们会用到个 job clip 的这样一个选项啊,就是说我们 会丢掉最后一层,然后用第二层。这个我们在很多纹身图的时候,为了保证质量呢,会用到这样一个技巧,然后在这的话呢,我们用到了一个自定义的 ve 啊,因为我们在执行动画的这种生成的时候呢,自定义的 ve 呢,相对来说会稳定一些。 呃,然后呢是这项提示词,那我们简单看一下,嗯,一个女孩,然后穿着一个 学生的制服,然后呢我们大概是腰部以上的视角,然后呢是一个花园里的场景,然后我们的反向提示词呢就比较简单了,大家看一下就可以。呃,然后呢我们会把 整个的这些元素呢来组成一个 basicpap 啊,就是一个基本的管道,那这样的一个管道呢,回头会传递到各个模块里边去用啊,因为这些东西呢,他会频繁的被使用到,那这就是第一个部分,基础的部分。好,首先呢我们先来看一下我们的基本动画生成, 在这个里边的话呢,我们会生成一个十六针的动画啊,所以说呢,我们的呃 mp latent image 啊,就是我们浅空间的一个图片,数量呢是十六,然后宽高呢是五幺二乘五幺二, 那为了保证它整体的一个稳定性的,我们使用了一个公共的种子,然后来传递给一个通用的采样器,然后把采样器呢进行 voe 的解码,就得到了我们这个图像。然后呢我们会用到一 个视频的解码器, why do hypersuit 啊这样一个组件里边,然后我们会把它渲染成八针的一个 mp 四的视频,大家看一下这个渲染的效果,那么整体来看呢,这个效果是非常棒的,嗯,除了人脸这个部位 大会发现他是啊崩掉的,因为呢我们在纹身图的时候呢,也经常碰到这样的情况,由于生成的酵素不够,所以说呢,我们会得到一个 太精致的人脸,所以说我们下一步呢就需要去修复这个人脸,所以说呢就用到了我们这个脸部修复的一个模块,在这个模块里边大家会发现,那首先呢我们前半部分呢,基本上是一个检测器啊,就是为了把人脸的这个羽翼分割的部分呢,给它检测出来。 那如果你用过 inpect pack, 呃,这个自定义包里边的这些组件,可能你对这个人脸的修复呢是比较清楚的。那前面的部分呢,基本上是一个通用的部分,我们大家只看一下, 首先呢是一个 uuv 八的一个人脸检测模型,那这个检测模型呢,会给后边的这个简单的这个检测器呢来提供一个基础检测模型。然后呢我们这有一个 same 的模型加载器,然后这个检测器呢会把我们这个人脸检测出来,而且把它转化成一个, 呃, segment 就是语音分割的部分,然后呢来送给我们的这个 detailer 啊,叫做,呃优化期也好,或者叫细化期也好,就是或者讲叫修复组件。当然你不要 把它单纯的认为只是做人脸修复啊,这个可修复的部分还是比较多的。呃,但是呢你要注意在这个包里边的这个组件呢是新加的,这个组件呢是专门针对于我们的艾特米特蒂夫,就是动画组件来做的,因为动画组件呢,它是一个序列针, 而跟我们单独的修复一张图片的人脸呢,这个还是有一些差别的,那他需要考虑到上下纹的一个变化,在这个里边你要注意我们会把这个降噪系数呢调的比较高还是零点八,这样的话呢,他修复的效果呢会比较好。 那我们修复之后的人脸呢,需要和原来的图像的进行拼接,也就是你修复的只是人脸的这个部分,我们必须把它贴到原来的那个人脸的位置,这样才会真正的给它修复出来,所以说呢,我会用到一个 sig post 这样一个选项,那这样呢,我们生成最后的 一个图片,我们来看下效果,这个同样是八针的一个渲染,然后呢 mps 的一个格式,大家来对比一下,这两个效果其实还是非常明显的,那除了修复人脸之外呢,其实还可以修复别的部分啊,我们来看一下这三部分我们的一个基本操作, 那我们把生成的这个图像呢给他复制了一下,然后呢放到这个老弟妹纸里边,然后呢我们手动的画了一个哎,一个遮罩,这个遮罩的裙子的这个部分, 那我们会把遮罩的部分直接变成一个雨衣分割的部分,以方便我们后边的这个 detainer 去使用。那由于呢,我们需要针对这个部分做一些提示词的说明,所以说呢,我们在这加了一个提示词啊,我们说明他这个裙子呢,不是一个简单的这个短裙, 而是一个 pencil skirt 啊,这个应该叫铅笔圈。那做了这样的优化之后呢,后边的部分其实跟我们人脸修复的部分是差不多的,同样修复,然后呢把修复之后的结果贴到原来的图像上,然后我们就会看到 最后的这张图,那你来看一下最后这张图的裙子和这个的裙子呢,其实不太一样的,而且它在质感表现的一些方面呢,还是比较棒的,所以说呢,到目前为止,我们可以这样讲, animate def 这个技术呢,已经发展到一定高度了, 就目前这个质量上来讲呢,我们已经可以直接用作这种视频的生成,应该是没有什么太大问题,唯一考验的就是以计算机的算率。那这个呢,就是大家看到的面部修复技术,我个人觉得虽然比不上针对图片的 阿贝迪推乐,但是呢,整体修复效果呢,还是可以接受的。大家可以尝试不同的采样算法呃,以及不同的采样步数,那你可能会得到更好的一些效果。还等什么,赶紧自己试一下吧,关注我,让指示变得更有意思!

谁能想到,将近六百万人刷到过的颜值视频,竟然是 p 出来的!看得出是一个人,但真的精致太多。原视频肤色暗黄,鼻涕凹陷,清晰度也不够看我在不大改的情况下,如何修出又网感又剑魔的 ai 感视频?首先还是老步骤, ai 感的秘诀是这个 ai 超清,可以让画面变得特别清晰有质感。支持图片视频 life 模式人像增强模式,支持面部程度调节,还原皮肤的原生质感,画质修复认准宁可再到视频美容,我习惯先手动瘦脸,瘦脸范围调最大,按自己审美推就完事了,轻松解决脸型不留长和秃腿问题。 觉得脖子粗了还可以把脖子往里推,特好使。推完脸再去精致五官里,缩短中庭人中额头和下巴小小的比例改动,让整个面部都更协调了。 再去美妆里还原被镜头吃掉的妆容。我会补下口红,我喜欢用这个唇釉腮红选春日比较符合整体的粉色调,面部丰盈里拉满鼻肌底和嘴角,这不真的有效 改善了鼻肌底凹陷、法令纹和嘴角暗沉。磨皮里把自动磨皮关掉点手动磨皮把鼻影过度的自然些。身材美型里,小头拉到二十左右, 脖子粗细和长短也用上,显得脖子更纤细修长,眼部精修理亮眼。再去美牙里,白牙小细节不能放过。最后去调色里拉高锐化, hsl 里选橙色,拉低饱和度,提高明度就完成了。老婆们听我的,动动小手就能 get 这样的睫毛改视频,快速行动起来!另改,除了电脑版可以逐针修饰屏,宝宝们快去试试!

嘿,是不是刚想用 open code 跑一下 jimmy, 结果啪一下跳出来个报错,整个工作流都给卡住了。哎,别急,这事啊,一分钟不可能三十秒就搞定了。 好了,我们来看一看这个问题。如果你正在用 open code 调用 gemini 的 话,我猜你对下面这个提示肯定不陌生,甚至可能有点头疼, 此 anti gravity 版本已不受支持。看到这个,你是不是心里一罗登?哎呀,我是不是错过了什么重要更新?还是我哪里配置错了?先别慌,其实啊,真正的原因简单到你可能都不信, 你看,这个错误信息看起来挺吓人的,对吧?但他背后啊,就是一个小小的版本号在捣乱。这其实很常见,很多服务为了保证安全和稳定,都会自动拒绝那些版本太老的客户端请求。 关键是啥呢?这跟你写的代码,你的电脑环境其实都没半毛钱关系。问题啊,就出在一个文件配置里,里面有个叫 user agent 的 东西,你可以把它想象成是这个应用的身份证,对吧?而你现在这个版本号呢,就等于说你这张身份证过期了。 既然原因这么简单,那解决办法自然也是超级简单。来,跟着我就三步,咱们就能让你的杰米尼模型满血复活。咱们要做的事情就三件,找到那个配置文件,改个版本号,然后保存一下。 就这么简单,我们马上开始操作好。第一步,打开你的终端来,直接把屏幕上这条命令复制粘贴进去。 code 斜杠,点 config 斜杠, open code 斜杠, anti gravity 杠 accounts, 点 j s o n, 然后敲回车。这样呢,它就会用你电脑上默认的代码编辑器,比如 vs code, 帮你把那个关键的配置文件给打开了。 哦,对了,如果你用的是 windows 系统,别担心,路径也给你准备好了,你可以在文静管理器里直接找到这个路径,或者呢,在你自己的终端里用对应的命令打开它,一样的。 ok, 现在文件应该已经打开了。接下来你需要在文件里找到一个特定的地方,不用一行一行地看,太慢了,直接用编辑器的搜索功能,一般是 ctrl f 或者 command f 搜一下 user agent 这个词 找到了吧?看,这就是咱们要动刀子的地方,非常简单,你只要把 user agent 后面那个旧的版本号,就是那个一点零点零,给它改成最新的一点一五点八就行了。 记住啊,只改引号里面的数字部分啊。好了,最后一步也是最关键的一步,当然也是最简单的一步啦,保存文件,按下 ctrl s 或者 command s 搞定收工。 怎样?是不是超简单?就这么几下,那个烦人的版本错误提示就应该彻底跟你说拜拜了。现在你可以回到 open code 再试一次了,你会发现,哇,你的 jamming 模型已经原地复活,可以正常工作了,是不是感觉特别快? 好了,这次的快速修复指南就到这里。那么你在用 open call 的 时候还碰到过哪些奇奇怪怪的问题吗?欢迎在下面留言告诉我们。说不定啊,我们下一期要解决的就是你的问题。