hello, hello, 大家好,今天给大家介绍一下这个,就是可能大家很多人都看到了这个,这是腾讯开源的一个企业级的这种哎,大魔仙的这种知识库的这样这种这样的一个 一个项目,这边是他部署,我自己部署了一下,就可以看到是这样的一个一个一个界面,然后我最近高强度使用了一个星期吧,我感觉确实还可以,就最近正在写那个毕业论文, 然后我就就高强度的使用了一下,感觉还是可以的,就他的部署也很简单,直接用了一个多克就可以自己在本地就部署了, 然后它就是一个这种已经是这种啊,就是 production ready 的 这种就是已经是可以部署了,这个基本上就可以直接就开始用了。然后它的这个 agent 模式是比较好用的,就是你一般的那个知识库的话,就只能你 一次对话,他就是现在一次对话,他就在这个库里面给你搜搜那么相关的几个,然后他就就没了。但是他这个 agent 模式是是可以用那个 model 进行那个多轮对话,然后去进行一个呃,就是更更一个更精确的这样的一个一个搜索, 然后就下面是他的一些这种核心特性的介绍嘛。然后这里就是我主要是用来做这个啊,论文,读论文的, 还有他其他的也还可以,就是做一些这种,然后他的 a 战的模式,我就是想给大家展示一下,我觉得还是挺好用的啊。登录进来就是这样一个界面,然后我这里已经 搞了一些这个,我已经搞了一些这个文章进去了,就是可以看到我这里大概是有二十三、二十四篇文档,然后里面有一些那个别人的 c c s, 有些别人的 cc, 然后有一些这个 r t 口,然后这是其他的这个我分类搞了一些这个文章,然后, 呃,这里的话,你可以进来这个模型管理里面先加自己加一些模型,它这个是你如果 alma 自己有本机的话,也可以用本机的,但我这个 啊,就那个机子不行,就我都是用的 remote, 就是 这里 remote api, 你 可以自己如果有的话,你就可以去搞一下 remote。 然后这里给大家推荐一个 api 的 这个网站,就是这个,就是我自己用的一个 他的这个啊,模型非常的全啊,就大概有他这里有五百八十多个模型,就比较常用的什么这么 nice 呀?然后 g p g 五点二啊,这些最新的这些模型,这里都能都能找到,就都能用,但是 这个的话就是不推荐用那个这么 nice 三和二点五 pro, 因为我试了一下,因为这两个模型自带那个思考,可能你在那个 a 阵的调用的过程当中,它思考的时间太长了,就会把整个那个 workflow 就 打断了,所以这里的话用这个 deepsea 三点二,我感觉是 效果比较好的。然后 imbedding 的 话就用 openai 的 这个 imbedding 三 large, 然后 re rank 的 话就用千问这个,那就把这个模型一加,然后 对话模型策略的就用这个 agent agent 这个模式你就可以看这里最大是支持这个三十步的这个自己的迭代,然后它这里自己 agent 有 一些调用的这种模式啊,一些工具, 那就可以制定一个计划,然后在你的知识库里面自己去搜索一些相关的知识,然后再来进行那个回答。这个是我觉得它主要一个比较核心的一个,一个一个好用的一个比较比较好用的一个点。 好的,接下来我们来看一下这是,这是我之前,这是我之前问他的一个问题,就是我要他写我的这个博士论文,然后我让他给我推导一下这个贝耶斯分析的这个方法来 来探测这个,这是关于联系人的播用贝耶斯分法来啊的贝耶斯这个方法的这个论述,然后用 markdown 的 事情是给我们,我们我之前用的是 the text, 因为它的 text 编辑起来比较麻烦,用 markdown 的 话,等会就是看结果的时候会比较简单一点。现在我们让它来 让他来这个工作一下,然后现在你就可以去接杯咖啡或者什么,然后回来等着回来看结果就行了。他会这个,他这个 agent 模式会, 他会自己给他列一个那个,呃,列一个计划,然后他会根据这个计划再去一步一步的完成你的这个要求。 好的,可以看到他已经开始啊阅读完这些了,开始准备写了。 好啊,他已经完成了这个状写,我们复制一下,然后 打开我的 cursor, 然后我们新建一个文档,看一下 这个,从这个 ok, 好, 然后我们看一下效果啊, 可以看到就是这些基本上他写的这些都是对的,因为你是给了他那个参考文献的嘛,然后他这个写的这些,其实他还是就是就是保证他这个知识是准确的, 而且他写的也还可以。然后就是就是主要的问题就是你要把你的 prompt 写好,就是让他他可能一次,呃,不能完成一个比较 fun 的 一个 一个任务,你得把你的这个要求细化,但是他就是对于一些比较简单的这个问题,他还是可以完成的,挺好的。你看这个他写了,写了这么多,可能有,这应该有个两三页了吧,三四页可能都有了。就 就是我感觉这个它的这个效就是效果是要比那种单机,就是这个 agent 这个模式要比你基于一个知识库来进行一个回答,它这个效果是要好很多的。 嗯,好,这是这是关于这个就是这个维多利亚的编程的这个开源的知识库的这个 这个介绍,然后你只需要有一个这个啊模型的这个 a t i 你 就可以就可以直接用了, 然后感觉效果还是也还挺好的。这个所以大家有兴趣的话可以自己部署了,然后试一下。如果你用 alama 自己本地有模型的话,甚至都不需要花钱,就直接用 alama 本地模型就可以直接就可以用。好的,谢谢大家。
粉丝128获赞923

gethub 一 周热点汇总第九十八期,本期的内容呢会包括 ai 文档理解解锁框架,微软最新的 tts 框架, cloud code 记忆插件,自动化的备份工具, jellyfish 的 桌面端和 linux 桌面环境。那最后呢,还是分享两份资料。 另外呢,我入选了十二月的抖音精选作者评选,如果你觉得我的视频不错呢,帮忙点一下,送他上精选,帮我呢投一票。那好了,话不多说啊,我们进入正式内容。 luna 呢,是腾讯开源的一款基于大源模型和 rek 架构的企业级的文档理解和语义解锁框架。那它的目标啊,就是把复杂的易购格式的这种文档库呢,变成可以查询,可以对话,可以生成答案的智能的知识库。那如果想本地部署的话呢,可以克隆项目,然后啊,一条命令就能启动全部的服务, 也可以呢,根据需要去启动不同的功能组合。同时呢,维诺尔作为微信对话开放平台的核心技术框架,能够通过微信对话开放平台呢,去实现零代码的接入。微信的生态 可以呢,把它用在很多常见的企业级的场景,比如呢,像内部的知识库和文档的问答,将产品的手册呀,规划文档啊还有培训的资料去变成可以查询的智能的语义库。 还有呢,像在科研资料分析的场景呢,对于学术论文多格式的报告来去做语义的抽取和智能的问答。还有呢,在客服和支持的自动化场景里面啊,自己去理解用户的问题,然后呢,结合文档去生成专业的回答。 那整个框架采用了模块化的架构,融合了多模态的预处理,语义向量的缩影,还有智能的召回和大语言模型的推理,勾现起这种高效可控的文档问答流程。 那从技术角度来说呢,它主要的开发语言呢,是勾浪前端呢,采用的是 v o e, 支持 python 的 扩展。开源协议呢,是 mit 的 协议,在商用方面呢,也非常的友好。 web voice 呢,是微软开源的下一代的文本转语音 t t s 框架,它的核心目标啊,不是把一句话念出来,而是呢,去生成完整的对话,播客,还有长篇幅的内容,听起来呢,更自然有角色的区分,节奏呢,更流畅的音频,相比传统的那种一个机器人在那自己念稿, webvoice 呢,更像是用 ai 来去实现一种真人的播音员加编辑室。 webvoice 的 特色能力呢,包括了这种长音频的合成,多角色的支持,还有自然的对话流,以及呢,实时的低延迟的 tts in chinese, when you want to say something is super easy, just a simple task you can use the phrase。 小 菜一碟。它支持了多语言的混合生成,而且呢,在项目的视利典上还结合万二点二去做了 ai 的 播客, 那这个呢,其实是一个非常直观的一个视力啊,如果你想自己做这种视频的播客,那就可以参考一下这个例子,如果想要试用一下实际的效果呢,可以下载项目来去安装一下,也可以啊,到 call lab 上面去试一下效果。 当然呢,别拿它直接去跟商业级的全语种的智能这种播报系统来去对比,因为目前来说啊,核心还是在科研和开发工具的角度,重点呢还是在自然的长对话和多角色的一致性这两个方面,如果想要深入使用的话呢,那建议还是自己去做一些深入的调优和开发。 cloud map 呢,是一个专门为 cloud code 构建的插件和持久记忆的系统,它解决了 cloud code 在 不同的绘画之间啊记不住上下文,每一次呢都需要重复的去讲项目背景的一个痛点,它能够自动的去捕捉呢 cloud 在 编程过程当中的各种操作,比如像工具的调用啊,代码的变更啊,对话的片段, 用 ai 呢去生成羽翼的载药来去保存下来。并且呢在后续的对话当中啊自动把相关的上下文去注入回去,可以直接通过 cloud code 的 plugin 呢来去安装,或者呢也可以下载项目来去手动的安装。 那它的核心能力呢,就包括了持久化上下文的存储,还有渐近式的记忆解锁,自然语言的历史搜索,还有 web 的 查看以及 ui。 另外呢也要提一下啊,这些能力的构建呢,也是要有一些额外的资源的,比如像一些额外的内存的存储,还有解锁层的向量数据库和 circlip 的 缩影, 以及呢合理的上下文的注入策略。它让 cloud 呢从原来啊每次见面都要重新自我介绍的开发实习生就可以变成啊有经验有记忆的开发老牛马。 那 zurebit 呢,是一款备份的自动化工具,它能够帮你啊跨多个存储后端去保存数据,它基于 rustic 去构建,提供了一个现代化的外部界面,用于呢去安排管理和监控远程存储上的加密备份 启动的时候呢,可以通过项目给的刀客 compose, 但是要注意一下啊,这里需要区分你是否要使用远程挂载,差别呢就是是否要开启 system 密和 field 设备。 zebra 呢,支持多种后端的卷,包括了像 n, f, s, s, m, b, webbed 和本地的目录。那你可以在 web 的 页面当中啊去操作各种添加的动作。 如果你想要追踪啊 zebra 所运行的服务器上的本地目录,那你就需要将这个目录呢挂载到 zebra 的 容器当中, 也就是呢,在刀客 compos 的 文件当中去做一些修改映设点。还需要注意的就是啊, zebra 目前呢还是零点几的版本,那版本之间呢,可能有比较大的改动, 特别适合那些愿意折腾的玩家来去尝试一下。 jellyfish desktop 呢,是 jellyfish 的 桌面客户端,那 jellyfish 呢,可以说是大名鼎鼎啊,它是一款完全开源免费的媒体服务器,用来管理和播放啊,你的小电影啊,电视剧啊,音乐啊等等啊本地的媒体。 它支持呢多端的访问,像网页啊,手机,电视啊,桌面,而且呢不需要花订阅的费用,也没有账号的绑定,非常适合那些自建家庭 nas 的 影音用户的需要。 jellyfish desktop 呢,就是用服务器提供的 jellyfish web 作为界面, 同时呢在应用里嵌入了 mpv 的 播放器,实现网页 ui 加原声播放器的同创播放。支持呢 windows, macos 和 linux, 并且呢支持音频的直通 release 里呢,你就可以下载到各个平台对应的安装包,那它的开源协议呢,也是 gpt 二点零,也是比较友好的, 那这个东西我觉得就很直接了,如果你是 nars 党的话,那完全可以去试一下。 cosmek 是 下一代的 linux 桌面环境,你可以在最新发布的 popos 上去体验一下。 cosmek popos 呢,是基于无斑图的 linux 发行版,一开始呢,它的特色呢,就是可以定制的这种桌面环境。 你对于 linux 的 印象是不是还停留在黑屏的命令行操作?其实服务器端的 linux 啊,大多数为了性能啊,确实是不装 gui 的。 但是呢,桌面版的 linux, 其实这些年啊,它的桌面做的是越来越漂亮了。 cosmix 呢,就是提供了高性能的,高效率的,还有个性化的功能,可以满足啊你在各种不同场景下的需求。项目列出了目前 cosmix 桌面系统的组成部分,如果你对 linux 桌面组建啊比较感兴趣,或者想学习一下 ui 系统的工程化呢,都值得去逛一下。 那最后呢,还是分享两份资料啊,第一份呢是生成式人工智能零售行业全景观察被逼书,这个呢是德勤出的一个报告, 也是调研了很多啊,连锁零售企业报告里呢,也给出了很多企业在人工智能方面的一些实践分析。那第二个呢,是人形机器人生态报告,这个呢是上海财经大学啊,数字经济研究院的一个报告, 以具身智能啊,在技术、产业和市场应用等角度的生态化为基础,针对人形机器人这个大的方向呢,做了一个观察和研究,那有需要的呢可以告诉我。以上呢就是本周的全部内容,那我们下次再见。

兄弟们,这是腾讯开源的一个企业级 app 应用,有别于传统做法,它把 app 和 agent 融在一起,真正实现了 agent。 具体怎么用呢?你可以打开它的 web ui, 先创建知识库,然后上传文档、图片或提供网页链接,系统会自动提取内容,切块向量化并建好锁影。接着按需配置 m c p 服务器,接入本地或外部工具,同时开启网络搜索。 准备工作完成后,就可以在界面上提问了。他不会草率回答,而是进入一个多轮推理过程,根据问题需要动态决定是否解锁知识库,调用工具或查询网上信息, 如果中间发现偏差,还会自我反思,调整方向,最后才生成回答。为了不漏掉关键信息,他的解锁不依赖单一方式,而是采用混合策略,将关键词语、意向量和知识图谱剪辑结合,提升照回率。 另外,无论是模型推理参数,还是分块策略或解锁域值,甚至兜底机制,都可在界面上自由配置,从而使整个问答过程不再黑河。 这个项目采用 mit 协议,支持完整的本地私有化部署。我是小聪,每周分享几个有用的 ai 开源项目,带你发现更多 ai 黑科技。

用 vivo 三点一,如何生成高质量的带货视频?第一段,我们输入这个提示词,外加你的产品图片,接着我们会得到一段提示词, 接着我们把那个得到的分镜脚本下面发这段话,然后严格按照什么上述提示词,然后生成一张分镜图,然后接着我们会得到一张这个三宫格的分镜图,然后我们再让 nasa 帮我们把每一张照片提取出来,然后要求九比十六 提取完照片之后,我们每个分镜对应每个脚本,然后去上传提示词,然后大家看我截图的这个提示词啊,不要把那个什么上面什么乱七八糟的粘贴上就粘贴,最简单的 就是什么动作什么呃,那个口播就行,不要搞的太复杂。然后我们会得到三段视频,接着我们去剪辑一下我们得到的视频,就是下面这样, okay, real talk i used to be terrified of whitening strips, i wanted bright teeth so bad, but the sensitivity pain absolutely not worth it so i just kept hiding my smile, but then i found the cheat code the purple strips from dr dent they are 100 percent archaic briocheens seriously enamel face and bureau sensitivity i'm finally obsessed with my smile again you guys have to try that 嗯,然后最后我讲一讲我这样做的一个思路啊,嗯,我为什么没有去用延时针来做视频呢?延时针做视频,它仅 他只限于一个场景里面长的比较口播,就比如我一个口播,然后我在同一个场景,他仅限于这样的你,如果像多场景,多角度啊,什么多测评,各种场景来做的话,就这样做是就是最稳妥的办法,知道吧?我个人认为啊,并不,我不一定说是可能有人比我做的更好,对不对?就是我个人认为, 我感觉就是按照这个方法来做的话,基本上任何产品你都可以去做,知道吧?而且就是这个成功率啊,什么抽卡率啊都会特别低。你如果用延时针,你只能做单一场景口播,就像我现在这样,我总不能说,说着说着话我跑去测评了,对不对? 还有一些细节,就是比如说像音色呀,音色这个东西呢,你你给他详细的描述,每一段就是提示词,你给他加一个详细的描述,这个音色他就会有个百分之九十像,就,但是他不可能百分之百,知道吧?除非你去这个重新配音啊,就像我现在做的话,我就去重新配音,我不去做这个。呃,音色描述,因为音色描述的话,他就算描述的特别详细,他也会有一丝就是出错,知道吧? 还有生成的视频不止局限于二十四秒和这个三宫格啊,你就是做二十四分镜,然后你做一百秒,然后你按照每个片段这样填,也可以啊,我只是提供一个思路啊,不要太死板,不要觉得就只能做二十四秒,然后只能做这个三三个镜面的,对不对?你做二十四镜,你每个提取出来,你也可以就是一个一个做拼接吗?对不对?

hello, 大家好,今天给大家带来的驱动云社区项目是 eclipse soprano 八零 m 即时超逼真的文本转语音。目前这个项目的模型、镜像、算列规格都已经准备好了,只需我们点击右上角运行一下项目名称可以进行修改。点击确定, 取消勾选可以避免工作空间出现重复的数据。点击确定此时项目正在克隆中,会克隆到我们自己的工作台,以后就可以直接在我们的工作台使用了。 算力规格也选择好了,合适的也可以根据自己的需要进行修改,不建议修改为比官方配置小的规格哦。点击立即运行 在右侧的状态栏可以看到项目启动状态,当运行状态显示运行中,即可进入开发环境。在开发环境的 gemini code 目录下找到使用说明, 选中使用说明下方一键启动的单元格,点击运行等待。加载出 local url 即可。添加端口,点击端口,添加端口,输入七八六零用途可自行填写。 点击确定。添加完端口后会生成一个外部访问链接, 复制链接到浏览器打开即可。这里就是这个项目的 web 界面,等待模型加载完成即可开始体验这里测试生成第一段简短的音频, welcome to kwon cloud technology 这是段 ai 生成的英文诗, beneath the hush of twilight's fail, where stars begin their ancient tale, the winds sing soft through fields of gold of dreams once lost and tales retold the moon ascends with silver grace, a lantern in the night's embrace, it watches over the sleeping earth a source, sorrow's birth 目前该模型只支持英文,我们的演示先到这里,使用完不要忘记关闭开发环境哦。如有新增包和依赖,可以先保存环境, 环境可以保存为临时镜像和标准镜像,最后点击停止并销毁即可。更多效果极有趣的项目可在驱动云公众号查看。

哈喽,朋友们,我是阿水,这段时间呢, gm 三真的太火了,都在用 gm 三生成网站,然而你们用的 gm 三生成的网站是这样的,不够有设计感,视觉层次效果比较差,依然感十足。而我生成的是这样的,排版精致, 科技感十足的网站。这期就来分享我正在使用的工作流,用它可以快速的创建出精美的网站页面,并且是免费使用。这期真的干货满满,赶快给博主点个关注吧。同样呢,我们先是打开 a s do do, 点击 webcode, 同时呢,我们也打开 red box 和 twenty west, 这两个是非常好用的交互式的前端样式组件库。那想要网站的同学可以在评论区直接找我简单介绍一下。这两个网站中 组建种类特别的多,而且使用起来也非常的简单。点击左边这些,你看 background 的, 我们就可以直接丢给 jimmy, 让他帮你生成一个网站背景。 大家刚看到我自己用的就是这一个背景,有非常多的可以选择看看,这种交互感是非常的强,于是乎你就可以轻松生成你自己的精美又有设计感的网站了。那我先用背景做一个案,例 如这次我们用这个背景,我们直接 copy pro mod, 然后我们就直接复制粘贴给 gmail 三,不需要添加任何的提示字,直接开始生成, 这样我们的背景就很快生成了,是不是特别的简单?再比如说,我们需要修改主标题文案呀,大小字号这些,我们直接可以说修改主标题,将这个文案更换成阿水耶耶说文字大小调整为一百四 p x, 嗯, 对,这就好了,是不是特别的简单,我们可以用上面讲到的这些方法来生成其他的组建,真的是生成出来的页面,方便又好看。好了,今天的分享就到这里,想要网站的同学在评论区找我哦,然后大家一定要记得点赞关注评论,我是阿水,我们下期再见,拜拜。


今天这个视频将教大家如何从零到一,搭建一个属于自己的 wordpress 独立站。如果你也想学习如何搭建独立站,这个视频一定要点赞收藏起来。 本期视频主要是带大家完整展示部署 wordpress 的 全过程,即便你是零基础小白,只要跟着视频一步步操作,也可以快速搭建出属于自己的 wordpress 独立站。 废话不多说,我们直接开始。首先需要购买一个服务器,所谓的服务器,你可以把它理解为网站信息的存储空间, 网站上的图片、文字、视频其实都是存放在服务器里的,每当用户访问网站时,服务器就会把这些内容快速调取并展示出来,从而保证网站可以正常浏览和使用。这次我们使用的服务器是 siteground, 一方面是因为它整体比较稳定,另一方面是操作门槛相对较低,更适合新手上手。当然,市面上也有很多其他服务器选择,比如国内的阿里云、腾讯云,国外的 hostinger、 godaddy 等等,每一家都有各自的亮点和优势, 具体选哪一家,大家根据自己的实际需求来即可。整体的网站搭建流程其实都大同小异,打开 siteground 官网后,点击上方 world commerce, 也就是一个自带 wacom 插件的 wordpress 服务器。 wacom 是 目前使用非常广泛的 wordpress 电商插件,后面我们会详细讲这里先选它就可以了, 即使后面不用,也可以随时卸载。进入下一页后往下拉会看到三个套餐,月费在二点九九到七点九九美元之间。需要注意的是,这里显示的是月费,实际支付是按年付的,如果你刚开始想低成本尝试直接选二点九九美元每月的就可以了,年费折合人民币两百多。 三个套餐都支持三十天退款,而且即使选了最便宜的套餐,三十天内也可以补差价。升级。三个套餐主要区别在于服务器的内存和性能,看得懂的话按需选择,看不懂的话直接选第一个就行,后面随时都能升级或退款。确定后点击 select plan。 接下来是填写域名,也就是你的网站网址。 side ground 的 年付套餐会赠送一个一年期的域名,如果你还没有域名,直接在这里输入你想要的即可。建议优先选择点 com 后缀,因为它的权重更高,受众也更广。 如果你已经有域名,点击上方 existing domain, 填入自己的域名,后续再进行绑定即可。填完域名后进入资料填写页面。 email 填你的邮箱,后续登录 siteground 都会用到。建议使用 gmail 或 outlook 这类海外邮箱。 password 设置登录密码, 下面再输入一次确认,然后是填写个人信息,名字和姓氏用拼音即可。国家选择 china, 城市地址,邮编按实际填写电话记得加上八六公司信息,填不填都可以。接下来是填写信用卡信息,用于支付, 如果你没有 visa 或万事达卡也没关系,可以先随便填写,等支付失败后再联系客服申请使用配票支付。 我这里就先随便填,方便一会儿展示。填完支付信息后,需要选择服务器地区,这一步比较重要,比如你是做美国市场,就选择美国的服务器。如果是做亚洲市场,比如新加坡、香港、台湾等地区就选择 asia singapore, 原则很简单, 目标用户在哪儿,就尽量选择离它们更近的服务器位置,这样访问速度会更快。后续也可以通过 c、 d、 n 进行加速。下面的额外服务这里先不选,有需要的话后面也都能加, 直接拉到最下面,勾选两个选项后提交即可。提交后,如果支付成功,会直接跳转到后台,支付失败的话就会弹出失败提示, 同时会附带一个客服入口,因为我想使用 paypal 支付。出现失败提示后,点击 customer service team 就 能进入到客服窗口,用英文告诉客服你想使用 paypal 支付并提供注册邮箱,客服随后会给你生成一个 paypal 支付链接, 通过链接完成支付即可。因为我之前已经买过 sideground 的 服务器,这里就跳过支付过程。支付完成后,点击 websites 就 能看到已创建的网站列表。 点击 wordpress admin 就 可以进入该独立站的 wordpress 后台。后续关于 wordpress 的 大多数操作都会从这里进行。如果是新建网站,第一次进入后台会出现首次设置向导,可以直接点击右上角 exit wizard 跳过,也可以简单跟着流程走一遍。网站类型随便选, 主题风格选一个你喜欢的即可。插件和营销工具如果不熟悉,建议先不选,后面都可以自行安装。 设置完成后进入 warcraft 界面,这时你的独立站就已经完成了首次部署。如果觉得英文不太习惯,可以在 settings 的 general 里把 site language 改成中文保存即可。此时打开你刚刚设置好的域名,就能看到属于你自己的独立站了, 是不是会有一种莫名的成就感?当然这只是第一步,后面我还会继续教大家如何完善设置,最终搭建出一个真正可以使用的独立站。关注我,零基础也能做出自己的独立站。

当多 agents 系统需要真正推向生产环境时,会遇到很大的挑战,让这个复杂的系统在七乘二十四小时的高压环境下稳定运行,难度是指数级上升的。 今天我们来分享 anthropic 在 这方面的工程经验,看它们是如何解决断点续传、无感监控、热更新以及异步并发这些硬核工程难题的。首先,我们要探讨智能体系统最核心的工程难题,脆弱性与状态管理。在传统软件中,如果你改了一个按钮的颜色, 通常只会影响那个按钮。但在智能体系统中,你可能只是微调了 prompt 中的一个标点符号或者 a p i 返回的格式变了一点点。这可能会导致 a 阵突然性格大变,他可能不再调用某个关键工具或者陷入死循环。这种微小改动引发巨大行为差异的现象 让代码维护变得如履薄冰。更糟糕的是, a 阵是高度有状态的,普通的 web 服务通常是无状态的,处理完一个请求就结束了一个深度的研究型 agent, 他的任务可能要跑几十分钟甚至几小时。在这个漫长的过程中,他需要维护几十轮的对话历史、 中间变量和推理过程。这就意味着错误是会累积的。 a 阵在第三部的一个小误判会成为第四部的前提,导致第十部得出完全荒谬的结论。面对这种脆弱性, cloud 团队提出了两条铁律来保障可能性。 第一条铁律绝不重启。在 agent 世界里,重启是极其昂贵的。花了几美元让 agent 跑了二十分钟的研究任务,就在快出结果时,因为网络抖动报错了。如果这时候系统自动重置,用户不仅会感到沮丧,你的 token 成本也会直接翻倍。 所以, anaerobic 构建了一套强大的断点续传系统,他们必须将 agent 每一步的状态,包括记忆计划、已完成的步骤都序列化并持久化存储。一旦发生故障,系统会读取存档,从报错的那一毫秒继续执行,而不是从头开始。第二条铁律,利用 ai 进行自愈。 传统程序遇到 api 报错,通常会直接抛出异常并退出。 anaerobic 做法是,工具报错时不抛异常, 而是把错误信息喂给 agent。 刚才那个搜索工具报错了,错误码是五百,他会思考,哦,这个工具挂了,那我换个参数重试一下,或者我改用另一个工具去查。 这种让 ai 处理异常的策略,配合传统的重试逻辑,让系统的稳定性提升了一个台阶。系统跑起来了,但这只是开始。如何调试一个不可预测的系统。原文提到,用户经常反馈说 agent 找不到明显的信息, 工程师很头大,是因为搜索词写错了,还是信缘太差,还是工具挂了?因为 agent 的 行为是非确定性的,你很难在本地复现这个问题, 这就需要全链路追踪。但这里涉及到一个极其敏感的问题,用户隐私。你不能为了修 bug 就 去偷看用户和 agent 聊了什么。他们提出了一种只看股价不看血肉的高层级可观测性方案。这就像是交警监控车流, 交警不需要知道车里的人在聊什么天,这是用户隐私,也不需要知道后备箱装了什么货,这是具体内容。交警只需要监控驾驶行为,这辆车是不是逆行了?是不是超速了?是不是在原地打转?对应到 agent 的 系统,工程师们监控的是决策模式和交互结构。 agent 在 这一步是决定搜索还是思考 他是否陷入了死循环?连续五次调用同一个工具,指挥官派生了几个子智能体,是三个还是五十个?任务是成功了还是报错了? 通过监控这些结构化数据,工程师就可以在完全不接触具体对话内容的前提下,精准定位逻辑故障,解决了调试问题。我们再来看看部署。由于 agent 的 任务运行时间很长,代码更新会遇到挑战。想象一下,你发布了新版本的代码 v 二, 而旧版本的 agent tv 一 还在跑任务。如果直接替换代码,新代码可能无法兼容旧任务的内存状态,导致正在运行的任务直接崩溃。 为了解决这个问题, interpublic 采用了一种叫做彩虹部署的策略。简单来说,这种策略允许系统中同时存在多个版本的代码 v 一、 v 二、 v 三并行工作。就像彩虹有多种颜色并存一样,我们的系统里也同时运行着多个版本的 agent。 这时候可能有人会问,这不就是我们熟悉的蓝绿部署吗? 为什么要发明一个新词叫彩虹部署?这里的区别非常关键。传统的蓝绿部署通常是为了快速切换,一旦流量切到了绿色版本,蓝色的旧版本很快就会下线。但在 a 阵的系统中,任务可能要跑几十分钟甚至几小时。这意味着 v 一 版本和 v 二版本必须长期共存, 甚至当你发布 v 三时,可能还有极少数 v 一 的超长任务还没跑完,系统会执行严格的绘画年制。只要一个任务是用 v 一 版本代码开始的,无论他跑多久,系统都会确保他全程使用 v 一 代码,直到结束。 只有新进来的用户请求才会路由到 vr 版本。这种温和且长周期的流量切换,确保了在频繁发版的同时不会打断任何一个长城任务。最后,我们来详细讲讲 cloud 团队在文末重点提到的未来方向。亦步直行,目前的多智能体本质上还是同步的,这意味着什么呢? 指挥官派活给了三个工人, a、 b 和 c。 在 同步模式下,指挥官必须阻滞在这里傻傻的等待,哪怕 a 和 b 早就干完了,只要 c 还在慢吞吞的查资料, 指挥官就不能动,整个系统就得等着,这就造成了巨大的性能瓶颈。在等待期间,指挥官的算力是闲置的,系统的吞吐量被最慢的那个节点锁死了,而未来的架构将是异步的。在异步模式下,指挥官变成了非阻塞的管理者, 他给 a、 p、 c 派完活后,立刻就可以去处理别的事情,或者去响应用户的其他请求。当工人 a 完成任务时,他会发送一个回条信号给指挥官,老板,我干完了,这是结果。指挥官收到信号后,再回过头来处理 a 的 结果。这种架构将带来两个巨大的优势,第一,极致的并行, 工人们不仅可以并行工作,甚至可以地归地派生自己的子工人,而完全不阻设主线成。第二,更高的资源利用率,指挥官不再需要空等。但是 antropypy 也诚实的警告,异步架构会带来极高的工程复杂度。最难的是状态一致性, 比如工人 a 的 发现可能推翻了工人 b 的 任务前提,在同步模式下,指挥官可以立刻叫停 b, 但在异步模式下, a 和 b 都在独立跑。 如何实时同步状态,如何处理静态条件,如何让报错信息在复杂的异步练路中正确传递,这些都是这一代工程师需要攻克的难题。但随着模型能力越来越强,为了追求极致的性能,向异步架构引进是必经之路。至此, 我们完成了对 antropics 这篇技术博课的完整精读。从第一期的搜索及压缩原理,到第二期的指挥官工人架构,再到第三期的提示词、工程新法,以及第四期的评估方法论,最后到今天的生产环境挑战。构建一个真正的企业级 agent 系统 绝不仅仅是写一个 prompt 那 么简单,它是一项极其复杂的系统工程,需要我们在算力、成本、响应速度、结果质量和用户隐私之间作出复杂的权衡。但正如文章所言,尽管困难重重,但多智能体协助 无疑是通往更高智能的必经之路。好了,本期视频就到这里,如果对您有用,欢迎一键三连!

开源一个月时间不到,就在 tiktok 上狂砍超过三万颗 stars, 热度甚至超越了 cloud code。 openai 联合创始人卡帕奇胜战,这是迄今为止最实用的智能体,更有无数人因为想要本地部署这样的一个全能型的智能体,掀起了 mac mini 的 购买热潮。这就是今年第一个现象级的 agent 的 开源项目, cloud bot。 无论你是想进行浏览器自动化,进行 ai 自动编程,还是想围绕复杂的数据进行自动数据分析、报告编写,还是简单的日常辅助工作,甚至是接入智能家居,一键调整光线色温, cloud bot 都能帮你完成。 甚至我们还可以借助一些计时的通信软件,如苹果的 imessage, 就 可以在手机端直接和你的 cloud bot 实现远程的对话,安排执行项目的 pr 自动 bug。 此外, cloud bot 还拥有无限对话上条纹记忆,并且能够自由加载各类 agent 的 skills, 快 速学习新技能。不仅能够灵活调用 cloud code codex 作为其基础编程工具,而且还支持接入各类设备作为节点,例如接入麦克风、摄像头、捕捉音视频等等。怎么样,是不是非常的酷炫? 并且最关键的是,根据一段时间的使用体验啊, cloud fold 不 仅是一个功能完善、性能前沿的全近代智能体,而且运行稳定,各项参数设置非常完整,是一项完全能够应用于工业级场景的高性能智能体。也难怪会有用户感慨啊, cloud fold 或许就是我们期待已久的 ai 数字员工。 无论呢,你是想拥有这样的一个专属的贾维斯,提升工作效率,还是正在学习 agent 开发?想要了解最前沿的 agent 开发理念和功能设计, craftbot 都是不可多得的高价值项目。因此,本期视频我就带你快速了解 craftbot 的 核心特性、整体项目架构,同时手把手带你本地部署这项高性能的智能体。 关键提醒, craftbot 虽然很好用,但部署起来会有那么一丢丢的难度,这也是为什么报导 craftbot 的 多而实际教部署教程的少。 而老师们也是通宵跑通了整个项目的本地部署,外加移动设备远程连接的完整流程,看在老师们辛苦加班的份上,还望大家多多三连支持。 本期视频文字版部署教程各项软件包以及 cutbot 项目源码都已经上线至复范大模型,进入社区大家扫码即可领取。 cutbot 是 由前 ps pdf kid 创始人,自称是退休程序员的 peter stenberg 开发的一款开源的个人 ai 助手, 它最初的理念是 cloud with hands。 长了手的 cloud 与叉 g p t 和 cloud 网页版不同,它不是运行在浏览器的网页,而是运行在你自己电脑上的一个后台应用,拥有极高的隐私安全性,并拥有操作你电脑的权限。你可以将其想象的是一个成熟的 computer use, 能够运行命令行,并在沙盒环境中运行代码,同时还能够操作浏览器文件夹等等。不过呢,这些功能都是上一代 agent, 也就是 manas 时代通用智能体的功能了。相比之下, cloud bot 还拥有如下更先进的功能特性。首先, cloud bot 拥有一个非常强大的网关系统, 这不仅仅是一个简单的 api 转发器,这是一个协议无关的编排层。什么意思呢?简单来说, getaway 的 核心职责是维护一个实时通道, 论你是通过终端页面 web dashboard, 还是通过 imessage 远程发送指令,在座位都能够瞬间将这些易购的信号标准化,并维持一个统一的绘画状态。这就是为何很多用户热衷于使用 mac mini 作为 cloud boot 的 服务器的原因啊。一方面是想拥有一个个人专属的七十二小时随时待命的 ai 助理, 而另一方面则是在 mac 的 生态下,可以用手机甚至 apple watch 通过 imessage 和远程 chatbot 进行对话,而无需额外安装任何插件,非常的便捷。 除了网关系统, chatbot 还拥有无限对话、上条纹和持久记忆。整个系统借助于 saw、 tools、 user、 session 四层记忆,构建了一个完整的高性能上下文工程。其中 saw 是 智能体的底层系统,指令是 agent 不 可变的内核, 而 tools 则是动态的工具注册列表,在有需要的时候就会灵活地注入当前环境可用的 api 来实现工具调用。而 user 则是基于语义向量的长期记忆库, cutbook 会在交互过程中自动提取你的偏好、习惯甚至是代码风格,从而实现越用越聪明,越用越懂你的底层功能。 而 session 则是实时的情景记忆。 touchbolt 引入智能上下文压缩和滚动机制,能够不断读取有价值的信息带入本次对话当中。不得不说啊,这是一套非常先进的长短期记忆管理系统和上下文工程,值得所有开发者学习。 而最重要的是, touchbolt 还拥有一整套 agent skills 功能体系,不同于 mcp 是 让 agent 更高效调用工具。 agent 的 skills 呢,则是直接能给 agent 的 传输能力。 例如,当我们加入了 apple notes 这个 skill, 就 能让 cloud bot 拥有读取、操作、编辑苹果便签的全部能力。而如果是加载了 bird, 就 能够自动地帮你搜集、整理推特信息,或者帮你自动发送推文。 github skill 能让 cloud bot 学会操作 github, 帮你审核代码、合并 pr, 而 coding agent 则能让 cloud bot 学会使用 cloud code 和 code 进行编程。而类似的 skills 在 cloud bot 中集成了上百种制度啊,用户可以按需安装。 除此之外, cutbook 还支持完整的多模态应用,并拥有钩子系统、插件体系、跨平台步数等各项能力。 由此也能看出,这个项目的野心绝不仅仅是退休程序员做的个人 ai 助手,而是 agent skills 和 ai 编程时代下超越 manas 的 全新一代通用智能体。更多关于全新一代智能体开发的核心技术讲解,也欢迎大家扫码加入复返大模型技术社区进行免费学习!

昨天花了几十分钟装了那个火爆全网的大龙虾智能体,也就是 modbot, 又把它接入了飞书。在与跟周公约会之前呢,我想让他干点啥,想了半天想到一个主意,就是让他从零开始给我搭建一个 wordpress 独立站,包括部署那么环境、 下载源码配置插件、域名解析等等。结果他最终真完成了这份工作。我处理好域名解析之后就能访问了。接下来我打算让他继续测试,看看他能做到什么程度。 看这是他按照我要求安装的 seo 插件, 不过电商页面还有点问题,我再让他修复。 关注我,跟我一起等待他的成果吧。

啊,在我们日常的工作和生活中呢,越来越多的订阅服务成为我们日常的一部分,比如说啊服务器啊,域名 啊,合成云服务等啊,当然随着服务的增多呢,我们很容易忘记续费日期啊,造成服务的中断或者是 不必要的麻烦啊,为了帮助我们高效的管理这些服务的生命周期,我们今天分享就是用刀刻来部署一个 到期提醒服务,叫 renew hyper 啊,我们看一下我这边部署的一个实力啊,这边呢就是分布式云资产全周期托管证书啊,这边有服务总数啊,即将到期啊以及过期。然后这边的话就是我们啊自己的服务啊, 比如说我之前那个有一些免费的域名啊,他需要提前一百八十天进行啊,手动啊,续签啊,我们就可以啊,直接提交在这上面,然后到时候提前会给我们啊微信上发通知,然后这边是域名的一个服或者是服务器啊, 啊,就是这样一个服务啊,然后或者你啊其他服务或者想提醒的都可以在添加到上面,然后这边是啊立即检查,然后这边是我们新增某一个服务啊,这边我们填上我们服务的名称啊,然后打个标签, 然后你这个啊付费。这个一个周期是一个什么样的一个模式,比如说循环停运或者是到期啊,收到重置啊,这边呢是选择啊周期的时长或者是农历的日期都可以啊, 然后这边填上我们这个日期啊,然后这边就会显示了,然后这边可以添加一个备注,然后这边呢就是提前多少天啊,给我们提醒啊,这边可以自定义进行配置 啊,最后点击保存就可以了,然后系统设置呢,这边就是我们限号设置,这边是市区啊,我们选择我们适合自己的市区啊, 然后这边是推送的一个方式啊,包含这些啊,这个电报或者是屏幕 ios 可以 使用这个 bug, 我 这边的话主要就使用这个又使用的 bug, 还有就是啊 pos plus 微信推送啊,其他话就根据自己的需求啊,这边还有一个日历订阅功能,主要就是苹果用户可以尝试一下,然后其他的话就没有什么可介绍的,主要就是单纯的提醒业务, 然后我们具体看一下怎么来部署,然后我们部署方法的话,我们可以按照官方的这个 cloudfly 的 方式啊,这种方式呢是不用服务器的啊 啊,我们直接按照官方的啊步骤啊,一步一步进行操作就可以了,今天这个教程我们主要就是演示使用 dk 的 方式,这样我们就可以在我们自己的设备上进行部署啊,我们首先是需要准备一台服务器的啊, 然后啊这个容器呢占内存大概是不到一百兆啊,这个可以作为一个参考,然后我们如果有需要服务器的,可以点开这个莱卡云官网, 点开以后我们可以选择产品服务,这边选择我们一个适合自己的服务器啊,比如说我们选择一个中国香港的 b g p 服务,或者是国内的一些服务器都可以, 然后有兴趣的可以过来了解一下啊,然后这个呢就是这个开源项目的一个地址啊,然后目前只有一百五十六 s 档,我们自己使用的话可以给他绑定个域名啊,这样更安全啊,然后我们啊直接啊登录好我们这台服务器啊, 然后我们服务器上需要有 dock 和 dock comos 这个环境啊,我们就可以使用这个一键安装脚本型安装,然后安装完以后,我们就啊直接从这个部署命令这边开始啊, 我们直接啊新建一个目录并进入到这个目录中,然后我们再新建这个 comos 文件, 然后直接输入字母 i 啊,进入编辑模式。然后这边那个啊配置的话也比较简单啊,主要就是这个冒号左边的九七八七是默认的一个端口啊,我们如果被占用呢,可以更改成我们自定义的端口啊, 然后这边就是数据持久化,然后这个呢就是我们登录的默认密码,这个可以自定义修改,然后演示的话就直接来粘贴一下, 然后我们 esc 啊冒号 wq 啊保存并退出,然后再执行啊容器运行的命令。 好,我这边是已经啊拉取过镜像了,所以说直接就运行成功了,我们可以看一下。 好,目前呢这个容器是正常运行的,然后我们可以啊看一下这台服务器的 ip 啊, 然后我们直接啊复制一下。好,我们直接啊输入服务器的 ip, 加啊九七八七端口就可以登录了,试一下 啊,然后这个服务就搭建完成了,我们就可以啊添加我们各种啊订阅式的服务,然后防止我们那个各种服务到期啊,然后呢飞云 nas 上也是很简单啊,就更复制一下我们刚才这个配置, 然后直接啊启动啊,启动完拉取完镜像自动启动以后啊打开也是这样的啊,然后如果说你想绑定域名呢,可以参考我之前那个教程啊,这边的话分享一下简单的一个使用方法。这边就是刚才介绍的啊添加服务。 然后这边啊通知方式呢,我们建议 ios 设备直接使用 bug 或者是微信的 pos plus 啊,这个的话目前是需要实名,并且支付一元就可以使用,然后其他的话我们就 根据自己的需求啊进行配置就可以了,然后整个啊配置方法也比较简单啊,然后有什么问题的可以在我的评论区给我留言。好了,那今天的分享呢就到这里,谢谢大家。

视频,我们来看到 ltx 二人物 lowr 的 训练, ltx 二是一个可以进行音画同步生成的模型,我这里复刻的是,莫非非常有趣? we go east stand aside stop hiding, 可以看到在保持人物一致的同时也保持了音色的一致。我这里使用的工具是 ai two kit, 这个视频我将分享适用于四零九零、二十四 g、 四十八 g 和五零九零这样消费级显卡的训练参数调整,以及线上一键启动镜像的分享。我这里使用的是优云智算平台, 找到对应的镜像,点击部署指令往下拉,复制启动指令。对 ltx 二的选存和六十四 gb 的 内存, 租用二十四 g 的 四零九零是没有问题的。可以进行五幺二分辨率的训练,我这里选择去跑一零二四分辨率的,租用五零九零也是一个比较有性价比的选项,那么算力的话会更强,而且跑一零二四的分辨率恰恰是可以的。点击立即步数, 进入控制台十一列表,等待一下。那么出了这个 gdp 之后呢?我们点击进入 gdp, 找到启动指令,或者说我们刚刚已经复制过了,粘贴过来,回车 出了地址之后回过来点击 ai to kids 就 可以直接进入到我们的训练界面啊。在训练的队列当中呢,有三个预设,分别对应了四零九零的二十四 g、 四零九零的四十八 g 和五零九零。点击训练集,点击新建训练集, 简单设置一下名称,点击创建,点击添加图像,尽管这个地方写的是添加图像,我们依然可以去添加视频。视频的帧数所遵循的规则应当为八 n 加一帧, 帧率呢为二十四帧每秒钟,格式就是我们这个最普遍的 mp 四格式,运行良好。那么这个字幕标签呢,应当怎么去填写呢? 可以以我为例,我这里是跟 tokyo 的 官方对齐了的一个名字叫做汤姆希尔比的男人站在呢一个房间当中呢,说什么样的话用引号呢?给它标起来应当是这样的一个简单的要求,非常接近于我们 e r t x two 进行推理的时候的题日词的格式。 在每一个标签当中,我们都重复的一段文本是什么呢?是一个名字叫做汤姆希尔比的触发词, 可以通过这样的一个在二十个训练级当中重复出现的短语来锁定为我们的触发词。而建议去使用英文,因为像这个 jama 的 话,识别英文还是会更好一些,尽管他也可以去识别中文。 我这里是做了音频和视频的同步训练, this place is dead。 这个地方我除了人物长得很像之外,它的声音也是很像的。 训练的视频可以不包含音频。如果我们想要黏着音频一块去训练呢?我们得确保我们训练当中有音频标签呢,不一定也要做成 txt 文档呢,再进行上传。我们可以直接在这个地方手打 一样奏效。那么这个地方总结一下,视频需要一百二十一帧,二十四帧每秒钟,至少在我提供的可以在消费级显卡上运行的预设的要求是这样的,提日词遵循 l t s two 的 推理规则,我们就进行标签的填写。 训练级这个地方要做足文章,如果不想进行更为复杂的参数的调节,我们只需要我这里租用的是五零九零。 进入更换一下训练集,比如说这个,然后更新一下任务,点击运行就可以执行任务了。在三张卡上我都已经跑过了,前面的这个名字呢,并不会影响我们诺尔模型的实质,但是如果想改这个名字的话,我们可以直接复制一份,这样就可以改名字了。 切一下训练集,再次开始训练,那么这就是训练的快速启动。我的预设下,每一百步就会保存一个诺尔模型, 在 workspace ai 二 toolkit 下面的 output 文件夹下面呢,可以看到我们训练的保存的软模型可以进行下载, 那么这就是快速启动。在这个下一部分呢,我们来看到详细的参数的调节。首先我们模型这个地方选择 l t x two, 设置一下,我们 l t x two 要去训练的模型的路径已经做好了, 是否要开启低选存的这个训练呢?那么我觉得对于这个四十八 gb 及以下的显卡,几乎都是要去选择开启的,是否要将暂时不用的存卸载到 cpu 内存呢?对于 transformer 的 部分呢,我选择百分之一百卸载, 如果做该项,那我们得确保我们的这个内存呢应当要大于六十四 gb。 那 么文本编码器这个地方呢,我直接选择百分之零, 原因是在下方呢,我开启了两项,一个是缓存文本切入和缓存浅空间。那么这两项对于 l t x two 的 训练呢,事关重要,它们非常的影响我们对于显存的消耗。 后一部分对于 jama 呢,我们量化到这个四比特呢,运行良好,可以也建议对这个完美编码器进行四比特的量化,那么 transformer 这个地方的话,最好我们还是不做量化 lora 的 这个维度呢,我用的是六十四,可以干大,按道理来说这个值越大,保留的讯息呢, 尤其是我们追求人物的这种 id 的 一致啊,应当可以适当调高。六十四的话,我一个洛尔模型就已经是一个多 g b 了,我认为已经够高了。下面这个保存的精度呢,我们就选择 b f 一 六, 每一百步呢保存一个洛尔模型啊,我要求是全部保存。下面的 batch size 的 话我暂时就用一,因为在消费级的显卡上面,我好像用到一以上呢,就已经没有办法去正常运行了,其他的部分都可以保持不动。 该向我们之前的视频当中介绍过,训练级这个地方的话,我们一定要选择自己对应的训练级,是否要做这个辅道视频呢?建议开启对于这个性能的占用呢,应当是可以忽略不计的。是不是要做音频的训练呢?如果我们训练级当中有音频,我们就把该项开出来, 最大化音量要不要开呢?训练级当中我们的音频过小的话,我们可以选择开一下在下一项,如果我们严格的遵循了二十四帧每秒的帧率, 我们可以不开起改向。也建议我们在做训练级的时候就尽量的去完善。在训练的分辨率这个地方呢就是分水岭了,如果是我们 四零九零的二十四 gb 的 显卡,我们应当只能去训练五幺二,训练到七六八会比较费力,那么到了这个四零九零的四十八 g 呢?我们可以训练到一零二四,五零九零,也可以训练到一零二四。 训练分辨率的提高意味着我们可以推理分辨率也变高,这样按道理会让我们的 id 更为的一致,保留更多的细节。所以分辨率的话提到一零二十四还是不错的,这个地方能提到一零二十四就尽量提到一零二十四,更新一下任务呢? 下方的彩样这个地方的话,我建议是关闭彩样,它会大大的去降低我们的训练速度。但是如果一定要开启, 我的建议是把这些该加载的这些题日词以及图像全部给加载上去,因为他这里的采用题日词的规则是,比如我上面每一百步保存一个 word 模型,他就会把下面的这么十个测试题日词全给采用一遍, 这里是十个,我们也可以删掉另外的九个,只保留一个,应当要遵循这样的一个规则。其他的项目话比照着我们推理过程当中的参数进行理解, 更新人物点击训练呢,就可以开始训练这个视频。所有的言论都来自于官方,大家可以解锁前面的这一段字母,在邮件上面可以找到官方的账户 去查看原版的视频。如果我们租用五零九零的显卡,给到的内存是九十四点三 gb ai 视频模型的发展确实是给这个内存上了很大的强度,因为我们经常在显存当中放不下的这个模型就要放到这个内存当中去了,那么内存涨价也是非常的合理的, 可以看到现在就已经正在进行训练了,一般情况下练到五千步就可以出一个罗尔模型,这个速度在五零九零下会越来越快,三千步已经可以出效果了,五千步会比较的合适,这个结论也来自于官方 跑一零二四,五零九零刚好占满,所以这是一个比较合适的最为性价比的推荐用卡。 在 checkpoints 这个地方,如果我们每一百步保存一个模型,会在这里直接给到模型,除了在这个 autopod 当中进行下载之外,右边这个小箭头我们也是可以直接进行下载的, 这里的结果我都是我使用五千步的 low 二模型呢生成出来的,可以看到人物的一致性是非常的高的,而且它还会学习我们的音频片段当中的人物的音色, 这样的进步绝对是非常有意义的,大家感兴趣的可以自己去尝试一下,尤其是做研究和探索的。