大伙好啊啊,最近呢,这个 ltx 二点三,不知道大家玩的怎么样了哈,今天玩了一天啊,两个结果哈,一个呢,说一下这个 ltx 二点三它的优化哈,另一个呢,说的是这个 svi 哈,长视频。那么先说这个 ltx 二点三哈,大家直接看结果哈, 这个呢,是我今天跑完之后选出来的几个案例啊。先说一下结果啊, t2v 的 效果要比 i2v 好 好吗?我们先看一下 t2v 啊,这个是 lts 二点三,未经过放大补帧之后的效果 还行,是吧?然后呢,这个也是 t2v, 我 觉得 lts 二点三做这种 t2v 效果非常好,大家直接看效果, 人类经常说活得像条狗,哈哈哈哈,你看我天天吃的喝的用的,人类过的哪有我好,哈哈哈, 总的说呢,就是 lts 二点三号做这种动物类的非人类的这种视频效果我觉得已经很不错了啊。然后呢,看一下这个 i two v 啊,之前的效果不是特别理想啊,大家看,今天生成这个效果,我感觉还行哈, 你可曾在雪山上救过一只狐狸?你是那只白狐,我是那只酱板鸭的妹,这个是最近比较火的这个雪山是吧?然后呢,最近呢?啊,不是最近啊,今天也做了这个首尾针啊, lts 二的二点三的这个首尾针,大家直接看效果哈。 哎,刚逛完街,这个是真人的,真人的不相关的首尾针,他会有一个转场啊,但是如果你这个相近的还是不错的。但是呢,说一下啊,这个首尾针如果刨去声音合成这一块,还是往二点二的啊,之前发的那个高动态的效果好啊,但是如果考虑到声音这一块啊, 那还是这个这个能好一点来看这个,这个是变身的,但是说实话 lts 二点三变身的这个首尾针做不出来,好吧,也有可能后续有变化好, 好吧,呃,这是这几个,呃,结论呢,就是 t to v 啊,大家真的可以去试一试哈。然后呢,这个 i to v 啊和这个首尾针啊,是有优化的呢,大家看一下啊。 呃,还是之前发的工作流,但是呢,在这个位置提字词工程这一块换成了这个千问啊,三点五九 b 的 这个模型哈,这个提字词生成的优势是什么呢?快,而且效果好,那我在这里呢也写了一个提字词这个 机器人啊,那么这个是直接搁 b 站上边,这个哪个播主我忘了,把它提示功能我直接粘过来的啊,那么这个千万三点五怎么安装啊?大家可以参考一下,我之前上一个视频啊,因为安装它有一个小坑 好吧,呃,然后呢,整个这个提示词工程,实际上现在的速度和质量就可以直接嵌在工作流当中直接用了啊,就是我们在这里直接输入一个简单的提示词,让这个提示词帮我们去优化啊,我跑了这么十来个视频啊,基本上没有中文字幕 好吗?而且这个运镜的效果也还都行哈,挺好的。呃,整个的优化就在这里哈,就在这里换了一个提示词工程, i to v, t to v, 还有这个 s to v 是 吧?声音生成视频就在这里换了一个提示词工程,那么呢,加了一个首尾针啊,加了一个首尾针, 那么这个首尾针呢,和之前这个 lts 二一二需要安装两个插件啊,那么这两个插件呢,大家看一下是吧?大家可以在网盘当中哈 啊,来到之前的 l t s 二点三,在这里有两个插件,大家呢放到 custom node 当中解压就可以了好吗?然后解压安装一下这两个插件啊,这两个插件完成之后呢,这个工作流整个改动就在前边这两块加了一个图哈,然后呢在这里, 呃,在这个位置换成了这个 t t p 的 这个 first last frame control 啊,这么一个节点。然后呢,后边这个位置 啊,换的是 l t x video 是 吧,这个节点好吗?就换了这么几个东西啊,大家呢,工作流已经都上传到这个 running hop 了,大家可以看啊,这是首页是优化的,这是啊,长视频的下一个视频。再说啊,这个提示是反对的啊,以及这个 s two v 啊等等都已经更换好了,大家直接就可以点进去,然后下载就可以了,当然呢,大家也可以在这里去啊,简单试一下,觉得没没啥问题再下载, 好吧,呃,我最后说一下呢,就是这个 t two v 啊, l t s 二点三,这个 t two v 大家真的可以去试一试效果,我感觉做非人类的,比如说赛车啊,建筑啊,风景啊,这个动物啊,这个搞笑类的恶搞类的视频都挺不错的啊,那么对应的资源呢,大家可以在主页下方找到对应的视频是吧,在视频下方就直接可以找到啊。
粉丝232获赞957

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

大伙好啊啊,接个呢,我们说一下这个千万三点五啊,这个模型和插件在 comfyui 中的安装啊,这里边有一些小坑啊,我们一起看一下。首先呢大伙看啊, 安装这个千万三点五啊,需要安装一个插件,大家看啊,这个是插件的地址,大家呢根据这个地址呢去安装就可以了。然后呢大家看啊,这个插件安装完之后,需要安装对应的模型啊,那么这个模型是吧,这个模型在这里, 好吧,大家看一下哈。呃,插件安装完之后,我们需要安装一下这个 q 三点五九 b q 八的这个 g g u f, 当然哈, 呃,这个模型呢,大概需要消耗显存在十二 g 好 吗?如果大家电脑的显存大于等于十二 g, 那 么,呃,这个随便安装哈,如果小于十二 g 呢,大家可以呢来到这个对应的这个模型网站,然后呢这个是国内的啊,可以下载对应的啊,这个 g g u f 模型,比如说这个 q 五的六点五 g, 是 吧?六点五八 g, 好吧,然后呢,这个模型完事之后啊,我们还要下载什么呢?呃,下边这个模型,好吧,下边这个模型实际上呢,大家看啊,就是这个模型好吗?这里边用的是这个呃 b f 幺六的, 然后呢下载完之后给他改了个名哈,大家看一下,就这个 b f 幺六哈,呃,改了个名,如果大家显存够啊,就是大于等于十二 g 的 情况下呢,也不想去这个网站下载,大家可以来到哈这个 呃,这个网盘,好吧,然后呢找到千分三点五,在这里都已经下载好了,包括这个插件,好吧,模型和插件都下载好了,那么所有的资源呢,都可以在主页当中对应视频下方啊,找到哈啊,大家直接找到对应的视频下边有这个链接,大家直接下载就可以了。然后呢这里边哈安装完了之后, 有个地方要说啊,这里边有一个坑,大家看这个位置啊,这个是选择方式这一块,如果大家安装完插件和模型啊,正常选择的时候,应该是没有这个 q n 三点五和这个 q n 三点五 thinking 的, 好吧,它俩的区别主要在啥呢?这个 thinking 会在这个生成提示词或者是生成对话的时候,把它思考的过程也给你写出来, 好吧,大家如果想看他思考过程,可以写成 q 三点五 thinking, 那 如果不想看他思考的过程,直接写三点五就可以了。好吧,那么呢,大家按完这个插件和模型之后,正常这个地方是没有的,需要做进一步的处理,这个就是这个坑啊,这个可以说这个 官方这一块呢,写的不是特别详细啊,大家看啊,我们需要安装一个轮子,那么这个轮子的地址呢?大家可以来到这个对应的网站啊看一下,好吧,这是轮子的地址啊,然后呢来到这个地址之后,大家需要做什么呢?看一下这个啊, 好,刷出来了哈,大家需要根据自己的 python 版本,以及大家电脑上这个库达版本去下载对应的轮子去安装,好吧,那么我这个 python 版本是三点一一的哈,三点一一是这个,然后库达版本呢是十二点八哈,这个十三点零就不合适,所以我呢接着往下找,呃, 在这里应该有啊,库达十二点八,来看一下啊。嗯,十二点八,三点一一。好吧,所以呢,下载这个对应啊,这是 linux 的, 我们得找这个 windows 的 啊。在这呢哈, 在这呢,呃,库达十二点八,然后 python 三点一一,然后把它下载下来之后安装。那么怎么安装呢?大家看啊,来到 comfy ui 的 这个目录 好吗?然后往回退一个,找到 python, 找到这个 python 的 目录哈,然后我们 shift 摁住 shift 哈,然后右键这里边有一个 powershell, 打开哈,打开之后大家可以试一下啊,你可以输入什么呢? 好吧,点斜线啊,反斜线。然后呢,输入一个 python, 看好不好使,如果出现我这个界面了,证明是吧,没啥问题。然后一个 just 小 括号儿退出,退出完之后呢,我们直接哈输入上面的命令,然后杠 m 使用模块儿。使用什么模块儿呢? p i p, 然后 install 安装,然后把我们刚才下好的这个轮子啊,这个我忘了,之前我下没下载好了啊,在这啊,把我们之前下载好的这个轮子拖过来就行,然后摁一下回车,这样呢,我们就这个轮子安装好了,安装好之后,你重启一下这个 comv 三点五和这个三点五 thinking 了哈,安装好之后整个插件就能用了。来我们看一下啊,这里边有什么呢?首先第一个啊,这个原始工作流是我在这个 runnyhop 上面下的啊,因为比较简单,我就不重口搭了。 来看这个啊,第一个呢是图片提示词啊,反推啊。第一个是图片提示词反推。第二个是视频提示词反推。第三个呢是这个说白了就句型生成啊,就是你让他帮你生成一个什么东西, 好吧,这三个基础功能都有啊,然后我这里边是让他给我写 lts 二点三的提示词,好吧,这里边有一个规则,然后呢,让他按照这个规则去给我生成 lts 二点三的提示词啊,就是为什么今天跟大家说这个,因为它速度非常快,质量非常好啊。 以前呢,我们用这个呃提示词助手去生成提示词的时候,如果把它放在主工作流当中,这个过程比较耗时,所以一般都不放的啊,但是这个可以放,因为它的速度非常快啊,大家看啊,我不暂停,直接按一下,大家看一下这个在我本地的速度。 好,大家看啊,这个完事了,速度其实挺快的啊,因为之前还有这个模型加载的时间,但是如果大家反复运行的时候,实际上呢,它的速度是比较快的啊,而且显存消耗啊,我用的是 q 八的模型,大概是十二 g, 好 吧, 那么这个提示词反推的,或者是提示词生成的这个插件啊,这个节点就可以放在我们的工作流当中去使用了,能达到一个比较理想的效果哈。

最近千万三点五模型陆续发布了,千万三点五是世界语言模型,今天我们用这种多模态模型来做一下视觉任务中的乌鸦和目标检测,这个是千万三点五这两天发布的模型,本视频使用的是千万三点五二十七 b f p 八精度模型, 使用 s g 浪推理,我们使用如下的命令。我们来看第一个视力,左边是一个扫描板的 pdf 截图,右边是它的识别结果。第二个视力呢,是做目标检测,我们把图片中的安全帽给识别出来,我们来看一下代码, 这个是一个 pdf 的 截图文件,我可以看到它有标题,有一些模糊不清的文字, 我们用 o c, r, d, p y 这个文件来运行。第一步我们把文件读取之后,把它转成 base 六十四, 然后在 ms 一 节里面,第一个参数 m, g, u, l, 然后把 base 六十四的字串传进去,然后第二个参数是 promt, promt 我 们后面设置的是千文 v l 马克丹, 然后我们设置 temperature, 还有存在惩罚和宠物惩罚, 我们来运行一下, 好运行结果出来了,我们来看一下 前面这个标题已经识别出来了,然后有一些加粗的部分也识别出来了。 后面这个 words 和 value 其实是有一点模糊,然后也识别的比较准确。 我们来看第二个视例,这个是原始图片, 然后我们用 object detection 这个文件来运行。第一步还是把图片然后转成 base 六十四格式, 然后把它传到 message 里面,然后这里面我们用的 prompt 是 请在图像中定位每一个安全帽的设定,然后以接送格式报告编辑框的坐标, 然后设置 temperature 存在惩罚,重复惩罚,我们来运行一下。 好,这里可以看到识别出来五个安全帽的一个坐标, 这个是绘制的一个图片,可以看一下, 可以看到前面总共有五个安全帽,然后都标注上了。 这里面需要注意的一点是,在复制图片的时候,原始的这个坐标它是缩放到零到一千,所以这里面我们需要 对它进行一个处理,然后转换成真实的一个像素,这样就可以在原始的图片上面复制出来,这就是多模态模型的优势,它可以同时做文本图像方面的任务。下期我们继续分享大拇指相关的技术,关注我不迷路!

在 open core 横行的二零二六年,可能很多人还不会怎么去电脑安装,要么就是根本不懂,要么就是被一大堆英文配置难住了。现在有了 coco, 让这一切都变得更加的简单。 我们可以先来到 coco 官网了解, coco 是 阿里云通易团队推出的个人智能助理,支持本地与云端双模式部署。现在我们直接进入主题,教你如何本地化部署 coco。 按照官方推荐,我们选择一键安装, 这里会出现不同系统的安装模式,具体根据你常用的系统选择对应命令。视频中我们以 windows 作为演示。首先我们打开 cmd 运行窗口, 把 coco 安装命令粘贴到窗口中,这时候可能会出现运行报错的提示。不用怕,我这里给大家准备了一个备用的安装命令地址,重新输入备用命令,回车进行安装。 看到 coco 已经安装成功了,复制这个命令到 c m d 窗口中,回车, 点击高级,找到下方的环境变量进去,找到 p a t h, 双击打开,点击右上角新建,把这个复制进去,最后点击确定。 接着就到 coco 出使画了,跟着文档命令走就行, 直接回车回车,然后就可以看到出使画成功了。 最后我们就可以启动 call 炮了,复制这条命令,这里启动时间可能会有点久,稍等片刻,当你看到一百二十七点零点零点一的时候,就说明服务已经可以访问了, 这时候我们在浏览器打开这个地址, 看到这个界面的时候,就说明你的 call 炮已经安装成功了。如果默认语言显示的是英文的话,就在页面右上角自己选择中文,接下来我们开始跟 call 炮对话, 啊,不好,我们要先配置大模型的访问权限,这里我们进来后会看到系统已经默认选择了第一个,直接点设置进去,这里会出现一个 api 密钥, 我们打开这个地址去注册获取一个,找到访问控制,另一排就是我们需要的密钥。复制后回来 call 页面粘贴进去,点击测试连接,如果弹出绿色框说明连接正常,然后再回去聊天页面跟 call 愉快的对话。 要命啊,这里又忘了一个设置,记得把刚才设置的提供商勾上,模型呢,随便选一个, 这样我们就可以看到正常输出了。但是这里呢,也只是最简单的 ai 对 话而已, 要注意这里的对话是需要消耗 token 的。 我们差个题外话,可能有很多小朋友还不知道 token 是 什么意思,只要你有用过四 g 五 g 网络,你用过数据流量,你把 token 理解为 ai 数据流量是不是就很容易理解了? 而且这个流量在接下来又用到的的 agent 实力中消耗很快。 为了应对 token 的 消耗问题,我们其实可以搭建一个本地大模型,让 call 炮直接对话我们的本地模型进行服务。这里我们使用欧拉玛来部署本地大模型。进入欧拉玛官网,点击右上角的 download 下载系统程序 安装成功后就可以看到阿欧玛的功能页面了,现在我们去找下我们需要的大模型。回到欧拉玛官网,选择 models, 搜索 p w n 三点五, 不要安装带有 cloud 的 标志,那个是在线模型,需要 token 的, 我们可以找一个体量小一点,适合本地电脑安装的模型,因为正常家用的电脑配置都不会太高。这里有一个支持零点八 b、 二 b、 四 b 的 模型,可以点进去 复制安装命令到 c、 m、 d 窗口中,记得加上你选择的具体模型。所谓的零点八 b 或者二 b, 其中的 e b 表示十亿个模型参数,所以越大的参数量对电脑的性能要求越高, 安装可能要一段时间。本地演示直接跳过, 当看到三 day message 的 界面时候,就说明本地大模型已经安装成功了,你就可以跟欧拉玛进行对话。 接下来回到 call 炮中,找到模型配置去,我们开始配置本地模型,找到 alma 选项, 因为本地尤拉玛不需要密钥,所以我们随便输入一个一二三四,点击保存后会弹出一个报错,让我们安装什么 s d、 k, 太麻烦了,难道就没有更简单的方法?我们找到右侧有一个添加提供商按钮, 这里我们随便命名一个,例如 my model, 然后在默认 base 二中输入,这个妙呢,还是输入一二三四就行。最后点击创建, 找到 my model, 点击模型按钮,把刚刚下载的模型名加上去,最后测试下连接, 最后记得选中刚刚设置的模型保存,然后回到聊天页面, 这里就开始考验你的本地电脑性能了,如果本地电脑配置不好的,不要随意尝试,直接用在线模型就行,花钱买 token 就 可以了。 看来本地模型输出没什么问题,就是速度还是有点慢,为了演示速度之后我们会全程采用线上模型消耗 token 模式。 接下来就进入二零二六年最流行的 skill 介绍,什么是 skill? skill 其实也就是我们常用的技能,这里可以看到 coco 默认已经存在一些技能了, 我们可以来问一下,看下 coco 知不知道它都具有哪些技能, 看来他还是知道的,但是实际应用中可能这些默认的技能不能满足我们的日常需求,这时候我们就可以新建一些自定义的技能了。这里我就来教大家如何创建属于自己的 skill。 比如你现在是一位宝妈,每天为了孩子吃什么而感到焦虑,让 coco 每天推荐一个菜系,并且教你怎么做这道菜,是不是就很方便了? 这里我就简单写一个菜谱的技能,我们可以给技能命名为 cook, 内容呢参考左边我已经写好的。注意,我们在最后有一个输出要求复制进来,技能中的 name 表示当前的技能名称跟刚才命名的 name 一 致就可以。 description 表示当前技能的简介,说明这个技能是干嘛的。 name 和 description 上下有三个短横杠包围起来,这种是固定格式,是给抠炮识别用的,要遵守。点击保存,然后启动我们新增的 cook 技能。 这时候我们打开 coco 运行的 c m、 d 窗口,按下 c t r l 加 c 按钮,当看到终止处理操作吗?这时候继续按一次 c t r l 加 c, 停止当前的 coco 服务,然后输入 coco app 命令启动 coco 服务。 当看到一百二十七点零点零点一的时候,刷新刚才的 coco 网页, 这时候我们继续去问他,你有什么技能? 从输出的内容中我们就可以看到刚才添加的 cook 技能了,现在我们就让 coco 来实现这个技能, 可以看到 coco 识别到了我们的 cook 技能,并且在最后成功输出我们的要求, 灰狼大厨并且带上了祝福。所谓技能其实就是给不同需求的人都可以根据自己的需求创建一个工具,不同的人会有不同的需求, 比如销售,可以创建一份根据客户生成客户喜好的技能,比如牛马,可以创建一份工作日报生成的技能, 比如保险,可以创建一份根据不同职业生成一份合适的保险技能。当然技能完全可以不用自己去写,把你的需求发给豆包,豆包就能帮你直接生成了,加上 call 炮要求的 name 和 description 头部就可以了。 最后我们进入频道的配置教程,我们这里以飞书作为教程演示案例,我们首先要打开飞书的开发者官网, 进入开发者后台,可以看到一个创建企业自建应用的按钮,点它,然后输入应用名称和描述 call pro, 接着全程跟着教程走。 接下来就可以打开飞书应用,无论是电脑应用还是手机应用,都可以直接用飞书跟 coco 进行对话。 到这里我们已经完成了全部教程了。

空有显卡却跑不通本地大模型,用 sgl 部署 kiln 三点五,成本直降百分之八十,而且响应飞快。这套实战避坑指南你必须拿下。现在的策略很明确, 百分之九十的总结改写、信息抽取等高频任务,全部扔给本地的 qm 三点五二十七 b, 它刚好踩在性能和显存的平衡点上。至于剩下那百分之十的极高难度推理,再让云端的 gpt 或者 cloud 的 兜底, 这样既保住了钱包,又拿到了原生多模态和超长上下文的处理能力。整套架构其实非常干练。最前端是你的通讯工具, 中间由 opencall 负责业务编排,他会把消息转成标准请求,转发给后端的 sgl line 推理服务。这里最关键的一环是, sgl i 会直接起一个兼容 openai 标准的接口, 让本地模型像云端 api 一 样好用。只要解决掉工具调用时的格式类及问题,你就能在本地拥有一个能写代码、能看图、还能自己挑工具的超级助手。 环境起不来,或者模型不听话,百分之九十的问题都出在启动参数上。看屏幕这段脚本,除了常规的显存分配,最容易被忽略,也最致命的就是最后这一行工具调用解析器。 如果你不显示指定为 q n 三 coder 模型,面对工具请求时会直接宕机或者回一段毫无逻辑的乱码。哪怕你的硬件再强,没了这个参数,它也只是个会聊天的花瓶, 根本无法触发任何外部工具。在生产环境,这是让 a 省称称动起来的唯一开关。后端稳了,接着看 openclaw 这边的对接逻辑 有两个不起眼,但能让你排查通宵的细节。第一个是基础路径结尾,千万别手抖加斜杠,否则路由拼接出错会导致所有的请求直接报四零四。第二个是在兼容性配置里, 务必把开发者角色支持关掉,很多 agent 在 调用时会产生特殊角色,本地后端如果认不出来,就会直接甩给你一个五零零。服务器 错误。把这两项改对,全链路调通基本就成了一大半,配完了环境却卡在连接上。最让人崩溃的就是模型名字,本地 curl 都能通,一接上 open claw 就 报四百错误, 原因极度无脑,你在启动脚本里叫它 a, 在 配置文件里哪怕多加了一个斜杠,叫它 a 分 之 b 请求就会直接丢进黑洞,全列路必须严格锁定为 q n 三点五二十七 b, 一个字母都不能差。还有那种莫名其妙的五百报错,是 agent 产生的特殊角色,超出了后端的理解范围。 别废话,直接在配置里关掉,开发者角色支持稳定性瞬间就能拉回来。如果你发现普通对话正常, 但一触发工具调用就弹出一串看不懂的英文,说无法从印刷中获取象棋,这说明你的参数格式踩雷了。 s g a 像这种高性能后端,对工具定义的严苛程度超乎想象,他不接受任何偷懒的数组缩写,必须是教科书级别的标准接收对象, 也就是必须有 type 等于 object 这一层嵌套。很多人卡在这里调了两三天,其实就是因为多了一层中括号或者少定义了属性。记住格式不对, agent 就 算有再强的推理能力,也连一个简单的天气插件都调不起来。 最后这个坑专门留给追求性能的高手。你想开投机踩样让速度翻倍,又想开二十六万超长上下文,结果就是 s g 链启动瞬间直接爆显存。原理很简单, 唱上下文本身就是吃显存的黑洞,而投机踩样还需要额外割让一块内存池,两头一挤, 显存水位直接破百。听我一句劝,刚开始部署的时候,先把那些花里胡哨的性能加速全关了,把上下文长度和显存预算压到稳妥的红线以下。等你的工具调用和多 agent 协助全跑通了,再去一个一个调优参数。 比赛还没学会,走的时候就想在显存的悬崖边上跑步,为什么一定要在本地搞夺 a 阵协助?因为单一通用的 ai 往往啥都会,但啥都不精。 面对复杂任务,你需要的是像公司一样的专业化分工。在 openclaw 里,你可以让大总管负责拆解任务,咨询助理去全网搜瓜素材内容助理最后负责沉文。 这种高频的内部通信如果走云端, api 成本会让你肉疼,但在本地,这就是几乎零成本的算力游戏,也是真正让 ai 介入生产力的分水岭。能扛住三五个 agent 同时工作,全靠 s g line 的 前缀缓存。这就像你跟一个老朋友聊天, 你不需要每次开口前都重报一遍姓名和生屏,系统会把那十几万字的历史对话直接锁在显存的最快区域, 每次新请求进来, gpu 只负责算你新说的那几百个字,剩下的历史记录全部秒速服用。这就是为什么在长上下文环境下,本地部署反而比很多云端 api 响应更顺滑的原因。他把每一分算力都压在了深沉回答上,而不是反复重算过去。 最后说点压箱底的调优经验,本地部署不是把模型塞进去就完了。你手里有三个最重要的旋钮,并发数、上下文长度和显存预算。这三个参数是此消彼长的, 你想让模型记住二十多万字的文档,并发能力就一定会缩水。如果你发现系统报显存易出错误,别慌, 先去缩减显存比例或者压低上下文长度。最稳妥的做法是先关掉所有投机采样和花哨加速,在基础参数下跑通全流程等工具调用和多 agent 写作都稳如老狗了,再去摸索显存的极限边界。

去年十一月, ansorepic 发布了一系列新的测试版功能,只在解决我们在构建 ai 智能体时遇到的一些实际问题。 工具定义在你发送第一条消息之前就已经占用了大量的上下文。当智能体连续执行多个工具调用时,这些工具调用的中间结果会进一步膨胀上下文。 而且随着你在系统中增加工具的数量,智能体在为任务选择合适工具时会变得非常吃力。因此,这些测试版功能帮助解决了这些问题。而且随着两周前 sony 四点六的发布,这些功能已经在云 api 上全面开放。 在他们的原始帖子中,他们展示了这些功能如何帮助实现了八十五百分之的 token 使用量减少。 这也导致一些网友宣称 entropic 已经终结了工具调用,或者至少是传统的工具调用方式。虽然这种说法有些夸张而且确实不准确,但这两个功能编程是工具调用和工具搜索工具 确实是非常巧妙的解决方案,在集成到任何 ai 智能体中时都能发挥极高的效用。而且关键在于这些功能并不是云 api 独有的,也并非最初就是 entropic 的 创意。 这些是智能体构建的核心模式,适用于任何框架或模型。我会解释这两种高级工具调用如何运作,并演示如何集成到你的定制智能体中。 这正是我在这里所做的事情。我已经把它集成进了我的系统,这个系统是我用 python 和 react 定制开发的应用,这是我在本频道过去四期视频中逐步搭建出来的。 我还用全新的困三点五,拥有二百七十亿参数的模型来测试这些高级工具调用方法。所以与其直接跳进理论部分,不如我们在应用里演示一下。 而最简单的切入点大概就是先演示一下工具搜索工具。所以即使只是打个招呼,我们也能收到一个简短的回复。但在底部,你可以看到我们正在追踪本次绘画的上下文窗口。 我们已经用了一万三千个 token, 为了弄清楚发生了什么,如果我们切换到 langfuse, 如果我们看一下这个生成追踪,你会发现已经有六十个不同的工具被加载到上下文中了。 虽然听起来很多,但实际上只有两个 mcp, 就是 playrite mcp 和 github mcp, 再加上一些我在前几期节目中开发的工具。 所以工具搜索工具的关键点在于你不会一开始就加载所有内容。你会延迟加载让代理去搜索他,所以他会多出一个额外的步骤。现在我会把这些 m c p 服务器标记为延迟加载,然后让我重启一下服务器。 如果我再次问同样的问题,比如我们打开一个新的聊天窗口,输入 hello, 然后得到一个回复,你可以看到我们现在只用了六千三百个 tokens。 如果我们看一下这个追踪,你会发现现在只有十二个工具被加载到上下文中。第十二个就是这个工具搜索工具。 这个工具允许代理在工具注册表中搜索,通过名称或关键词来发现并加载工具。为了演示工具搜索的实际效果,我们让他获取这个项目的最新提交。这是一个私有项目,所以他需要使用 m c p。 你 可以看到他现在正在触发工具搜索。他找到了一个工具, 就是 list commits 工具,然后他用仓库的信息触发了这个工具。好了,我们得到了提交 id 以及提交内容的信息。 如果我们查看这次工具搜索的响应,你会发现 listcommits 是 一个延迟加载的 mcp 工具,它会把这个工具的完整模式加载到上下文中。 现在这个工具已经被加载到接下来对话的上下文中了。所以如果我再问任何后续问题,就不需要再去搜索这个工具了。比如说给我最后一个提交,我就可以直接使用 listcommits 工具。 如果我们切换到 langfuse, 在 我发送的第一条消息中,你可以看到只有十二个可用工具。然后在它触发工具注册表搜索后, 在下一次调用中,我们有了十三个工具,包括 list commits, 并且它能够对此作出响应。而在我后续的问题中,我们同样有十三个可用工具。 简而言之,这就是工具搜索实际的工作方式。虽然这已经非常有用,但我认为以编程方式调用工具更加令人印象深刻。如果我们开启一个新的聊天,现在我们在 opodder 上使用的是 cloud hikou, 我 一会会切换到 queen 三点五。但我想先给大家展示一下云端模型和开源模型在这里是如何工作的。为此,我们将使用 anthropic 在 其文章中发布的官方示意。 这里他给出了一个预算合规检查的例子。然后问题是哪些团队成员超出了他们第三季度的差旅预算? 这里有三个可用工具,分别是获取团队成员,获取支出和按级别获取预算。他在这里展示了传统的方法,也就是需要大量的工具调用和许多中间响应,这会导致上下文窗口被迅速填满, 所以我已经写好了云端代码来生成这个场景的虚拟数据。首先我们来看一下传统的做法,我已经关闭了沙河,现在我来提问哪些团队成员超出了他们第三季度的差旅预算。 正如我之前提到的,我们现在用的是嗨酷模型,所以他正在执行工具搜索,获取报销数据,获取团队成员。现在他正按照这种传统方式操作,需要为每一位成员逐一获取报销信息, 让我们看看会得到什么答案。所以第三季度差旅预算分析显示,有三个人超出了他们的差旅预算,这是他给出的结果。 根据测试数据,这个答案是正确的,但实际上应该有四个人,所以他似乎漏掉了一个。 marcus johnson 超出了预算一千七百, 所以这种传统方法实际上消耗了大量的工具调用。实际上有五十六次工具调用。正如你在这里看到的, 它处理了七万六千个 tokens, 但实际上并没有给出一个准确或者说全面的答案。这正是程序化工具调用能够解决的问题,因为所有这些其实都可以通过脚本自动完成。 因为一旦你知道了团队成员和预算水平,你就可以用一个负循环来获取每个用户的开销,并计算实际的超支情况。 那么现在让我们起用沙盒,并尝试用程序化工具调用来实现。好的沙盒已经开启,让我们重启后端,打开一个新的聊天窗口。好的哪些团队成员超出了他们第三季度的差旅预算?现在正在进行工具搜索。他找到了所需的三个工具。 现在他进入了编程模式,并创建了一个即将被执行的脚本。他抛出了一个错误。这其实并不奇怪,因为他并不知道这些工具的输出结构。所以本质上,如果没有所有信息,他就无法一次性完成。 现在他正在不断迭代自己的代码,实际上是在尝试得到一个结果。你可以看到他不断抛出错误,并且正在逐步解决。 与 anthropomorphic 的 论文相比,这可能是更贴近现实的程序化工具调用方式。因为我相信在 anthropomorphic 的 论文中,它是一次性完成的,而实际上并不会这样。经过多次迭代后,我们得到了一个准确的答案, 所以二千二百, sarah, chen, marcus, alex, emily。 所以 我们得到了所有正确的答案。 这很好,但这才是程序化工具调用的现实。它的方法相当迭代,就像 cloud code 或 open code 一 样。出于兴趣,我们再运行一次,看看能不能得到正确的答案。它会不会走一条不同的路径。我们假设是的, 很有趣。这一次它实际上是在预算层面获取团队成员的信息,所以它实际上是先获取所需的数据,然后再生成代码。所以这次它可能一次性就能完成。 但实际上他并没有做到,他仍然在自我迭代。不过我们确实得到了正确的答案,所以结果是对的,每一次都是如此,只是到达结果的路径不同。所以我们来看看这两条追踪记录。在我刚才运行的那一次中,总共进行了六轮调用, 总共调用了十二次工具,总提示词数为五万八千。现在如果我继续这个对话,目前只用了一万三千,但这是在与大语言模型进行了六轮来回交互的情况下。而之前那一次是在十一轮中用了十一万六千个 prof tokens, 都是为了得到正确的答案, 所以我确实没有看到 anthrax 所报告的八十五百分之的 token 节省。但这其实非常依赖具体的用力。 比如说这里我是在和二十个团队成员一起工作的,如果你有两千个团队成员,那情况就完全不同了,因为大圆模型需要运行两千次单独的调用,这根本行不通, 所以在那种情况下,就需要程序化的工具调用。或者你就需要一个真正的端点,让实际的数据处理在服务器端完成,而你只是获取信息并将其展示给用户。所以这其实切中了这个话题的核心。 也就是说,你的大圆模型到底应该像这样临时进行数据处理,还是应该仅仅从一个预先创建的脚本中传递信息? 比如说这个脚本可以放在一个技能文件夹里,因为这是我们在上一个视频中搭建的一个完整的技能部分。你可以有一个 python 文件,一旦创建测试并验证后,它就能真正完成这项工作,或者你也可以把它放在工具调用的 m c p 端,这样它就只是简单地传递接收到的信息。 那么我们把 cloud haiku 换成 queen 三点五二十七亿参数,来看看它的实际表现如何。我现在是在网络上运行这个模型,这里用的是欧拉玛,我有一个十万个上下文窗口长度,这里用的是 rtx 五零九零,显卡有三十二 gb 的 显存。 那么我们保存一下,重启服务器,然后问同样的问题,哪些团队成员超出了他们第三季度的差旅预算?现在加载需要一点时间,因为他需要把模型加载到内存中。好了,他已经触发了工具搜索,然后直接开始生成代码。 他实际上在工具调用之间没有输出文本,但你可以看到他正在生成代码本身,而且他正在经历和嗨酷一样的迭代过程,他正在从错误中学习, 并且在不断完善。看看,这就是我们的答案。让我看看二二百十五十七,还有三百,看起来很准确,我觉得这比嗨酷用的 tokens 更少,这很酷,我们来深入看看追踪记录吧。 是的,这次用了四万五千个 tokens 就 得到了准确的回应,这真的很棒,只用了四次工具调用,这已经相当不错了。这是我们 ai builder 系列的第五个视频。在这个系列中,我们正在用云端代码构建一个功能完善的 ai 系统。 本模块的 prd 可以 在我们的公共 github 仓库中获取完整的课程和代码库则在我们的社区中提供 相关链接在下方描述中。那么好吧,这一切到底是如何运作的呢?因为你可以看到我们正在这里的沙箱中触发代码执行,但这实际上意味着什么呢?所以这是一个完全本地化的系统。 我之前用的是嗨酷配合 open router, 但现在用的是 queen 三点五,这里内置了一些文档和 r a g 功能,使用的是 queen 三的嵌入模型。所以你看到的这个代码执行其实是在 docker 中触发了一个沙箱。你可以看到 现在所有这些容器都已经启动了。这里有一些孤立的容器是因为我一直在重启后端。但总体来说,代码执行都是在这里的一个隔离沙箱中进行的。 而这个架构安全性的一个关键部分就是工具桥的概念。所以从头到尾,当用户提出问题时,他会先到 fast api, 然后到 python, 接着再转发到 ai 模型。无论是远程还是本地的, 我们会收到一个工具调用,也就是你需要去执行这段 python 代码,这时后端就会启动一个沙箱容器。 我在上一个视频里已经介绍过这个的设置过程,但本质上我们用的是这个 github 仓库,也就是 llm sandbox。 这是一个非常清亮即可移植的沙箱环境,你可以配合 docker 这样的工具使用。或者如果你不用 docker, 也可以用 portman。 但本质上,这大大简化了启动这些环境的复杂性。 它们支持多种语言,还有许多不同的高级功能。你可以预先启动容器,而不是按需启动。 你也可以使用自定义镜像。这个项目里有很多很棒的功能,所以我会在描述区留下相关链接。我在上一个视频里已经非常详细的讲解过了,所以基本上我们就触发了那个容器的创建, 然后我们会把代码和一个绘画 id 一 起传递进去。所以现在在这个容器里,我们有一个 python 运行器,它会执行那段代码。在我们之前的例子中,有很多不同的工具需要被触发,比如获取预算水平、获取部门、获取团队成员, 而所有这些都可以存在于比如说一个外部系统中,但我们并不希望让沙乡访问外部服务。 相反,我们创建了一个安全的工具桥梁连接回 python 应用程序,然后每当工具或函数在 python 脚本中被触发时,都必须通过这个桥梁。正如你之前看到的,单个脚本中可能会有五十次不同的 api 调用或工具调用, 所以对于每一次工具调用都需要通过这个桥梁,它会使用绘画 id 来进行身份验证, 然后 python 应用程序会将该调用路由到外部系统获取响应后再将其发送回沙乡。因此,除了访问这个 python 应用程序中的 fast api 之外,沙乡没有任何互联网访问权限。从安全角度来看,你可以对这个 fast api 进行严格限制, 这些限制是基于工具本身的精确模式,所以所有这些工具片段、工具定义都是在创建时作为存根发送到沙箱中的。因此,多个工具调用会在 python 代码中,比如说在一个 for 循环内进行, 而且这样做速度非常快,因为此时你完全忽略了 l l m 没有任何中间代码堵塞上下纹。在这里, l l m 完全不参与这个过程,直到 l l m 完成脚本并生成响应。你在之前的演示中已经看到了, 然后这个响应看起来大致是这样的,这就是我们的脚本结果,然后这个结果会被反馈给 l l m。 l l m 接着可以决定下一步该做什么。 如果它已经获得了所有需要的信息,就可以生成综合响应并返回给用户。或者正如你在演示中看到的,它需要对代码本身进行迭代。在很多情况下,它会生成更多的代码,并再次触发沙盒环境。 这就是端到端的流程。我在这里提到了 gviser, 因为 docker 容器并不是你能拥有的最安全的隔离沙盒,因为它们与整个系统共享内核。 所以为了真正保障像 ram, sandbox 这样的安全性,我建议你搭配 gviser 一 起使用。 cloudflair 曾经做过一些有趣的研究,探讨了 ram 在 生成 python 代码或 type script 以及触发工具和 mcp 方面的有效性。他们发现,当工具以 type script api 的 形式呈现,而不是标准的 mcp 时,智能体能够处理更复杂的工具。 我认为这是有道理的,因为他们在训练时接触了大量原生的 python 和 javascript, 所以 在 cloudflared code mode 版本中,也就是我们所做的类似,他们会把 mcp 的 schema 转换成 type script, 因此 l l m 只是生成 type script 代码来触发 m c p。 这和我们正在做的事情非常相似。所以我刚才提到,工具存根被发送到沙盒中。因此,我们在智能体层面定义的 m c p 和工具会被转换成 python 存根 自动生成的 python 函数。这样,当 ai 为沙盒生成代码时,它实际上只是触发 python 函数, 而且因为这是原声 python, 所以 它在这方面会非常擅长。而且重要的是,沙盒永远不会接触到 api 凭证,它永远不会接触到任何机密信息或类似的内容。 我之前提到过需要高效的工具设计,因为在早期,有太多的 mcp 服务器完全塞满了你的上下文窗口,让你根本无法完成任何实际工作。 即使在 anspec 自己的文章中,他们试图解决的挑战也是关于臃肿的 mcp。 在 这里,他们提到 github 的 mcp 有 三十五个工具和两万六千个 tokens。 但即使是在这篇文章发布之后, github 也发布了他们 mcp 的 新版,现在这个数字大约是四千个 tokens。 所以 在 mcp 和工具调用端其实可以做很多工作来确保不会无谓的给你的上下文窗口增加负担。 最后, entropy 在 他们的高级工具调用工具包中还加入了另一个功能,就是关于工具使用视力的这个概念。因为虽然 jason schema 非常擅长定义结构,但它无法表达使用模式。 他们举了一个例子,比如说截止日期,它的数据类型是自复串。日期格式有很多种传递方式, 那么他们到底希望用哪种日期格式呢?除非你真的引导他,否则大圆模型是不会知道的。所以,通过工具使用势力,你可以为每个字段提供一个势力,以便让大圆模型朝着正确的方向前进。比如在这里,日期格式就是年月 日。在他们的测试中,他们发现这能将复杂参数处理的准确率从七十二百分之提升到九十百分之,这很合理,因为本质上这就是多轮提示。你只是给了一个你想要的视力,这绝对会引导模型朝着正确的方向。 实际上,我不确定你是否需要把这个设置成系统中完全独立的功能。我认为,使用技能这个概念意味着你可以在加载技能时提供视力,这样就可以触发你想要实现的任务的执行顺序。 你会发现 cloud 也有点类似,里面有很多功能是重叠的。 antropic 之所以没有取消工具调用,是因为他们认为你应该有策略力对这些功能进行分层。 所以,如果你的上下文因为工具定义工具搜索而变得臃肿,如果你有大量中间结果污染了上下文,那就走沙河路线。或者,如果 ai 总是把错误的值传递给参数,那么使用工具势利就是有意义的。非常感谢你的观看,我们下期再见。

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

然后我们刚刚在本地部署了那个千文三九 b 的 那个 q 四模型,因为它是一个全模态的一个模型,它可以进行视觉,嗯,它可以进行那个对图图像的识别,那么利用它这个特征呢?我们就可以 呃利用它来操作我们的浏览器。呃,我们借鉴的是那个凹凸 g l m 他 们的那个,呃,手机操作浏览器的那个整个一套系统,然后我们给他移植在了 windows 上面,在这个 windows 上面呢,我们就可以看到它那个是如何操作我们系统的啊? 首先我们第一步也是运行我们的这个主脚本,我们的任务我们之前有设置过,比方说我们现在桌面上是没有浏览器的啊,没有浏览器。然后我现在就是让他搜索这个帕布麦的,去找那个肝癌相关的文献,然后选择近五年的文献。 呃呃,这个下载可能是有点困难啊,让他找找那个点击进去的吧,下载的话,因为有些文献他没法下载啊啊,他链接不太那啥, 我们是给他一个任务呢,就直接去拍卖的里面搜肝癌相关的文献啊,找就是找近五年的文献,上下翻找,然后找到那个肝相关的文献,然后让他点击进去,就这一整套流程,然后我们测试一下, 你看他直接打开了我们的这个浏览器,然后他先那啥了一下, 看他会不会输啪啪麦的啊,我们把他那啊,他输了啪啪麦的,我们先不干扰他啊,马上我们把这个流程给他看一下,他点击了进去,然后在这里选了开始。首先他这应该是一年的啊,直接就是五年的,他直接上下翻找, 他找的话估计有点找的难找到,找不到的话我们看他会不会选择第二页啊?嗯, 他想点这个,但是好像这个模型呢,没把它啊点到了啊,他直接搜 ctrl 加 leave, 这这个是更好的一个选择 啊,他直接点了第一个,第一个呢我们可以看到啊,这个是四 d 的 一个,那个在这个干细胞癌,实际上他已经成功了啊,这个 hcc 他 就是干细胞癌,他已经选选择成功了,这个就是他那个操作的一个系统 啊,这个任务呢,它是一个流逝的一个任务,我们可以看一下它的后端的一个占用啊,刚刚我们用的 cpu 它一直在调用,那整个内存占的是二十四 gb, 整个那个显存的占用呢,大概是十二 g。 然后我们可以看一下它的这个操作的一个流程啊, 他刚刚就是先是我们交给他的任务是搜索这个文献,然后点进去找到干相关的文献,他还挺聪明的,他把这两个结合在一起,这样相当于一起搜的,这样会更更那啥一点。 首先呢看我们的模型处理了多少,一般都是全截屏,然后思考,思考完之后呢给出动作,这个就是模拟那个奥拓 g l m 他 们那个项目里面也是他操作手机也是这个流程。然后我们把这个虽然这个视觉没有经过微调,没有经过微调操作这个 电脑界面,但是呢我们可以结合那个浏览器中的那个搜索术啊,就是他有那个元素自带的一个搜索术,然后结合到模型的视觉,然后我们就可以达到这样的一个效果。嗯,我们再给他一些,再给他一些那啥。呃,一些任务吧, 比方说搜索斗罗大巫,拉尔爵士堂门的漫画,点击进去。呃, 他一般的就会开一个新的网页啊,直接就开一个新的。呃。客户端, 我们看他怎么搜。一般这个点击搜索的话应该还是比较简单的啊。啊,这怎么搞了?这个查找你看他不知道为什么会把这个调出来啊。我们先给他查掉,我们看他会不会搜索啊,他自己点进去了。 嗯,好,他已经点击进来了,我们再测试一下,让他点击进淘宝看一看。这个。我这个任务,我们。 嗯,搜索,点进,进淘宝网站,搜索最新的 djs mark 的 价格 对比,至少三个页面啊,我们看他会不会对比啊,给出最最低的价格和商家的名袋和商家的名字啊, 看他能不能搜索。这个任务我也是第一次尝试啊,如果不行的话我们后期也可以优化一下,对于这个进行优优化一下,看他会不会啊。 嗯,首先进淘宝网,对的,然后他会点,他只会点第一个。哎,淘宝点进来了啊,看他怎么说。这是淘宝吗? djs mark, 哎,怎么又返回了?对选,他选择了第二个的 djs mark, 对, 进来了,哎。 啊,这是淘宝的那个弹窗,这是很烦的啊,我点个允许吧。不点允许的话允许啊。淘宝的弹窗,不然的话他没法操作。要登录啊,登录的话我扫个码吧。 他一直在帮,想帮我们搜啊,但是淘宝好像要登录啊,搜到了,哎呀,算了,我还是给他登录一下吧,等他再出现这个二维码的时候我来给他登录一下,没办法啊,不登录他没法操作好了。 嗯,他点了这个,好让他自己操作,允许 看他搜的是什么啊,我看他任务有没有结束呢? 哈,搜的是主线啊,我们要的是模型他主机,他给我们搜的那个红生生物科技的科技线啊,这他也是能做一些东西的啊,我们重新让他来 主机没讲好, 不知道这里面有没有我的淘宝页面,让他再试一次吧。哎,这些购物网站呢,他对这个限制可能还比较大。 嗯,他搜了 d g x spark 主机。是的, 这个页面是多少钱来着啊?我没看着啊, d g x spark 主机?对,这里我好像这个商品我好像登录了,登录了,我们看它选了几个啊? 这个是多少钱来着?三万两千多,这个呢是多少钱?到最后我们看他返回啥啊?啊,还是可以的他他在跟我们进行对比啊,应该是结束了。嗯,我们看他返回的 收到了啊,已完成对比, 虽然没有动作输出啊,但是他已经完成了,但是我们这个可以看到高效 mini 一 一一,我看是哪一个啊?这个是三万两千多,这个应该是这个。 嗯, mini 一 体机,桌面高效 mini 一 体机,他说的是这个,确实比这个便宜啊,这个是三万八千多的, 其他的我看是不是他最低呢?三万两千多,这里有一个三万零九百的,不知道他那个是怎么选的,可能是在第一页最低的嘛。 嗯,这就是他的那个功能啊,我们初步实现的功能还还可以还可以。

哈喽,老铁们大家好啊,昨天千万三点五的话,发布了好几个小模型啊,九 b 的, 四 b 的, 二 b, 包括还有一个零点八 b 的。 昨天的话我还在用 oppo kla, 就是 那个龙虾去部署,打算接入本地欧拉嘛, 然后用的是千万三点五二四七 b 的, 但是我发现上下文拉到二五六 k 的 话,整个显存占用估计得到九十六 g, 所以 说本地的话 除非有个非常小体量的模型,然后去拉大它的上下纹才有实用价值。然后中午的话,我也是花了一点时间直接写了一个康复 ui 的 节点,然后这边的话我们要求一个 trans 封门的话,就是更新到最新的五点二点零,然后我这边本机的话,我是直接更新到一个开发版,呃,更新到五点三点零 一个开发版的,然后我们进来看一下这个节点,整个节点的话也是非常简单的,然后模型这边的话,我会在跨客网盘上传两个四 b 跟九 b 的, 然后模型是放在这个目录 models l l m 这边直接放置就行了。 然后节点的话你直接在这边下载压缩包,解压放到这个 costino 的 这个目录啊,记得安装一下这个依赖。好,今天的视频就到这边,别说我在水视频啊,其实这个节点还是非常实用的, 整个模型的评分的话,大家来到这个钱万山的发布页的话,也可以看到他跟其他模型的对比,九币的话基本上打败了这个三死币的, 然后跟八死币的也是有来有回的。好,今天的视频就到这边,如果觉得节点有用的话,记得给我的主页这边点个 star, 然后记得给我视频一键三连,你们的支持就是我最大的动力。谢谢大家,我们下期再见。

刚刚开年开元大模型就出现核弹级更新了,阿里通一千万三点五在除夕当天发布,这次更新性能直接拉满。他从预训练阶段就开始学习图文数据,能原生理解图像和长达两小时的视频,可完成视频摘药、视觉编程等复杂任务。 它还具备强大的智能体能力,可自主操作手机和电脑跨应用,完成多部复杂任务,在通用 agent 评测 b、 f、 c、 l、 v 四中表现优于 gemini 三 pro。 很多同学可能会手痒,想自己本地部署试试,但现实往往很骨感,光是七零 b 模型,很多平台跑起来都费劲,更别说这个三九七 b a 七 b 的 旗舰版了。 现在让我来三分钟教会你在阿拉丁平台轻松一键部署。第一步,在 vs code 里新建一个工作台,输入项目名称,选择千问三点五,镜像,选择 cpu, 最后点击提交等待。 workshop 创建 成功后,会弹出一份 readme 文件,如果没弹出文件,可以在终端中输入屏幕上的命令。接下来将 readme 中的项目文件复制到 root 目录下, 接着激活康大环境,然后执行以上命令。下载千问三点五权重, 下载完成后,找到 raw shell 文件,点击最上面的运行绘画,选择 gpu 数量填写八类型,选择 h 八零零八零 g, 在 高级配置中设置外置端口为八零零一,最后点击提交,等待。绘画创建。 绘画创建完成后,在左侧找到绘画,并选择在浏览器中打开窗口,打开后我们可以在右下角看到选择的模型是千问三点五, 我们就可以直接使用三九七 b a 十七 b 的 旗舰版千问三点五模型是不是很简单?关注我,带你学习更多部署知识,感谢收看,下期再见!

你现在看到的这些视频全都是四零九零显卡运行 ltx 二点三大模型生成的。 你可曾在雪山上救过一只狐狸?你是那只白狐,我是那只酱板鸭的妹妹。 女士们,先生们,今天做客的嘉宾是当红榨子鸡、小龙虾。 现在我们来看一下 lts 二点三到底升级了哪些地方。第一,依旧开源,配合四零九零显卡就可以尽情的在自己的电脑上运行它。 第二,大幅度的提高了九比十六竖版视频的生成质量,因为我们的手机屏幕是九比十六竖版,所以对移动端的视频更加友好。 第三,画面更清晰,台词配音更准确,配乐和音效更好听。第四,更懂你写的提示词,无论你写的提示词多么的复杂,它都懂你。第五,视频文本渲染更准确。比如你想生成一个 logo 的 视频,它就能准确地把 logo 的 字母写到视频里。 comfui 第一时间就对 lts 二点三进行了支持。现在呢,我就带大家去搭建一下 lts 二点三的 comfui 工作流。在 runnyhub, 我 搭建了四个与 ltx 二点三相关的工作流,我们一个一个的来,先看第一个, 点击运行工作流,你就可以跟着我学起来了。整个工作流你看起来很复杂,但其实需要你配置的参数很少。 首先你要看这个节点,是个开关,开启表示纹身视频,关闭表示涂声视频很明显现在是开启状态,也就是纹身视频 现在来到工作流的左上角,其中 log in mid 节点我们不用管,因为现在选择的是纹身视频模式,我们只要看提示词就可以了。我在这里写的是标志性的电影制片厂的厂头,以航拍镜头扫过雄伟的雪山峰顶,刺破棉絮般的云层,开始 时值黄昏,天空渲染着身子与金色渐变等等等等。这里有一个站位符叫做 replace name, 我 用 test replace 节点负责把这个站位符找到,然后在下面输入你的电影工作室的名字,比如我写的是 emw studio test replace 节点就会把这个站位符替换成你输入的工作室名字了。 下面就是一些常规参数的设置了, length 表示视频总帧数,现在我们设置的视频帧率是二十四帧每秒,然后根据这个公式,总帧数等于二十四乘以秒数加一。因此我想生成八秒的视频,带入公式就能得到幺九三。 一般支持生成十秒以内的视频啊。当然,如果你的显存足够的大,你也可以尝试十五秒时长。 vs 和 hit 表示生成视频的宽和高, 其他参数不用动,包括模型加载,你就用默认的配置就可以了。点击运行,等待两分钟,你就能得到一段运镜效果还不错的 logo 展示视频了。 第二个 ltx 二点三,生成电影公司厂标视频工作流,其中文声视频开关,这里选择的是关闭状态,也就是说这是一个图声视频工作流。那么此时在 lud 编辑节点上传视频的手帧画面,作为视频的开头, 我设计了一款我们工作室的厂标,我直接上传到了这里,然后输入提示词,中景构图,开场画面精准呈现。这张金色厂标, 橘色短毛毛,穿着灰色针织衫,端坐中央,神情威严镇定啊等等等等,写的很详细,其他的参数跟刚才介绍的一模一样,我就没有改,直接点击生成,等待一会你就能得到一段特效相当不错的电影公司厂标视频了。 到这里你有没有发现我写的提示词都很复杂,因为 ltx 二点三这个模型对提示词的要求很严格,你写的提示词需要包含以下几点,生成出来的视频的效果才会好。第一,需要确定镜头的构图, 最好是使用电影术语进行描述你想要的风格。第二,描述视频氛围,比如视频光线、色彩风格以及你要表达的情感。 第三描述动作,将主角的动作按照时间顺序写出来,尽量的自然流畅。第四,确定运镜,说清楚镜头何时切换,包括镜头移动后的主角状态。 第五描述配音,请使用清晰的文案,描述出视频的环境,音、音乐、音频以及主角对话。对于主角对话,请将台词放在引号内,并注明你希望主角要使用的中文还是英文以及其他语言,还有口音等等等等。 讲了这么多,我相信大家已经蒙了,没关系,接下来我就来讲如何在康复 ui 中使用千万三点五来帮你写 ltx 二点三的提示词。现在来看第三个工作流, ltx 二点三配合千万三点五生成宠物播客视频。 整个工作流我只做了一处改变,就是把原来负责写提示词的节点直接删掉了,取而代之的是添加了一个千万三点五大模型节点。 首先我把 ltx 二点三大模型的提示词拷写规则给到了它,然后呢,我只需要把我想生成的剧情用大白话跟它讲一下就可以了,你看,我就是这么写的, 我想生成一个八秒时长的呃,具有皮克斯动画风格的宠物播客视频主持人是一个柯基犬,嘉宾是一个小龙虾。主持人先面对镜头介绍本期来的嘉宾 ladies and gentlemen, 今天做客的嘉宾是当哄炸子鸡小龙虾 现在确实很火啊小龙虾。然后镜头转到可爱的 q 版红色小龙虾,小龙虾面对镜头腼腆的微笑,示意你给我生成出中文提示词,只要最终的提示词结果到这里,大白话就说完了。 然后你看一下经过千万三点五处理之后给你写的标准提示词版本,尤其你来看一下他写的这个运镜镜头脚本,那叫一个专业,是不是写的特别的好,根本就不用再愁怎么去写好 ltx 二点三的提示词了, 其他的都不要动。你来看一下视频效果是不是特别的 q, 特别的可爱。 然后我们来看一下第四个工作流,使用 ltx 二点三配合千万三点五生成武打电影视频。在这里我把纹身视频的开关关掉了,然后在 log 隐秘之节点上传了一张武侠电影的配图。 紧接着我跟千万三点五说,将输入的图片作为起始帧,生成一个八秒的武侠电影片段。 男主和女主的口音是经典的武侠片里的中文配音,那种感觉。女主问,你可曾在雪山上救过一只狐狸?男主回复你是那只狐狸。 此时女主掏出一只特别大的酱板鸭指向男主,然后生气的回复道,我是那只酱板鸭的妹妹。 之后千万三点五就会把你的大白话写成一个很详细且符合 ltx 二点三大模型规则的提示词。再次感叹一下,写的是真好这个提示词,然后你再等个两分钟,就会得到一段对话效果特别棒的武打电影片段了。 最后我们总结一下啊,第一, ltx 二点三这个大模型开源,它可以部署在本地运行,配合四零九零显卡就能跑。第二,生成的视频效果和配音都很不错。 第三,使用千万三点五可以帮你写出很棒的提示词,且符合 ltx 二点三的规则。 最后,有个地方需要注意一下啊,他对中文的文字渲染能力还是不足的,需要继续提升。如果本期视频对你有所帮助,请点赞收藏,支持一下,这里是电磁波 studio, 我 们下期视频见!

使用千问三点五加翠写一个商业化的 demo, 融合了大量的图表动效、三维场景,技术界面力求工业科技风。千问三点五目前实测的代码能力非常不错,但在微调界面时,建议使用翠,方便选中组建,精细化调整更有效率, 全程没有手工书写一个字的代码。

hello, 小 伙伴们大家好,那么昨天千问团队呢,那个可以说是个地震吧,这个事好多小伙伴也已经看到了,那么 有可能啊,我们现在千问三点五呢,就是我们的版本绝唱了哈,那么 comui 呢?现在也有第三方的插件能够使用这个模型了,我们就看一下怎么去用这个模型啊。首先我们需要装一下这个节点,就是这个 comui 拉玛 c p p 啊这个, 那么这个项目呢,在昨天的话已经更新了,支持了这个千万三点五,那么这个节点安装完以后呢,我们需要下载对应的模型哈, 对应的模型大概我们看看这边哈,他现在提供的是 g g f 的 版本的啊,因为是二十七 b 这个版本的,我这边试了两个模型啊,一个是他这个 q 六这个版本 u d q 六的版本啊,八个多 g 的 那个。那么 使用的时候呢,把这两个模型下载到我们 comui 的 models, 然后呢有一个 l l m 的 文件夹啊,放到这里, 然后这里也要注意啊,我们需要下载这个 mm project 这个文件啊,对应的文件这边有两个,我这边可以推荐下载一个 b f 幺六的,如果你想从大一些的话,可以用这个 b f 幺六的啊,稍微小一点可以用个 f 幺六的啊,他们两个属于是这个适配的一个文件。 那么这个项目的节点呢?其实核心节点我们看看啊,他就这个三个啊,就这三个这三个啊,这个是我们核心的预算节点,这个是模型加载节点,我们这个是他这个参数设置节点啊, 我们看看这里边的模型加载的话,我们就是第一个选择我们这两个模型当中的一个啊, g g f 的 可以用这个 q 六的也可以用 q 二的,那么 q 啊, q 八那个呢?我这边也跑不了啊,显轮占的更大啊,三十二 g 是 跑不了我这边, 那么这两个模型的显存占用呢?这个 q 六的大概要吃到这个二十七 g 啊,二十六七 g 左右的显存,那么这个 q 二的最小号的这个呢,它只需要十二 g 不 到的显存就可以使用哈, 然后在这边 improject 这个选项呢,选择对应的这个量化的一个参数哈,可以选择 bf 幺六和 f 幺六的,然后在这个下边这个 chat handle 这边啊,选择我们的前文三点五啊,你可以选择带 syncing, 也可以选择不带 syncing 啊, 接下来就是我们这边的下边这个参数设置节点啊,设置我们最大的 token 数这些, 然后就是这个核心节点,核心节点的话,我们在这边呢有几个选项要注意啊,首先是我们的任务类型啊,任务类型的话我们可以选择他这边,看到没有,有几个第一个是空的啊,就是你全部看你自己写的内容啊,他去帮你生成。还有一个就是 normal description 啊,就是说作为文本生成的这个, 还有就是说这个,呃,提示词生成啊,包括这么几个选项啊,还有这个电影选项的,还有这个创意类的哈,还有创意类的,我们可以选择这些啊,我这边就用了这个 cinematic, 就是 电影类这个创意类的,让他去写这个提示词啊, 然后在第一个栏里边呢,就及时告诉他用中文描述啊,下边这个 system promote 啊,我就没有写。这里还有一个点要注意啊,就是这个 模式选择,模式选择的话,我们看这边它有一个 one by one, 它那个意思就是怎么讲呢? one by one 的 话就相当于图片是一个,每次只读取一张, 那么还有第二个选项就是 image 啊, image 是 什么呢?它就会读取整个这个里边加载的所有图片,即即便你加载是一个视频,它也只是读取图片哈,还有一个就是 video, video 的 话就是会把你输入图片当成一个整段的视频去呃,去反推哈, 那么就是这里的这样一个选择,下面还有个最大的一个针数啊,还有一个最大的尺寸,还有这个种子的选择啊,就在这里选择。我们这里呢有一个强制卸载,我建议大家把大家把这个打开啊,就是说如果你把它整个接入整个的一个工作流当中呢, 你把这个打开以后,它会自动的把我们这个模型去卸载掉哈,在运转完以后它会自动卸载掉,那么我试了这个三个模式哈, 啊,第一个模式就是我们这个 one by one 啊,只对单真图片进行一个提取,那图片反推呢?我们也试了一下啊,用了这个生化危机九的这个海报,我们反推了一下,整个的复现的效果还是很不错的,包括他的文字,包括整个这些细节的一个 场景啊,然后呢还有一个就是怎么讲呢?是让他自己去写,我没有接触图片啊,直接没有接触图片,直接让他去写,呃,写一个武侠电影打斗场景的第二次,还有一个,那就是视频的一个加载啊,视频的一个反退。 那我觉得这个反推的效果都不错啊,很精准很精准啊,而且运算速度也挺快,因为 g 六 i 的 话,他只用了三十多秒啊,都是三十多秒到五十多秒之间,包括这个视频的反推也只用了三十多秒啊, 当然这个也是目前我们可能在开元社区能用到的一个绝版啊,大家是且用且珍惜吧,那就是可以去试试这个版本啊。 ok, 那 就给大家分享到这里。