嗯嗯嗯。
粉丝1.4万获赞8.0万

大家好啊,最近不是千万三点五的中小模型都发布了吗?我本来准备是想测一测模型,给大家汇报一下,结果没有想到啊,我居然迷上了另外一件事,我给你们看一下,这是一台我的工作站, 我现在把降噪关掉,给你们感受一下, 怎么样 怎么样,听到了吗?因为这个模型真的太好玩了,所以导致我三天都没有关这台服务器。 好了好了,回归正题啊,原本只是想试试这个模型能不能用在 openclaw 里面,结果一发不可收拾,我这个工作站都暴躁的运行了三天了,我老婆女儿都开始吐槽了,而且导致我最近是严重缺觉,成天就脑子里都想的都是这五只龙虾, 我也不知道,下次分享的时候说不定就是十只了。但是今天呢,我还是先给大家汇报一下我这个千万三点五的测评数据吧,然后我再给你们详细的分享我这几天的奇妙感受。 我先说重点啊,我这次测评用的是 s g 浪,推荐大家都用这个单卡,用的是四十八 g 显存的四零九零魔改版 f p 八的精度,这个配置呢,能跑二百五十六 k 的 上下文。 值得一提的是,应该是只有 s g 浪完整的支持了前缀缓存,也只有在前缀缓存才能体验住千万三点五这种混合注意力架构的真正牛逼的地方。我举个例子,如果你是一百 k 上下文,冷启动 perf 阶段就是十秒钟, 但是如果你带了缓存就是两百毫秒,所以直接的结果就是,你哪怕有很长的上下文,但是他的首字延迟就是很低,输出还特别快。 我的测试场景给大家讲一下,就和我们的真实场景特别像,我每个模型测试都是从二十 k 上下文开始,一直增长到二百 k, 每次增加四 k 上下文,模拟我们真实环境下的长任务,而且他是在缓存命中的 三十五 b a, 三 b 这个模型啊,他最初的速度是一百二十头克每秒,最后衰减到了八十,衰退不算多。 而二十七 b 这个模型就逆天了,虽然它一开始就是个归宿,二十 to 每秒,但是到了二百 k, 它依然能保持十八 t 的 每秒。而且最离谱的是,你们看到了吗?因为它有缓存啊,所以即使缓存里有两百 k 的 上下文, 我输入四百 k 的 togg, 它的 perf 耗时只有两百毫秒。所以实际的生产环境,用人话来说就是在那种多工具调用的环节, 其实你感觉不到它很慢,因为工具调用这个场景啊,它输出的 token 都比较少,所以它响应也很快,很快就出结果了。你的直接感受就是对话再长,它的速度都不会衰减。我还做了一个测试啊,就是用 agent teams 同时开六个 agent, 哎呀,那个感觉真的是太爽了, 速度还能叠加,我也不知道是为什么,就直接从后台的输出,你就能看到它能达到一百二十多个每秒,而且这个二十七 b 模型,它是可以一键启动 agent teams 的, 我之前拿千万三点五 plus 都测试失败了, 他能同时开六个成员,速度能叠加到一百二十 t, 而且我还测了一下一百二十二 b 那 个模型,我个人的这个体感二十七 b, 他的智商是超过这个一百二十二 b 的, 只是个人感觉啊,就是从各方面数学,编程能力他都很强, 唯一的缺点就是他单进城特别慢,于是我就想到了一个妙招,哎,单进城很慢,那我就多进城呗,我可以拿它养龙虾呀,而且我可以一次养好几只,你养一只龙虾慢,那我养多只他不就快了吗? 这就直接导致我的服务器一直在咆哮,二十四小时都是这个咆哮状态,一直都满载,我家电费就更不要提了, 给大家分享一下我的龙虾啊,我现在一共养了五只龙虾,这个是主控,然后他部署在一台服务器上面,然后剩下的四个是在这台服务器的容器上面。给大家看一下,这是这四个小弟, 汤圆、奶茶、闪电、布丁,然后他们自己的持久化文件,都有各自的目录,然后这里面有他的记忆啊,还有他的目标啊, 我现在让他们干了一件什么事呢?就是主控,主控大佬会通过定时任务,就作为导师来检查他们每一个人的这个目标文件,看他在这个周期里有没有完成目标,然后给他写入一些新的目标。然后呢,这些小弟也是通过定时任务启动的, 然后他每次定时任务就是会完成他的这个 goals, 然后更新他的 memory。 他 们的目标是什么呢?就是跟他们一起开发了一个论坛,然后这个论坛用于让他们沟通,他们一直 在开发这个论坛需要的功能,然后一直在写入代码,然后重新部署。这样子论坛长什么样呢?大概就是这个样子啊,他们在不停的会发一些信息, 就是汇报一下自己的工作进度呀,就是彼此沟通吧,但是我觉得现在还不是很好,他们还是各干各的,还没有彼此的连接起来。但是这是我的一个小的社群实验,就我想看看他们能不能给自己开发一些东西,让自己变得更好这样子, 所以我现在也在尝试不同的部署,但是现在你国产的这些 coding plan, 他 们都有限制并发嘛,对吧?所以你想要养这么多只龙虾,同时你就你也干不了别的了。我现在呢,给大家看一下,我现在在模拟当初论坛开发那个流程,现在是有六个 agent teams, 有 六个成员, 然后他们全部是通过千万三点五二十七币这个筹密模型在本地运行。看,就是这个我在这个 s g 浪上部署的这个模型,然后后台的这几只龙虾呢?他们是定期任务,他每十分钟会有一波高峰, 但是虽然说每一个县城只有大概二十多头肯,但它整体你看它有时候能跑到一百,甚至能到一百二十多,就是它六个跑满的时候是有一百二十多头肯每秒,然后它 prefill 的 速度也很快,所以其实我感觉虽然如果单县城去使用我会很烦,它的速度很慢,但是我一次开很多,我就不管了,让它们自己去玩去, 我就觉得这种效果还蛮不错,至少这个速度我还是能接受,毕竟他是个本地模型,而这个二十七 b 模型其实非常聪明,非常聪明,我如果把这个二十七 b 模型换成三十五 b, 那 个三 b 激活的采用,那这个速度就离谱了,差不多六七百头肯没秒完, 但是你就会发现他们一直做一些无用功,但是二十七 b 模型就会感觉更聪明一些。反正这个论坛我发现不断在产生一些变化,我录完刚才那一段,然后我写了一些提交了, 但是我看到论坛他们已经把论坛已经甩的不像什么了,我觉得非常有意思,不管他们干成了什么事情,或者没干成什么事情,你你都能发现出一些很有趣的事情。我们看到这个我现在这个主控已经很着急了, 他说他大家都没有提交,然后我现在给他只是让他做一种新的沟通方式,但是几个小弟嘛,其实就觉得还不错,他们觉得这个哎,任务都做完了,没事了, 就是你们也可以试试这样养龙虾,说不定大家能摸索出来一种,让他们用一种方式,能协调合作,哎,我觉得可能就会很有收获。所以如果你是有四十八 g 以上统一内存,比如说 mac mini 啊, mac studio 啊, ai max, 三九五啊,或者是你有这个五零九零,或者是我这种 四零九零魔改版啊,我恭喜你,你买的硬件升值了,因为他们养龙虾体验实在是太好了, 就是因为三十五 b 和二十七 b 显存差不多啊,你想想你就相当于有了两种模式的模型,可以一键切换,一种是速度暴躁,但是智商略低,有点像战士那种。 另外一种就是归宿,但是智商爆表,有点儿像法师,你可以随时切换他的人格,是不是这个道理?当然了,你依然可以用那种 coding plan 版的高级模型,用它来做编排者,就相当于你养了一个老大,但是小弟可以开很多, 你可以尝试能不能形成一个蜂群,我最近就在实验。那我之前不是还分享了一个进化体系吗?如果可以用循环的方式来运行 evover 龙虾的技能体系,就能快速的自我优化。我最近也在不断的尝试这个领域,看看能不能实现我二十四小时的路谱,看它能不能自我进化。所以请原谅我这期没有什么干货,都是我的一些畅想。 我这个人就是脑洞比较大,但我在 ai 时代所有收获都是受益于这种脑洞大,所以从这篇起也算是开启了我的一个新系列。我后面会不断地分享我养龙虾的心得,也请大家持续关注。好了,以上就是本期全部内容了,谢谢大家!

hello, 大家好,今天我们继续来探一探 token 自由的 open cloud 个人助理。本次主角是最近正式开源的更强智能、更低算力的千万三点五中等规模模型系列,融合多模态学习、架构、效率等多项创新。 本次开源包含四个系列模型,可高效应用于 cloud code codex、 open code 以及 openclaw 等应用框架。其中今天我们重点看千万三点五杠二七 b 的 模型,其定位为均衡型,在复杂 agent 场景表现出色。 同时与其他模型对比起来, quan 三点五到二十七 b 在 i f bench, g p q a diamond, h m m t, february, twenty twenty five 等多个权威基础上表现突出,尤其在数学推理指令遵循和多语言知识任务中接近 甚至超过更大餐数量的模型,展现出高效的性能表现。废话不多说,让我们快速开始吧! 本次同样采用运维神器 one panel 进行验证。首先我们先看下本地模型服务器的资源配置情况,然后同样的,我们基于安装好的开源本地大模型运行管理工具欧莱玛, 在欧乐玛官网找到最新发布的千问三点五杠二七 b 模型,下载后在模型管理中确认模型正常运行,这里省略了下载过程。 温馨提醒下,正常下载大概需要二十到三十分钟。大家记住这里的模型名称,千问三点五,冒号二七 b。 一 会配置名称的时候,需要本地模型账号添加本地模型账号,替换当前的 d p, c, k 在 线模型 添加本地模型账号。其中 a p i t 为任意字母串, base 一 五二 o 为欧拉玛访问地址加斜杠 v 一 欧拉玛访问地址从应用商店的跳转链接中获取,同时确认下正常运行。账号维护完成后,进入智能体的配置页面,完成模型切换。模型账号选择刚才维护的本地模型,勾选手动输入模型, 然后输入欧莱玛千问三点五冒号二七 b, 即刚才记录的模型名称。在线模型已经替换为本地部署的千问三点五冒号二七 b 模型了。接着让我们点击跳转链接测试下效果吧!保持惯例,先问声好, open call 正常反馈了, 说明本地模型已经接通,再让它搜集最新的 ai 动态去工作了。但是提醒我缺少 a p i t 无法工作。 大概一分钟不到完成反馈。下面我们让他自己安装一个 web 搜索 skills 技能 tablie, 一 分钟完成配置,并帮我根据历史绘画搜集了最新的 ai 动态。 nice, 看看汇总的 ai 动态新闻, ai 助理干得不错哦! 最后我们看一下 token 使用情况,确认是本地模型哦!本地模型太赞了,可以无限 token 用起来了!小伙伴们还等什么?以 one pawn 为基作管理你的欧乐玛和 open claw, 让强大的千万三点五专属为你干活儿!

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

兄弟们,今年春节 aa 券直接炸了!就在除夕夜,阿里突然发布了全新一代模型千万三点五。很多人可能以为这只是一个常规升级,但实际上这次定位非常夸张,它的性能已经对标咱们的三级别模型,而且最关键的一点是,它是一个真正的原生多模态模型。那什么叫原生多模态呢? 以前很多 ai 其实是拼接的模态,就比如先识别图片,再转成文字,交给语言模型理解。但前文三点五不一样,它在训练阶段就把文本、图片甚至视频统一进同一套架构里,本质上是在用一颗大脑理解所有信息。也就是说,你丢一张截图,一段视频、一段需求进去, 它是统一理解,而不是分模块拼装,这才是多模态真正成熟的标志。那再说说这次模型为什么这么猛?成本三点五总参数接近四千亿,但真正参与计算激活参数只有一百七十亿左右,听起来只是数字变化,但意义非常大,因为它用的是稀疏 mo 一 架构,简单来说, 需要哪个专家就调用哪个专家,用不到百分之五的算力,撬动了近万亿模型的能力,显存占用直接降低百分之六十,推理吞吐量最高提升十九倍,分成人话就是更强了,还更便宜了。这也是现在大模型很重要的一个趋势,不是越大越好, 而是越聪明越值钱。所以今天咱们就来看一下千万三点五最炸裂的四个实战玩法。玩法一,一句话生成完整应用。第一个玩法,我们直接来个狠的,最近网上不是爆火一个吃豆人小游戏吗?那我们不让模型直接生成,这里我们考验一下千万三点五多模态的能力。 我们不让这个模型直接生成,而是先塞给他一段吃豆人游戏的视频。看完视频之后,我们只学出一句话,按照这个玩法,帮我做一个吃豆人的游戏。注意,这里难度已经变了,不是 直接写游戏,而是先理解视频中的玩法和逻辑,比如角色移动规则,斗智判定机制,还有得分系统,结果你会发现,它真的能根据视频内容生成完整的游戏结构。这背后的本质就是视频理解加逻辑,抽象加代码生成,三件事一次完成,这才是原生动画态真正恐怖 的地方,已经不是简单的写代码了,而是在理解世界之后再创造。玩法二,丢两个小时视频,让他做分析。第二玩法,我们继续加难度,直接丢一段超长视频进去,比如两个小时的发布会录像,然后只问一句话,帮找出所有高光片段,并写一个爆款脚本。传统 a 早就上下文爆炸了,但千万三点五之 是超长上下文理解,可以直接做视频级分析,这对内容创作来说意味着什么?以后可能真的只需要丢素材,然后直接出成片思路了。玩法三,手绘草图,直接生成代码。第三个玩法更离谱一点,随便拿一张纸画一个 u i 草图,比如左边是菜单栏,右边是内容区,中间再来一个卡片布局, 直接拍照丢给模型。它可以直接生成完整的前端代码布局,逻辑样式结构,甚至你截图一个报错页面,它还能直接帮你定位问题在哪里,这就是典型的视觉理解加编程融合能力。玩法四, ai 自己操纵电脑 a 阵的能力。 这是一个复杂的表格,缺数据算总计,分区统计。我们只说一句话,帮把缺失的行列补齐,然后算出总价值。接下来,困三点五就会自动识别界面, 自动定位单元格输入公式,批量填充,最后甚至自动保存文件,本质就是 g u i 理解加任务规划加电脑操控。这已经不是 ai 帮你做工具了,而是直接替你干活。 所以你会发现,千万三点五真正的意义可能不只是一个模型升级,而是一次方向上的转折。从原生多媒体,到高效 m o e 架构,再到 a 振腾能力萌芽,他在做的事情只有一件,让 ai 变得更像基础设施。甚至阿里现在一个很明显的目标,就是 把 ai 的 价格打到像水电煤一样,更便宜、更普惠、更基础设施化。当模型越来越强,但成本越来越低, ai 才可能真正进入全民时代。而千万三点五,很可能就是这个阶段的标志性节点。

最近,千万三点五一次性发布了四款中量级模型,最有争议的一点不是参数变大,而是三五 b 对 上两百三十五 b。 如果小模型在多项能力上接近甚至超过上一代大模型,那我们过去几年坚信的一个逻辑可能正在松动。 更关键的是, flash 版本默认支持百万级上下文,这意味着它可以处理完整代码、仓库、超长日制,甚至减少 r a g 的 分段损耗。与此同时,强化学习和数据质量被放在更高优先级 模型不再只是知道的多,而是回答的稳。所以问题来了,如果训练策略比参数更重要,那么未来模型的竞争会不会从谁更大变成谁更稳?这件事对工程和测试的影响可能比想象中更早到来。

龙虾加困三点五能擦出什么样的火花呢?我们知道困三点五在除夕夜正式发布了,它呢也是号称最强的开源模型,它的能力可以说拳打 g p t, 五点二 叫 t cloud, 四点五是可以和国际的这些顶级的大模型搬一搬手腕的。那好,那么这样一个国产的重量级的开源大模型,我们能不能在龙虾里面免费调用呢? 答案是可以的,接下来一个视频,带着你从零到一的在龙虾里面去接入困三点五,完成免费的调用。好,那话不多说,咱们直接进入正片吧。那么接入的步骤呢?其实也不多啊,总共呢四步就搞定了。首先第一步啊,如果你本地没有欧拉玛的情况下, 你先下载一个欧拉玛,注意下载最新版的,如果你的欧拉玛很长时间没有更新的,那么也是一样先更新到最新版本啊,那么这个没啥好说的,你呢,就把它下载下来,一路下一步就可以安装了 啊,安装完了之后呢,接下来咱们要在我的欧拉玛上去安装你的问三点五的模型。好,那么安装的话怎么安装啊啊?复制这行命令,然后这时候呢,把命令输进去就行了, 这个就是开源的问三点五的模型了。好,然后这时候敲回车,咱们只需要等待欧拉玛去安装千问就行了,很快咱们就可以看到。哎,我的千问三点五就已经安装到本地了啊,这时候呢,我知道有同学就说了,说,磊哥啊, 我本地的电脑配置不是特别高,问三点五能不能部署啊?这个还真能,为什么呢啊?因为在欧拉玛里面的这个问三点五的这个模型,大家可以看到了,后面跟了一个谁呀? cloud, 这个是欧拉玛新推出的一种 云端的模型啊,这些新模型呢? ok, 大家可以看到它都是有 cloud 标识的,像 win 三点五呀,智普的五呀,还有像 mini max 的 二点五啊,都是 cloud 的, 那么这个 cloud 是 什么意思啊? 啊?它指的是欧拉玛远程帮你已经部署好了满血版的这些模型了,你只要有欧拉玛的这个客户端,你就可以快速的去连接欧拉玛帮你部署好的这个开源模型了,所以这时候你不需要担心自己的电脑不好,因为这个满血版的大模型, 它的本质上是没有在你本地部署的,而是在欧拉玛的服务器上部署的,你有欧拉玛,你是可以直接去用的啊,所以它是这样的一个逻辑,因此呢,你电脑不好没有关系,是可以去用的。好, ok, 那 么很快咱们就部署好了啊,部署好了之后呢,接下来第三步啊,咱们就去登录我的欧拉玛账号。好,这时候复制这行命令, 来到命令窗口里面输入这行指令敲回车,然后敲回车之后呢,它会自动打开页面啊,这个是欧拉玛的登录页面,如果说他没有出现,大家看这个地址了没,复制这个地址,手动的粘贴到你的浏览器里面就行了。好,那这时候 ok, 去填写你的欧拉玛账号。那有人说,哎,那磊哥我没有欧拉玛账号怎么办?那没有邮箱的情况下呢,我们就去点击底下这个注册按钮啊,然后点击完成之后呢,然后接下来 在上面这个输入框里面去填写你的邮箱信息啊,那我就填写我的这个邮箱信息,点击继续。好,这时候呢,他让你去输入创建一个密码啊,那你就输入密码,然后点击继续, 然后点击下一步。好,点击完成之后呢,他要求登录到你的邮箱了,他把这个验证码收到你的邮箱了。好,输入完邮箱之后呢,他要求绑定一个手机号啊,那我们这时候呢,就去填写我们的手机号, 然后点击发送验证码。好,然后拿到手机上的验证码之后呢进行输入啊,输入完成之后呢,咱们就完成了登录了啊,大家看到没?我就登录了 啊,登录完了之后呢, ok, 去点击呃,底下的 connection, ok, 它就显示已经登录成功了,那么到这咱们的第三步就已经完成了啊,完成之后呢,接下来咱们就可以执行最后一步了, 使用这行命令来去启动你的 open class 啊,就可以完成 open class 接入欧拉玛里面的问三点五的模型了。好,那这时候呢,咱们最后一步啊,使用这行命令 来启动进行交互了。好,那这时候咱们来试着启动一下,回到命令窗口里面,把这行命令呢输入进去。好,稍回车。好,那么等待片刻之后呢,咱们可以看到啊,咱们的 open class 了,并且使用的模型呢,是欧拉玛的千问三点五的 cloud 模型啊,但是能不能用呢啊,那么接下来咱们可以打开命令窗口, 或者是打开咱们的飞书啊,来测一下。那我这呢就打开我的命令窗口啊,然后完了之后呢?好,接下来咱们就呃给他新开一个 new session 吧, 新开一个窗口啊,然后咱们来问一下他,我给你更换了新的大模型,告诉我你使用的大模型是啥,那咱们就给他一行这个命令啊,然后点击 send。 好, 那这时候咱们来看一下他给咱们返回的模型是啥,看到没?那他说的是我现在用的就是啥呀,问三点五的模型了,那这样的话,咱们就使用 openclo, 可以 免费的使用 欧拉玛里面的问三点五的模型了,好,这时候可能有人就问了,说,难道这么简单吗?我可以这样免费的去使用欧拉玛的云端模型吗?有没有限制啊?答案是有的啊,比如说欧拉玛的云端模型,人家也是有成本的吧, 所以说那么欧拉玛的调用云端模型的调用也是有额度限制的,然后这个额度限制在哪呢?给大家来看一下啊。这时候呢去点击账号右上角的这个账号啊,点击完了之后呢,在这大家看到没, 这块呢就是云端模型的使用限制啊,它是有一个百分比的,那么每周它会有一定的额度,然后每四个小时会有一定的额度,那么当你把这个额度用完之后呢,那么云端的模型就不能掉了, 所以我刚才问了两个问题,那么基本上就消耗了百分之一点二,所以这个免费的模型的话,每四个小时应该是能够调用一百次左右啊,根据你的这个上下文的这个计费是不一样的, 所以总体来看,这个免费的额度相比于其他的免费的额度来说啊,欧拉玛还是更实在一些。那么到这儿咱们就完成了在 opencloud 里面去接入问三点五的功能了。我是李哥,每天分享一个干货内容。

大家好,今天非常高兴网上看到消息说 queen 三点五马上就要发了,有朋友不是让我分享关于信息源的事吗?那我就给大家分享一下我怎么来看这个开源模型发布的信息。 首先我会在这个 twitter 上,如果模型发布了,总有那些比我更快的人,他就会意识到他们会从这个 transformer 这个 ripper 上去看到一个 pr 要支持三点五了, 我会顺着这个信息找到 hackinface transformer 这个 ripper, 在 它这个 pr 里头,我们找到昆三点五,到此为止,基本上你就知道了,这个模型肯定要发,基本上就是一两天内 就会,这个 pr 就 会通过,肯定就会快速的去发 v r m s g long 这之类的也会赶快去更新去。你在他们的 pr 上肯定也能找到,但是不要紧,我们看 transformer 就 行了。 以前我都是这样子的,我会看这个 file change 去找他,看他这 md 里写的什么,然后再看一下这些乱七八糟文件,当然以前看的都挺费劲的,现在我们不需要了, 我们现在怎么样看?我上次有分享过我做的这个 github kb, 我 会让他用这个 gh 命令去搜 pr, 帮我搜索一下哈哈。根 face 的 ripper, 调查一下三五相关的 pr, 关键是让他调查一下改动的代码。我想知道模型,比如我现在最希望知道三点五是个什么模型架构,然后有哪些新的参数的模型。好吧,他就开始调查了, 咱们不用看他这个中间的过程,咱们直接看他的结果,他找到了点,就我刚看到这个, 他讲了三点五居然是用混合注意力即止,也就是说 nex 的 架构,这前几年分享过八十 b code nex 是 吧? 接下来我们看了一下,它还有一个多模态模型,三十困三点五,还有一个稠密的模型,是一个三点五九 b, 对, 一般九 b 模型都是一个稠密模型,混合专家模型三十五 b a 三 b, 不是 三十 b 了,同志们, 这个是真的还是假的?这我们一会看一下,我觉得搞不好是不是 ai 的 幻觉,为什么不是三十 b 了,变成三十五 b 了,但是我们后面讲怎么去验证它, 我们现在可以知道的是三点五和三点五 m o e, 他 们都用了这个 max 架构,然后我就问了三十五 b a 三 b 是 不是 max 架构, 是不是全部,是不是都是混合注意力,问他在哪,让他帮帮我找到确切的拍文件,一般我的感觉是 md 文档可能不一定真实。 angelface, 有 时候 md 文档上出现的模型不一定是真的会有,但是拍文件里是一定会有的。 让我让他调查,给我调查出处,他就会去搜代码,他现在是用这个命令去把代码全部读一遍。 ctrl 三五 m o e text config, 它是从 ctrl 奈斯 config 继承的,所以它就是一个奈斯架构,所以我们现在可以得知确实是有三五 b a 三 b, 它是一个奈斯架构,也就是说千万三点五 版本,他以前已经不再会有过去的 m o e 架构,所有都是混合注意力,这个很厉害。我们来看三五 b a 三 b 的 来源,确认他给你找到了这个拍文件,找一下这个文件 三五 m o e 是 吧?好吧,我不看代码了,我就看他的解读就行了。然后我问他多模态模型是不是 nice 架构,看他的回答, 多模态模型也是 next 架构,我的天,多千万三 v l, 千万三五 v l 也是 next 架构, 这个是千万,彻底全部移到这个 next 架构上了,以前架构彻底不用了,我觉得这也是好事,这个架构是真的挺快的,也就是说以前的千万三 v l 三十 b a 三 b, 现在应该改成三十五 b a 三 b 了。然后 omni omni 没有,好像这个千万三 v l 还是图,只支持图像和视频,没有 audio, 是 没有更新的,就是三十五里头没有 omni 的 东西, omni 我 们可能还得再等一等。好了, 今天就是给大家讲一下怎么样去从一个信息源一直追溯到代码层面,包括对 ai 的 追问,最终我们能获得的到一个准确的信息。 这个应该不会假吧?我不想去读代码,我就信他吧,他不会读错的。我,我觉得应该是,那大家拭目以待吧,千万三点五更新,第一时间我一定会去测的,三十五 b, 非常好的一个尺寸, nice。

今天来做一个二零二六年至今的 ar 大 模型本地部署全科普,跟大家讲明白到底什么人要做本地部署,什么行业适配本地部署,什么硬件匹配,什么样的本地部署需求,这些在这一期都有答案。 在这一期,社长会按照模型分类、硬件门槛、设备适配、部署目的,理性选型这个顺序,一步一步化解大家的本地部署焦虑,也平息一下评论区无穷无尽的争论。每次看到这个评论区,我脑子里面就是这段画面,七个中队,七个中队 好像手里有七个中队就可以暴打天下了。为什么会造成这种情况呢?社长大概是知道原因的,因为多数人会把大模型和 deepsea、 千问划等号。其实现在的主流大模型按功能已经分化出了五个大类。第一类也是本地部署中最常见的类型,叫上下文推理模型, 它的核心作用是处理文本相关的任务,从日常对话、文档总结到代码编辑、法律、医疗检测、销售、文本解析都靠它。特点是侧重逻辑推理,对视觉音频处理能力弱,也是硬件门槛跨度最大的一类。 正因为他的硬件门槛跨度大,所以他也成为了评论区炒翻天的元凶。关于硬件门槛的问题,社长等一下会展开来说。这里先介绍模型分类,上下文推理模型,国内的有这些,我罗列在了左边,国外的有这些,我罗列在了右边,需要详细了解的可以暂停观看。 第二类是纹身图,纹身视频模型,这类模型侧重视觉内容生成,纹身图门槛相对较低,纹身视频门槛较高,对算力显存要求更苛刻。目前国内主流的模型如下,第三类是声音合成配音模型, have you forgotten who promoted you to this position and who did everything? 这类模型侧重音频生成,分为通用配音和专业配音两种,门槛跨度比较大,轻量版可以个人部署,专业版需要企业级硬件。 第四类是多胞态融合模型,这类模型是全能型悬设,可以处理多种任务类型,但硬件门槛普遍比较高,大多适合企业部署, 后续如果推出轻量版的话,也可以个人尝试一下。第五类是行业垂直模型,这类模型是二零二六年本地部署的热点, 针对性极强,仅适配于特定行业,大多需要付费授权,部分开源模型可以自定义微调。当然,这类模型针对的也不是普通人或普通企业,就不展开说了。接下来就讲讲大家比较关心的硬件门槛问题。 为什么有的模型能用洋垃圾搞定,比如好几年前的特斯拉 v, 一 百显卡,旧的 cpu 什么的,有的却必须上顶级配置。 市长从技术底层拆解一下,结合二零二六年模型的特性,讲一讲核心逻辑,再补充一些特殊硬件门槛模型。先明确一个核心前提,大模型本地部署的硬件门槛取决于模型参数、规模、计算精度和任务类型三个方面。这个很好理解,参数越多,显存或内存的需求就越大, 量化精度越低,硬件要求就越低。任务类型的现在一般分为生成类和推理类,生成类比推理类更耗算力。如果你只是上下文推理,而且对于上下文的长度要求不高,这就给了洋垃圾生存的空间。 以特斯拉 v 一 百十六 g 显卡为例,它的 f p 十六算力只有一百二十五 taylor flops, 放在二零二六年性能远不如 rtx 四零九零五零九零 a 一 百这些显卡。但首先,常文本推理的核心是上下文窗口的 talking 处理,侧重显存占用控制,而不是瞬时算力爆发, 计算过程是逐个 talking 推理,所以单次计算量不大。其次,二零二六年的长文本推理模型,无论是采用 m o e 架构优化,还是基于琳尼尔架构做优化,都大幅降低了对显卡算力和显存的需求。因此,基于这两点的 v 一 百显卡才能顺利上港。 那纹身视频模型为什么不能用特斯拉 v 一 百这类显卡?纹身视频是目前本地部署门槛相对高的模型类型,哪怕是轻量版生成十秒视频, 也几乎无法用 v 一 百流畅运行。这主要是两个方面的原因,一是纹身视频需要逐帧生成,加帧间连贯性优化, 单次计算量是纹身图的几十倍甚至上百倍,这种瞬时的算力爆发,不是 v 一 百这类显卡能够撑得住的。二是二零二六年主流纹身视频模型都要依赖 tensor core 核心,用于光线追踪、帧间融合, 而 v 一 百类显卡的 tensor core 核心性能薄弱,无法适配模型的核心优化,即使强行部署,生成的视频也会出现帧断裂、模糊、色彩失帧这些情况,失去实用价值。 除了上面提到的显卡硬件门槛,还有一些特殊硬件门槛模型,比如专业声音合成配音模型,这种模型的核心门槛除了看显卡之外,对 cpu 和内存的要求也比较高。再比如多模态融合模型,需要大显存的多卡系统加大容量内存。 其他还有些特殊门槛的行业垂直模型,和我们普通人相隔较远,就不一一列举了。那哪些模型能用个人电脑或者洋垃圾搞定呢? 哪些必须上好的配置呢?接下来社长就按使用场景加硬件成本谈一下设备适配的问题,再来给大家明确一下个人、中小企业、大型企业分别适合哪些模型,避免大家盲目跟风配硬件。 首先是个人电脑或者洋垃圾可以搞定的模型类型,依次是上下文推理模型、纹身图模型、声音合成配音模型,这几类模型用个人电脑就能轻松搞定, cpu 最低 i 七八七零零 k e 三二六六六 v 三,显卡最低特斯拉为一百十六 g r t x 三零六零十二 g, 内存三十二 g ddr 四硬盘最低五百一十二 g, 固态总投入甚至低于五千块钱,可谓是花小钱办大事的典范了。 然后是必须上好配置的模型,依次是纹身视频模型、多模态融合模型、行业垂直模型、专业声音合成配音模型,适合企业、专业工作室重度需求者的需求。企业是追求时间、效率和稳定性的, 谁也不愿意看到工作交给 ai 后, ai 也干不完,还老出问题,那就太耽误事了。比如社长最近对接的一个项目, 要求一天要转一千小时的语音,转文字最好控制在八小时以内完成,这样这台机器白天可以用来跑十人并发的大模型,晚上用来语音转文字, 这就相当于基本上让他二十四小时不停歇的干活了。这种配置那必须要上好的,如果他撂挑子不干了,工作就落下了,损失的可就不只是工作量那么简单了。企业级配置基本上都是三万起, 而且最近因为内存硬盘、显卡涨价,随便配一下都要四万加了。所以无论是企业或者个人,如果不是有明确的部署目的, 不要轻易来找社长配机器,因为这里面不只是硬件的投入,还有后续软件开发部署的成本、操作机器的学习成本,这些都是必不可少的支出。至于机器硬件配置,社长就不展开了,前面的视频也都有讲解,有兴趣的可以翻一下前面的作品。 下面就来说一说评论区说的最多的争论其实没有绝对的好坏,核心是模型适配,不同设备有自己的适配场景,也有明确的局限性。 a m x 三九五、苹果 mac mini 与英伟达 d g x 基本上可以归类为个人轻量企业级 ai 整机方案,它们都支持上下文推理与轻量纹身图,但纹身视频能力差异显著。 ai max 三九五和 mac mini 仅能跑低分辨率,轻量纹身视频对于重度高覆盖场景效率不足, d g x 则可以流畅运行全类型纹身视频适配。专业创作与企业高覆盖需求。三者核心差异在于 tensor core 的 支持算力规模与内存扩展能力, 需按需选型,毕竟对于一个靠 ai 短视频获得收益的创作者来说,一天发一条视频和一周发一条视频还是有很大区别的。 标准塔式主机确实看起来很笨重,它的核心优势是可升级,支持多卡兼容,性能强劲, 搭配不同的硬件就可以适配市面上所有模型的显存和算力,需求,能力比较全面。随着模型需求的增加,还可以通过升级 cpu、 内存、显存、硬盘来进行适配。当然,它也有它的缺点,体积大、功耗高、成本高。对于个人来说,性能过剩了, 所以没有最优的设备,只有最适配的设备,争论谁更好没有意义。核心看你要部署什么模型,满足什么需求。 最后,社长要说的是理性选型的问题。对于个人,如果你对于大模型没有明确的使用需求,可以先从个人电脑洋垃圾开始进行低成本尝试,慢慢发现硬件配置跟不上了,再向更好的硬件迈进。 对于企业,同样也要有明确的需求,比如采用云端的方案,要支付高额的 talkin 费用,那你就可以选择本地部署,通过一次性的硬件投入来降低成本。 比如你是敏感行业,很看重数据安全,本地部署就是你的合适选择。比如你的企业在生产环节或是业务环节需要大模型来代替人力工作,同样可以选择本地部署。如果你只是要写写文档、计划书啥的, 也不涉及到啥秘密,在线的就挺好的,完全不需要折腾本地部署大模型了。如果你还没有明确需求,单纯好奇,那更没有必要本地部署,即使配了机器,大概率也是在配完之后用过几次就闲置了。 希望大家理性选型,按需部署,不盲目跟风,不刻意贬低别人,根据自己的需求预算选择最适合自己的方案才是大模型本地部署的核心意义。毕竟技术的价值从来不是追求高端,而是解决问题。 另外有很多人真的是单纯好奇,私信我,我还要花很长时间科普,有时候一下子半天就过去了。还有很多人自己都没想好需求是什么,就跑过来说要做大模型本地部署,这也基本上问着问着就没啥下文了。社长毕竟也有工作要做,所以想要咨询的朋友们先明确自己的需求,避免浪费彼此的时间哦。

兄弟们,千万三点五开原版本最新的现在已经在下载了啊,三十五币的这个已经下载到百分之十一了, 三十七点八一 gb 可能能够完全加载进 gpu。 我 的电脑是一百二十八 g 内存的啊,正在下载,下载之后今天晚上看看直播一下测试效果怎么样。 ok。

好,大家好,今天我们下了那个千万三三十五 b 的 一个 moe 模型,这个模型速度比之前二十七 b 那 个 dance 模型要快很多,但是呢,我们发现它思考过程是英文啊,但是这是写的是中文,不知道是不是蒸馏哪一家的这个国外的大模型啊,不过没关系,反正这个速度是明显比这个二十七 b 的 要快很多的。呃,写一个采购方案啊,也是 还是挺好的,内容详细,我们让他写两千字,他就在这一直写啊,写的应该比之前的千万三要好很多啊,大家可以看一下,这个是关于一个法律的,法律的一个让他写一个方案啊,项目计划书啊,也很全面,非常长, 他在思考过程中,实际上就在打打大纲,然后打辅稿,然后这个每一个大纲相当于你分层展开来写,他可以让每一个章节写的更加 呃,全面,更加完善,内容又更加多。它不是一个简单的一个直线型的逻辑思维路径,它是一个比较发散的,可以看到它写一个一两千字的一个报告,都非常厉害了。 还有绩效评测啊,过程怎么监控啊,怎么审计 风险控制, 那非常能写啊。呃,下一期节目,我们在本地安装那个 open cloud, 这个小龙虾啊,我可以远程控制这个电脑,让他帮我们干更 多的一些工作啊,比如说打开浏览器啊,搜索引擎啊,好,现在写完了,我估计写了几万字啊,然后啊,两万字啊,实际写的这个两万字,不是两千字,然后速度是四十七点多啊,这个是 m o e 的 一个架构,对吧?所以非常快啊, 这个效果大家看是否 ok 啊?洋洋洒洒写了这么多啊,这比以前,比以前要能写很多, 包括你最关心的这个采购方式,最重要的招投标方式,大家看写的对不对啊?这个帮你写这个项目计划书啊,想申请基金的报告啊,这个非常方便啊,是你得力的一个携手助手 啊,包括给你提供什么法律依据啊这些,如果我们连上这个搜索引擎,连上外部的一个知识库啊,这写的更准啊,我们甚至可以给大家搭建这个 r e g 啊,这样,这样子有参考,把你的文章导入进去,有参考的,这个写的更好。

全网最牛,完全免费本地部署单音色克隆,多人对话克隆!先来看看效果,俺老猪也来说两句, 八戒你个呆子,你刚才听到的这些声音,没有一个是真人录的,而且他们不是任何付费的配音工具生成的,他们全部来自一个开源的语音合成大模型。昆三 完全免费本地部署,一键启动即可使用。它的模型参数非常小,对电脑的配置要求也不高,最低四 gb 显存就可以使用,只需要几秒钟的参考音频,就可以完美的还原你的声音。 更重要的是,这个模型在实际使用的过程中稳定性非常高,不管是语速、情绪还是句子之间的停顿,整体都非常自然, 很少会出现丢字、多字、节奏混乱的情况。它甚至还可以通过 ai 特调定制专属音色, 同时支持多角色对话,对于做内容的小伙伴来说,实用性真的非常高。所以在今天这条视频里,我会手把手的给大家演示如何通过一键安装包把困三部署到本地进行使用。同时我也会把它的一些核心功能, 包括声音克隆、音色保存、一句话定制音色以及多角色对话,全部带大家完整的走一遍。老规矩,本地部署的一键安装包下载链接我已经放在视频下方的说明栏里了, 解压即可使用。嘿,我是九姨,专注于使用 ai 自动变现,如果你想要更加系统的学习 ai 知识和运营经验,也可以加入我的课程。 我把 youtube 从定位、内容制作、发布到变现,整理成了一套系统课程,适合不想盲目试错,想要一步步搭建体系的人,相关链接我也会放在说明栏里,感兴趣的小伙伴可以自行查看。那我们继续直接进入今天的实操部分。 下载完成之后,小伙伴们会得到这样两个压缩包,我们全选所有的压缩文件, 右键解压到当前文件夹。如果有的小伙伴使用的是温系统自带的解压工具,有可能会出现解压不全或者是文件丢失的情况。如果有遇到这样的情况,可以重新用三六零解压试试。 解压完成之后会出现这个文件夹,我们打开文件夹,双击开始,稍微等待一会就会自动跳出外部界面。 接下来我先来带你看看如何克隆声音。我们先点击单人语音合成, 在文本位置可以输入需要转换为声音的文案,这里的文案可以自行选择语言,也可以混合语言,比如既有中文也有英文也是可以的。 下方这里的语言类型可以根据大家的文案语种进行选择,也可以直接保持默认的自动识别。下方是多音字矫正功能, 如果小伙伴们对于发音的准确性要求比较高的话,可以按照视力格式将文字的拼音标注出来。中间这里的模型有两个可选项,模型参数越大效果越好, 但是对于电脑的配置要求也就更高,生成的时间也就会越长。小伙伴们可以根据自己的实际情况进行选择。下方这里可以选择音色列表中的音色, 也可以选择使用参考音频克隆声音。为了方便后续的操作,小伙伴们可以将自己的音色保存下来,方便后续的使用,稍后我还会讲解如何将我们的音色保存下来,以及如何删除不需要的音色。 这里我们先来演示如何使用参考音频克隆声音,将我们准备好的参考音频拖进来,可以先点击下方的音频超分降噪,优化音频的效果。 中国的创世神话版本很多,我们最熟悉的一句就是自从盘古开天地。 在下方的参考音频文本,这里会自动识别音频中的内容,一般情况下识别出来的内容是准确的, 如果有错别字或者没有识别到的地方,小伙伴们也可以手动补充进去右上角的一些参数,保持默认的不变就可以了。这里也可以调整语速, 一般选择为原始速度就可以。下方这里的变形批次小伙伴们可以根据自己的电脑配置进行选择,如果电脑配置不够高或者是老旧显卡的话,设置成一就可以了。点击下方的开始生成, 我这里测试使用的电脑是三零九零二十四 g 显存,按照屏幕中显示的参数配置,生成一分钟的音频大概需要二十多秒,如果换成零点六 b 小 参数,速度大概会提升一点五倍。稍微等待一会音频就生成好了, 我们可以来听一下效果。楚王韩信在受封回到家乡后,送了很多钱财给那位曾在河边舍饭给自己吃的老婆婆,还认命曾让自己忍受胯下之辱的屠户为中尉,称她是一位勇士。 至于流苏过他的亭长,韩信只给了他一点点钱,并谴责他是个意志不坚的人,还是非常稳定的,也没有出现多字和丢字的情况。我们再来换一个参考音频,看看 假不假。白玉为唐金做马,按照同样的操作,稍微等待一会就生成好了。效果是这样的, 公元前一百九十七年,也就是汉高祖十年,陈熹造反的消息传进汉宫,刘邦决定亲自出马镇压,他打算让韩信随自己出征,韩信推脱身体抱样,刘邦也不勉强。 那刚才我们使用的是参考音频克隆声音的,如果我们想将这个音色保存下来,应该怎么操作呢?可以在音色名称这里输入一个音色的名称,点击保存音色模型就可以了。 我们再次回到上方的位置,点击刷新音色列表,这样就可以在列表里看到我们刚才保存好的音色模型。那有的小伙伴就会问,如果这个列表中出现了我不想要的音色,应该怎么处理?打开刚才的文件夹, 点击 versus 文件夹,删除自己不想要的音色就可以了。 我们将刚才的 web 页面向下拉,可以看到下方有一个音色设计与创造栏目,在音色设计描述这里,我们可以根据自己的喜好输入音色的特点。我在这里随便使用一个描述, 中间位置是测试文本,这里我们可以随便输入一句话,等到 ai 生成音色之后,会将这句话读出来,点击开始生成测试音频效果是这样的,你听说过克隆声音吗? 如果小伙伴们对于生成的音色不满意的话,可以修改提示词重新生成。你听说过克隆声音吗? 如果小伙伴们想要把满意的音色保存下来,可以在下方输入音色的名称,点击下方的保存音色就可以成功保存了。刷新上方的音色列表,就可以看到我们已经保存好的定制音色。 这里还有一个比较好玩的功能,那就是多角色对话。我们将页面滑到上方,点击上方的多人语音对话,按照上方的格式修改音色名称和对话的内容。 比如我这里输入的内容是这样的,下方模型这里也可以选择,我在这里选择为一点七 b。 最后面这里可以改变不同角色语音之间的间隔时长,小伙伴们可以根据实际情况进行调整, 我在这里选择为零点五秒。设置完成之后我们点击生成多人对话,效果是这样的,男人就算在荒原里迷路三个小时,也绝不会停下来问路, 这种迷之自信到底是从哪里来的?这不是自信,这是一种名为我一定能绕回去的尊严之战, 所以你们的尊严通常是靠多烧半箱汽油来维持的,也是蛮有意思的。我们再来更换角色和台词,点击生成,可以看到效果也是非常不错的。每个男人的心里其实都藏着一个仗剑天涯的英雄梦, 哪怕他现在只是挺着啤酒肚坐在沙发上吃薯片,哪怕是这样,只要手里拿个遥控器,他也能幻想自己在指挥银河战舰。 你们男人在自我催眠这方面确实拥有超凡的天赋。到这里,困三的本地部署声音,克隆音色,保存一句话,定制音色以及多角色对话,我就已经带大家完整的跑了一遍。 这个工具真正厉害的地方在于它可以长期稳定的出现在内容里。对于做内容的人来说,稳定往往比经验更重要, 因为只有稳定,你才有可能持续更新,才有可能走到后面的变现阶段。所以,如果你现在不想真人出镜,想让内容更加稳定的产出,或者想要一个人做多个账号多个角色, 那我真的建议你可以试一试昆三, ai 只是工具,变现才是王道。我是九怡。如果你也不想被工具牵着走,而是想把 ai 真正变成生产力,那一定不要忘记订阅我的频道,这样就不会错过我的更新啦!我们下期影片再见啦!


除夕夜别人都在放鞭炮,阿里直接放新模型,困三点五三百九十七 b a 十七 b 呢,正式开源了,这次呢,不是参数再大一点的升级,而是架构层面动刀, 它是一款原生多模态模型,就不是那种视觉,一个模型语言一个模型,在推理的时候呢,做一下拼凑, 而是从训练阶段开始啊,图像视频文本就混在一起学,属于从底层就打通了。参数呢是三千九百七十亿,用的是 m o e 的 混合专家架构,每次推理呢,只需要激活一百七十亿参数,简单来说呢,就是三百九十七币的脑子,只花十七币的电费,再加上啊限行注意力, getty dotnet 上下文呢,直接给到了一照支持二百零一种语言,速度呢,比上一代更快了,成本却更低。榜单成绩呢,的确很好看啊,但是呢,我们更关心另外一个问题,就是这些听起来很猛的架构升级,到底能不能够实际落地呢? 他能不能够真正做到看图,搜信息,写代码,读视频,一条龙完成?所以说今天这个视频呢,我们就不看榜单,不念指标,直接上真实任务, ok, 我 们现在开始。 那我们首先呢,丢给他一道之前很多模型都翻车的问题,我会问他啊,我想去洗车,洗车店呢,离我们家五十米,我应该是开车过去还是走过去,那很多模型呢,可能会下意识的回答,走过去更加环保,但忽略了一个关键点,就是我们洗的是车,而不是人。 困三点五呢,直接是抓住了这个问题的核心逻辑啊,车还在家里,最终呢,是必须要把这个车开过去, 他没有被距离很近这种表层信息带偏,而是理解了真正的目标。那这类题目呢,不是很复杂,但是他很考验啊,场景理解的一个能力。 所以说接下来呢,我们就把这个难度再拉高一点,我这里准备了一张电影截图,我会跟他说这部电影呢,我有点印象,但是具体的剧情,主演导演是谁我已经记不清了,你帮我做一个详细介绍的 html 网页, 我们点开看一下他的这个执行过程吧。那首先呢,他会识别图像,从而确定这是哪部电影,然后他就开始获取电影阿甘正传的一个详细信息了, 紧接着他会开始整理信息,并构建结构化的内容。最后呢,生成了这样的一个网站,我们现在呢,把这个网站下载下来,看一下它的效果。整体的这个电影脉络呢,他已经是梳理的非常清楚了, 不过呢,他这边是没有去搭配啊剧照图片,而且整体的这个紫色配色还是有些单调的,对吧?那于是呢,我就去啊,让他再加一点剧照,然后改一下这个电影感的配色。稍等片刻呢,他就开始去搜索相关的一个电影剧照了。然后呢做了这个配色 ui 的 一个调整,我们再次看一下它的这个效果, 那这一版呢,整体内容就更加丰富了,对吧?而且呢,他每一个经典的画面都会有这种匹配的剧照,这个呢,其实就是一次完整的多默契协同任务啊。从图片的这个理解,到互联网搜索,再到最后的这个网站代码的编辑落地,大家觉得他做的怎么样呢?可以在弹幕给他打个分啊, 那接下来的话呢,我们来测试一下它的这个代码能力和任务规划的能力啊,我这边呢使用 open code 来做,来到 open code 的 配置文件,首先呢我们需要去修改这个 base url 和 api key, 那 这些信息呢,大家可以在百联云平台获取。 配置完成之后呢,我们输入斜杠 models 来切换这个 queen 三点五 plus 模型。那这次呢,我们做的不是一个小 demo 小 游戏,而是呢直接让它在一个现有的后台里面做一个完整的电商后台 mvp。 并且呢我对范围做了一下控制啊,只需要做商品管理,订单管理, 库存扣减以及基础的一些状态流转。并且呢我们这边只需要去完成管理端,不需要去做小程序。那我把这个需求调给他之后呢,他没有开始直接写代码,而是先分析需求,拆解模块,规划结构, 这一点呢是很关键的,因为真正的工程能力啊,不是说你速度有多快,而是思路是否清晰,在任务执行的过程当中呢,他会边思考,然后边调用相关的工具。这种连续的任务推进呢,其实就是原生视觉语言模型的一个优势 啊,所有的步骤呢,都在同一个模型当中去完成,而不是拼接式的写作。在数据库部分呢,它设计了这个 product order, order item, 还有 user 这些核心表,库存校验啊,订单状态啊,也都是考虑进去了。 后端层面呢,它也做了这个代码分层,结构是非常的清晰。前端部分呢,它生成了商品列表,页表单页和订单管理前端后端数据库都是在协助推进的,项目也是可以直接启动并运行的。来我们看一下它的这个实际效果,商品列表搜索,新增上架、订单查询这些呢,都是可以去完美跑通的, 从任务规划到最终的代码落地,它没有出现结构混乱或者是推翻前面设计的这种情况,整体的逻辑啊,还是非常的连贯的。同样的任务呢,我之前也用这个 gmail 三 pro 测试过啊,虽然说两者最后都能够把这个项目给做出来,但是昆三点五呢,它这边是开源模型,而且 api 成本是更低的, 那如果说两个模型能力接近,但是其中一个成本更低,步数更自由,这对开发者来说意义就不一样了。如果是我的话呢,我会选择做的到但是更划算的那一个。最后呢,我们来测试一下他的视频理解能力啊,那这里呢,我准备了一个小游戏的测试视频,我们把它上传上去, 我让他呢自己去读懂这个视频,然后复刻这个小游戏。首先呢,他会去分析这个游戏的核心机制,玩法与视觉风格。接下来的话呢,他就开始构建游戏的一个视觉与交互框架。最后呢,他开始用 html 代码编写游戏。 ok, 现在他已经全部写完了,我们下载下来看一下效果。 整体功能界面我觉得还原度还是很高的啊。星空的背景,星空的元素大家可以看到,而且呢,在生命值这个地方,它没有去像呃原来的素材那样继续去使用数字,而是采用 icon 来代替。 并且呢在 level 这里,他也会随着数值越大,游戏难度相应增大,整体可玩性我觉得还是非常不错的。 ok, 那 到这里的话呢,四个 case 就 已经全部测试完毕了啊,从图像到搜索,从文本到代码,从视频到程序,这种端到端的能力呢,正是原生视觉原模型想要去解决的问题。 那这条视频呢,其实只是一个开始啊,后面我们还会继续用更加复杂的业务系统,甚至是多轮智能体写作。 如果说你对上面某 case 印象深刻,或者说想要让我去加大难度,可以在评论区告诉我。那现在呢,这个 quan 三点五相关模型啊,已经是开放使用了,大家可以在掐点 quan, 点 ai 或者是摩达社区使用。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace!