粉丝315获赞2124

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

兄弟们,今年春节 aa 券直接炸了!就在除夕夜,阿里突然发布了全新一代模型千万三点五。很多人可能以为这只是一个常规升级,但实际上这次定位非常夸张,它的性能已经对标咱们的三级别模型,而且最关键的一点是,它是一个真正的原生多模态模型。那什么叫原生多模态呢? 以前很多 ai 其实是拼接的模态,就比如先识别图片,再转成文字,交给语言模型理解。但前文三点五不一样,它在训练阶段就把文本、图片甚至视频统一进同一套架构里,本质上是在用一颗大脑理解所有信息。也就是说,你丢一张截图,一段视频、一段需求进去, 它是统一理解,而不是分模块拼装,这才是多模态真正成熟的标志。那再说说这次模型为什么这么猛?成本三点五总参数接近四千亿,但真正参与计算激活参数只有一百七十亿左右,听起来只是数字变化,但意义非常大,因为它用的是稀疏 mo 一 架构,简单来说, 需要哪个专家就调用哪个专家,用不到百分之五的算力,撬动了近万亿模型的能力,显存占用直接降低百分之六十,推理吞吐量最高提升十九倍,分成人话就是更强了,还更便宜了。这也是现在大模型很重要的一个趋势,不是越大越好, 而是越聪明越值钱。所以今天咱们就来看一下千万三点五最炸裂的四个实战玩法。玩法一,一句话生成完整应用。第一个玩法,我们直接来个狠的,最近网上不是爆火一个吃豆人小游戏吗?那我们不让模型直接生成,这里我们考验一下千万三点五多模态的能力。 我们不让这个模型直接生成,而是先塞给他一段吃豆人游戏的视频。看完视频之后,我们只学出一句话,按照这个玩法,帮我做一个吃豆人的游戏。注意,这里难度已经变了,不是 直接写游戏,而是先理解视频中的玩法和逻辑,比如角色移动规则,斗智判定机制,还有得分系统,结果你会发现,它真的能根据视频内容生成完整的游戏结构。这背后的本质就是视频理解加逻辑,抽象加代码生成,三件事一次完成,这才是原生动画态真正恐怖 的地方,已经不是简单的写代码了,而是在理解世界之后再创造。玩法二,丢两个小时视频,让他做分析。第二玩法,我们继续加难度,直接丢一段超长视频进去,比如两个小时的发布会录像,然后只问一句话,帮找出所有高光片段,并写一个爆款脚本。传统 a 早就上下文爆炸了,但千万三点五之 是超长上下文理解,可以直接做视频级分析,这对内容创作来说意味着什么?以后可能真的只需要丢素材,然后直接出成片思路了。玩法三,手绘草图,直接生成代码。第三个玩法更离谱一点,随便拿一张纸画一个 u i 草图,比如左边是菜单栏,右边是内容区,中间再来一个卡片布局, 直接拍照丢给模型。它可以直接生成完整的前端代码布局,逻辑样式结构,甚至你截图一个报错页面,它还能直接帮你定位问题在哪里,这就是典型的视觉理解加编程融合能力。玩法四, ai 自己操纵电脑 a 阵的能力。 这是一个复杂的表格,缺数据算总计,分区统计。我们只说一句话,帮把缺失的行列补齐,然后算出总价值。接下来,困三点五就会自动识别界面, 自动定位单元格输入公式,批量填充,最后甚至自动保存文件,本质就是 g u i 理解加任务规划加电脑操控。这已经不是 ai 帮你做工具了,而是直接替你干活。 所以你会发现,千万三点五真正的意义可能不只是一个模型升级,而是一次方向上的转折。从原生多媒体,到高效 m o e 架构,再到 a 振腾能力萌芽,他在做的事情只有一件,让 ai 变得更像基础设施。甚至阿里现在一个很明显的目标,就是 把 ai 的 价格打到像水电煤一样,更便宜、更普惠、更基础设施化。当模型越来越强,但成本越来越低, ai 才可能真正进入全民时代。而千万三点五,很可能就是这个阶段的标志性节点。

给大家再评测一下通一千万三点五三十五 b active 三 b 和通一千万三点五二十七 b 的 这两个模型,因为这两个模型都差不多大小,对我们企业级来讲都非常合适做独立部署。那么 这个两个模型到底选择哪一个模型做独立部署更加合适?我们一般总归选择智力比较高的,性能比较好的模型做,我们就今天继续做一个 c l o 的 评测,再看一看它的实际情况到底是怎么样。通过官方的这个数据我们可以看到,目前通一千万三点五二十七 b 的 这个模型, 它的能力要略高于通一千问三点五三十五 b active 三 b 的 这个模型,它不管在哪个评测能力上面稍微要比它要高那么一点点啊,除了个别,它有些 基本上它的能力是要比原来的这两个模型里面二十七 b 的 模型会更强一点。那我们实际测下来呢?确实也是这样,因为我们是用 cfo 的 评测,我们把评测数据给大家看一下,我们还是用 cfo 的 评测 cfo 的 评测,当然我们先测了一个,就是通一千问三十五 b, 通一千万三点五三十五 b active 三 b f p 八量化的这个版本,这个量化版本我们也是用 cfo 的 评测,它的性能 也是五千多道题目,五千三百八十四个题目。最后的得分我们看一下,它一共测了六分四四十二秒,它最后的这个得分是八十二点四七分, 应该这个分数是不低的。我们再来看看通一千万三点五二十七 b f p 八的这个模型,这个模型我测下来比它性能会更高一些, 从八十二分上升到八十四分,它的推理速度稍微快一点,这六分二十七秒,它它从八十二分上升到八十四分,八十四点八四,原来是八十二点四七,多了两点几分,这个也是一个量化版本,那么非量化版本它的 f p 十六我们也测了一下,这个是通一千万三点五二十七 b 的 f p 十六的这个版本看一下 性能也差不多的六分二十四,性能跟那个差不多,从是八十四点九二分,从原来的八十四点八四分上升到八十四点九二分,都是八十四分小分里面稍微略有些差别。所以我们企业级里面部署班,我们这次建议给大家用空千万三点五 二十七 b f p 八的这个模型,可能在我们企业里面,特别是在中小企业里面做独立部署的会比较合适。那么我们这次部署还是用了同一千万,用了英伟达的那个 r t x 四四零九零二二十四 g 的, 应该来讲我们目前测试是用了四张卡,但实际其实用两张卡就可以了。 好,今天我们简单的给大家来评测一下的,这个同一千万三点五系列里面,二十七 b 的 和三十五 b 的 这个两个模型更合适一点。今天我们这个视频就给大家介绍到这。

就在刚刚,没错,除夕夜阿里发布快按三点五贺岁版,不仅能秒懂复杂图标,最恐怖的是两小时的视频丢给他,瞬间生成高清摘药,在权威榜单上,以五十八点三分力压 g p t。 五点二,拿下人类最高难度测试冠军 g p q a。 博士级科学推理能力也超越了 cloud 四点五,更狠的是,显存占用直接降低百分之六十,真正的速度快,能推理又便宜,你觉得可以称得上国产之光吗?

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

大家好啊,最近不是千万三点五的中小模型都发布了吗?我本来准备是想测一测模型,给大家汇报一下,结果没有想到啊,我居然迷上了另外一件事,我给你们看一下,这是一台我的工作站, 我现在把降噪关掉,给你们感受一下, 怎么样 怎么样,听到了吗?因为这个模型真的太好玩了,所以导致我三天都没有关这台服务器。 好了好了,回归正题啊,原本只是想试试这个模型能不能用在 openclaw 里面,结果一发不可收拾,我这个工作站都暴躁的运行了三天了,我老婆女儿都开始吐槽了,而且导致我最近是严重缺觉,成天就脑子里都想的都是这五只龙虾, 我也不知道,下次分享的时候说不定就是十只了。但是今天呢,我还是先给大家汇报一下我这个千万三点五的测评数据吧,然后我再给你们详细的分享我这几天的奇妙感受。 我先说重点啊,我这次测评用的是 s g 浪,推荐大家都用这个单卡,用的是四十八 g 显存的四零九零魔改版 f p 八的精度,这个配置呢,能跑二百五十六 k 的 上下文。 值得一提的是,应该是只有 s g 浪完整的支持了前缀缓存,也只有在前缀缓存才能体验住千万三点五这种混合注意力架构的真正牛逼的地方。我举个例子,如果你是一百 k 上下文,冷启动 perf 阶段就是十秒钟, 但是如果你带了缓存就是两百毫秒,所以直接的结果就是,你哪怕有很长的上下文,但是他的首字延迟就是很低,输出还特别快。 我的测试场景给大家讲一下,就和我们的真实场景特别像,我每个模型测试都是从二十 k 上下文开始,一直增长到二百 k, 每次增加四 k 上下文,模拟我们真实环境下的长任务,而且他是在缓存命中的 三十五 b a, 三 b 这个模型啊,他最初的速度是一百二十头克每秒,最后衰减到了八十,衰退不算多。 而二十七 b 这个模型就逆天了,虽然它一开始就是个归宿,二十 to 每秒,但是到了二百 k, 它依然能保持十八 t 的 每秒。而且最离谱的是,你们看到了吗?因为它有缓存啊,所以即使缓存里有两百 k 的 上下文, 我输入四百 k 的 togg, 它的 perf 耗时只有两百毫秒。所以实际的生产环境,用人话来说就是在那种多工具调用的环节, 其实你感觉不到它很慢,因为工具调用这个场景啊,它输出的 token 都比较少,所以它响应也很快,很快就出结果了。你的直接感受就是对话再长,它的速度都不会衰减。我还做了一个测试啊,就是用 agent teams 同时开六个 agent, 哎呀,那个感觉真的是太爽了, 速度还能叠加,我也不知道是为什么,就直接从后台的输出,你就能看到它能达到一百二十多个每秒,而且这个二十七 b 模型,它是可以一键启动 agent teams 的, 我之前拿千万三点五 plus 都测试失败了, 他能同时开六个成员,速度能叠加到一百二十 t, 而且我还测了一下一百二十二 b 那 个模型,我个人的这个体感二十七 b, 他的智商是超过这个一百二十二 b 的, 只是个人感觉啊,就是从各方面数学,编程能力他都很强, 唯一的缺点就是他单进城特别慢,于是我就想到了一个妙招,哎,单进城很慢,那我就多进城呗,我可以拿它养龙虾呀,而且我可以一次养好几只,你养一只龙虾慢,那我养多只他不就快了吗? 这就直接导致我的服务器一直在咆哮,二十四小时都是这个咆哮状态,一直都满载,我家电费就更不要提了, 给大家分享一下我的龙虾啊,我现在一共养了五只龙虾,这个是主控,然后他部署在一台服务器上面,然后剩下的四个是在这台服务器的容器上面。给大家看一下,这是这四个小弟, 汤圆、奶茶、闪电、布丁,然后他们自己的持久化文件,都有各自的目录,然后这里面有他的记忆啊,还有他的目标啊, 我现在让他们干了一件什么事呢?就是主控,主控大佬会通过定时任务,就作为导师来检查他们每一个人的这个目标文件,看他在这个周期里有没有完成目标,然后给他写入一些新的目标。然后呢,这些小弟也是通过定时任务启动的, 然后他每次定时任务就是会完成他的这个 goals, 然后更新他的 memory。 他 们的目标是什么呢?就是跟他们一起开发了一个论坛,然后这个论坛用于让他们沟通,他们一直 在开发这个论坛需要的功能,然后一直在写入代码,然后重新部署。这样子论坛长什么样呢?大概就是这个样子啊,他们在不停的会发一些信息, 就是汇报一下自己的工作进度呀,就是彼此沟通吧,但是我觉得现在还不是很好,他们还是各干各的,还没有彼此的连接起来。但是这是我的一个小的社群实验,就我想看看他们能不能给自己开发一些东西,让自己变得更好这样子, 所以我现在也在尝试不同的部署,但是现在你国产的这些 coding plan, 他 们都有限制并发嘛,对吧?所以你想要养这么多只龙虾,同时你就你也干不了别的了。我现在呢,给大家看一下,我现在在模拟当初论坛开发那个流程,现在是有六个 agent teams, 有 六个成员, 然后他们全部是通过千万三点五二十七币这个筹密模型在本地运行。看,就是这个我在这个 s g 浪上部署的这个模型,然后后台的这几只龙虾呢?他们是定期任务,他每十分钟会有一波高峰, 但是虽然说每一个县城只有大概二十多头肯,但它整体你看它有时候能跑到一百,甚至能到一百二十多,就是它六个跑满的时候是有一百二十多头肯每秒,然后它 prefill 的 速度也很快,所以其实我感觉虽然如果单县城去使用我会很烦,它的速度很慢,但是我一次开很多,我就不管了,让它们自己去玩去, 我就觉得这种效果还蛮不错,至少这个速度我还是能接受,毕竟他是个本地模型,而这个二十七 b 模型其实非常聪明,非常聪明,我如果把这个二十七 b 模型换成三十五 b, 那 个三 b 激活的采用,那这个速度就离谱了,差不多六七百头肯没秒完, 但是你就会发现他们一直做一些无用功,但是二十七 b 模型就会感觉更聪明一些。反正这个论坛我发现不断在产生一些变化,我录完刚才那一段,然后我写了一些提交了, 但是我看到论坛他们已经把论坛已经甩的不像什么了,我觉得非常有意思,不管他们干成了什么事情,或者没干成什么事情,你你都能发现出一些很有趣的事情。我们看到这个我现在这个主控已经很着急了, 他说他大家都没有提交,然后我现在给他只是让他做一种新的沟通方式,但是几个小弟嘛,其实就觉得还不错,他们觉得这个哎,任务都做完了,没事了, 就是你们也可以试试这样养龙虾,说不定大家能摸索出来一种,让他们用一种方式,能协调合作,哎,我觉得可能就会很有收获。所以如果你是有四十八 g 以上统一内存,比如说 mac mini 啊, mac studio 啊, ai max, 三九五啊,或者是你有这个五零九零,或者是我这种 四零九零魔改版啊,我恭喜你,你买的硬件升值了,因为他们养龙虾体验实在是太好了, 就是因为三十五 b 和二十七 b 显存差不多啊,你想想你就相当于有了两种模式的模型,可以一键切换,一种是速度暴躁,但是智商略低,有点像战士那种。 另外一种就是归宿,但是智商爆表,有点儿像法师,你可以随时切换他的人格,是不是这个道理?当然了,你依然可以用那种 coding plan 版的高级模型,用它来做编排者,就相当于你养了一个老大,但是小弟可以开很多, 你可以尝试能不能形成一个蜂群,我最近就在实验。那我之前不是还分享了一个进化体系吗?如果可以用循环的方式来运行 evover 龙虾的技能体系,就能快速的自我优化。我最近也在不断的尝试这个领域,看看能不能实现我二十四小时的路谱,看它能不能自我进化。所以请原谅我这期没有什么干货,都是我的一些畅想。 我这个人就是脑洞比较大,但我在 ai 时代所有收获都是受益于这种脑洞大,所以从这篇起也算是开启了我的一个新系列。我后面会不断地分享我养龙虾的心得,也请大家持续关注。好了,以上就是本期全部内容了,谢谢大家!

hello, 大家好,今天我们继续来探一探 token 自由的 open cloud 个人助理。本次主角是最近正式开源的更强智能、更低算力的千万三点五中等规模模型系列,融合多模态学习、架构、效率等多项创新。 本次开源包含四个系列模型,可高效应用于 cloud code codex、 open code 以及 openclaw 等应用框架。其中今天我们重点看千万三点五杠二七 b 的 模型,其定位为均衡型,在复杂 agent 场景表现出色。 同时与其他模型对比起来, quan 三点五到二十七 b 在 i f bench, g p q a diamond, h m m t, february, twenty twenty five 等多个权威基础上表现突出,尤其在数学推理指令遵循和多语言知识任务中接近 甚至超过更大餐数量的模型,展现出高效的性能表现。废话不多说,让我们快速开始吧! 本次同样采用运维神器 one panel 进行验证。首先我们先看下本地模型服务器的资源配置情况,然后同样的,我们基于安装好的开源本地大模型运行管理工具欧莱玛, 在欧乐玛官网找到最新发布的千问三点五杠二七 b 模型,下载后在模型管理中确认模型正常运行,这里省略了下载过程。 温馨提醒下,正常下载大概需要二十到三十分钟。大家记住这里的模型名称,千问三点五,冒号二七 b。 一 会配置名称的时候,需要本地模型账号添加本地模型账号,替换当前的 d p, c, k 在 线模型 添加本地模型账号。其中 a p i t 为任意字母串, base 一 五二 o 为欧拉玛访问地址加斜杠 v 一 欧拉玛访问地址从应用商店的跳转链接中获取,同时确认下正常运行。账号维护完成后,进入智能体的配置页面,完成模型切换。模型账号选择刚才维护的本地模型,勾选手动输入模型, 然后输入欧莱玛千问三点五冒号二七 b, 即刚才记录的模型名称。在线模型已经替换为本地部署的千问三点五冒号二七 b 模型了。接着让我们点击跳转链接测试下效果吧!保持惯例,先问声好, open call 正常反馈了, 说明本地模型已经接通,再让它搜集最新的 ai 动态去工作了。但是提醒我缺少 a p i t 无法工作。 大概一分钟不到完成反馈。下面我们让他自己安装一个 web 搜索 skills 技能 tablie, 一 分钟完成配置,并帮我根据历史绘画搜集了最新的 ai 动态。 nice, 看看汇总的 ai 动态新闻, ai 助理干得不错哦! 最后我们看一下 token 使用情况,确认是本地模型哦!本地模型太赞了,可以无限 token 用起来了!小伙伴们还等什么?以 one pawn 为基作管理你的欧乐玛和 open claw, 让强大的千万三点五专属为你干活儿!

openclaw 到底能不能使用本地模型来完成各种任务?今天我就把实际测试的结果和大家分享下。本地模型我使用的是最新发布的千问三点五量化版本,目前已经发布的有二十七 b、 三十五 b 以及 e i 二 b 三个量化版, 各位可以根据自己的显卡状况选择合适的版本。我这里选择的是三十五 b 的 量化版本,模型大小为二十四 g, 实测在我的双显卡环境下速度可以达到一百二十 t 每秒,性能上已经可以完全满足使用需求。 本地的模型工具使用的是羊驼欧拉玛,需要注意的是,欧拉玛软件必须是十七以上版本才能够支持千问三点五这样的新模型,目前官网最新版本是十七点零点四。而最令人惊喜的是,新版的欧拉玛已经集成了 open claw, 你 只需要在命令行输入 open claw 这一行代码,就可以直接部署你的龙虾机器人。 此外还需要注意的是,新版本的欧拉玛把上下文长度设置为了二百五十六 k, 这可确保连续多次和模型的对话不会被中断,但这会占用更多的显存资源,所以一定要选择适合自己硬件性能的量化模型。在将千问三十五币设置为 openclaw 的 主模型之后,我进行了多个功能的测试,包括 skill 技能的安装和配置、 股票代码的抓取和市场行情分析,以及 ai 新闻的搜集和定时任务的配置。结果超出了我的预期,本地模型基本顺利地完成了所有任务,没有死循环或是失去响应的状况发生。但需要注意的是,量化版本的模型由于能力限制, 如果是较为耗时且有多个分支任务的对话,你需要再次输入提示词,要求模型检查当前的任务执行状况,以避免任务没有被百分之百完成。在耗时一天的深度体验后,我认为使用本地千问模型配合 open claw 来执行基本的信息搜集和数据分析等无需复杂逻辑的任务是一个非常好的选择, 但前提是要确保你的硬件有足够的性能来支持本地模型的运行。同时建议另外再配置一个线上大模型来配合完成其他复杂项目。 通过这样的组合,应该可以有效避免 token 过度消耗造成的大额费用支出。以上就是我使用本地模型配合龙虾机器人的使用心得,如果你也有类似经验,欢迎在评论区分享你的使用反馈。

除夕夜别人都在放鞭炮,阿里直接放新模型,困三点五三百九十七 b a 十七 b 呢,正式开源了,这次呢,不是参数再大一点的升级,而是架构层面动刀, 它是一款原生多模态模型,就不是那种视觉,一个模型语言一个模型,在推理的时候呢,做一下拼凑, 而是从训练阶段开始啊,图像视频文本就混在一起学,属于从底层就打通了。参数呢是三千九百七十亿,用的是 m o e 的 混合专家架构,每次推理呢,只需要激活一百七十亿参数,简单来说呢,就是三百九十七币的脑子,只花十七币的电费,再加上啊限行注意力, getty dotnet 上下文呢,直接给到了一照支持二百零一种语言,速度呢,比上一代更快了,成本却更低。榜单成绩呢,的确很好看啊,但是呢,我们更关心另外一个问题,就是这些听起来很猛的架构升级,到底能不能够实际落地呢? 他能不能够真正做到看图,搜信息,写代码,读视频,一条龙完成?所以说今天这个视频呢,我们就不看榜单,不念指标,直接上真实任务, ok, 我 们现在开始。 那我们首先呢,丢给他一道之前很多模型都翻车的问题,我会问他啊,我想去洗车,洗车店呢,离我们家五十米,我应该是开车过去还是走过去,那很多模型呢,可能会下意识的回答,走过去更加环保,但忽略了一个关键点,就是我们洗的是车,而不是人。 困三点五呢,直接是抓住了这个问题的核心逻辑啊,车还在家里,最终呢,是必须要把这个车开过去, 他没有被距离很近这种表层信息带偏,而是理解了真正的目标。那这类题目呢,不是很复杂,但是他很考验啊,场景理解的一个能力。 所以说接下来呢,我们就把这个难度再拉高一点,我这里准备了一张电影截图,我会跟他说这部电影呢,我有点印象,但是具体的剧情,主演导演是谁我已经记不清了,你帮我做一个详细介绍的 html 网页, 我们点开看一下他的这个执行过程吧。那首先呢,他会识别图像,从而确定这是哪部电影,然后他就开始获取电影阿甘正传的一个详细信息了, 紧接着他会开始整理信息,并构建结构化的内容。最后呢,生成了这样的一个网站,我们现在呢,把这个网站下载下来,看一下它的效果。整体的这个电影脉络呢,他已经是梳理的非常清楚了, 不过呢,他这边是没有去搭配啊剧照图片,而且整体的这个紫色配色还是有些单调的,对吧?那于是呢,我就去啊,让他再加一点剧照,然后改一下这个电影感的配色。稍等片刻呢,他就开始去搜索相关的一个电影剧照了。然后呢做了这个配色 ui 的 一个调整,我们再次看一下它的这个效果, 那这一版呢,整体内容就更加丰富了,对吧?而且呢,他每一个经典的画面都会有这种匹配的剧照,这个呢,其实就是一次完整的多默契协同任务啊。从图片的这个理解,到互联网搜索,再到最后的这个网站代码的编辑落地,大家觉得他做的怎么样呢?可以在弹幕给他打个分啊, 那接下来的话呢,我们来测试一下它的这个代码能力和任务规划的能力啊,我这边呢使用 open code 来做,来到 open code 的 配置文件,首先呢我们需要去修改这个 base url 和 api key, 那 这些信息呢,大家可以在百联云平台获取。 配置完成之后呢,我们输入斜杠 models 来切换这个 queen 三点五 plus 模型。那这次呢,我们做的不是一个小 demo 小 游戏,而是呢直接让它在一个现有的后台里面做一个完整的电商后台 mvp。 并且呢我对范围做了一下控制啊,只需要做商品管理,订单管理, 库存扣减以及基础的一些状态流转。并且呢我们这边只需要去完成管理端,不需要去做小程序。那我把这个需求调给他之后呢,他没有开始直接写代码,而是先分析需求,拆解模块,规划结构, 这一点呢是很关键的,因为真正的工程能力啊,不是说你速度有多快,而是思路是否清晰,在任务执行的过程当中呢,他会边思考,然后边调用相关的工具。这种连续的任务推进呢,其实就是原生视觉语言模型的一个优势 啊,所有的步骤呢,都在同一个模型当中去完成,而不是拼接式的写作。在数据库部分呢,它设计了这个 product order, order item, 还有 user 这些核心表,库存校验啊,订单状态啊,也都是考虑进去了。 后端层面呢,它也做了这个代码分层,结构是非常的清晰。前端部分呢,它生成了商品列表,页表单页和订单管理前端后端数据库都是在协助推进的,项目也是可以直接启动并运行的。来我们看一下它的这个实际效果,商品列表搜索,新增上架、订单查询这些呢,都是可以去完美跑通的, 从任务规划到最终的代码落地,它没有出现结构混乱或者是推翻前面设计的这种情况,整体的逻辑啊,还是非常的连贯的。同样的任务呢,我之前也用这个 gmail 三 pro 测试过啊,虽然说两者最后都能够把这个项目给做出来,但是昆三点五呢,它这边是开源模型,而且 api 成本是更低的, 那如果说两个模型能力接近,但是其中一个成本更低,步数更自由,这对开发者来说意义就不一样了。如果是我的话呢,我会选择做的到但是更划算的那一个。最后呢,我们来测试一下他的视频理解能力啊,那这里呢,我准备了一个小游戏的测试视频,我们把它上传上去, 我让他呢自己去读懂这个视频,然后复刻这个小游戏。首先呢,他会去分析这个游戏的核心机制,玩法与视觉风格。接下来的话呢,他就开始构建游戏的一个视觉与交互框架。最后呢,他开始用 html 代码编写游戏。 ok, 现在他已经全部写完了,我们下载下来看一下效果。 整体功能界面我觉得还原度还是很高的啊。星空的背景,星空的元素大家可以看到,而且呢,在生命值这个地方,它没有去像呃原来的素材那样继续去使用数字,而是采用 icon 来代替。 并且呢在 level 这里,他也会随着数值越大,游戏难度相应增大,整体可玩性我觉得还是非常不错的。 ok, 那 到这里的话呢,四个 case 就 已经全部测试完毕了啊,从图像到搜索,从文本到代码,从视频到程序,这种端到端的能力呢,正是原生视觉原模型想要去解决的问题。 那这条视频呢,其实只是一个开始啊,后面我们还会继续用更加复杂的业务系统,甚至是多轮智能体写作。 如果说你对上面某 case 印象深刻,或者说想要让我去加大难度,可以在评论区告诉我。那现在呢,这个 quan 三点五相关模型啊,已经是开放使用了,大家可以在掐点 quan, 点 ai 或者是摩达社区使用。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace!

千万三点五,呃,三四五 b 的 话,这个在我本地已经跑起来了。五零六零 ten 十六 g 啊,没有问题,但如果这个配置在 windows 下是跑不起来的,但是在 linux 下可以跑起来,没问题。 ok, 这个是那个他的那个 加热器啊?五零零 ten, ok, 呃,他正在思考思考,但是还有一段时间了,嗯。

啊,继昨天的千问三点五一百二十二币模型之后,我把千问三点五最后的一块拼图及二十七币的稠密模型测试了一下, 结果可以说意料之外,但是又是情理之中,我愿称其为开元中小模型的搜它。 在我的测试任务里,二十七币拿到了八十三点一分的高分,名列目前榜单第四名,它上面只有 jimmy 三 pro、 cloud opus 四点六和 gpt 五点二。如果我们去掉多模态和上下文的加分项, 单看模型本身的能力,二十七币依旧以七十六点一分和 deepsix 三点二正式版不相上下。 中英文写作和应用文写作的得分是三十五点二分,属于是第一梯队的水平,数学、几何和物理方面则是十九点四分。 大家可以发现,在纯文本问答和写作方面,中小模型的性能已经和国外闭元大模型没有什么太大的差别了。所以如果你的日常任务是问答和写作的话,本地部署一个中小模型是完全够用的。 代码能力方面,二十七 b 则是展现了稠密模型的优势,表现非常抢眼,以二十一点五分和 cloudsonnet 四点五的二十一点七分平分秋色。 这里我们用 cloud opus 四点六和 mini max 二点五作为对比测试对象,左边是 cloud, 中间是千问三点五二十七 b, 右边是 mini max 二点五满写版二十七 b 可能在视觉效果方面稍稍有些欠缺,但是整体完成度还是非常高的。 作为对比,我们再看看和其他中小体积模型的对比。这里左边是法国的 devstra 二,右边是 openai 的 chat gpt os 二十币 结果高下立判,和一百二十二币以及三十五币的横向对比,我们也可以发现二十七币的效果是更加接近一百二十二币的, 而三十五 b 的 混合专家模型则是有严重的涂层问题。 python 六边形小球测试的效果也非常不错,图形效果非常美观,各种粒的影响也有体现。 虽然有些欺负人,但是这里是 cloud opus 四点六的实现效果,这是 glm 四点七的实现效果,大家可以自行评判。 如果你想对比一下其他的模型的话,可以上我的网站自行查看所有测试任务的输出并对比哦。总结一下, 虽然现在的主流已经是混合专家模型了,但是稠密模型的性能仍然是强于混合专家的。稠密模型在 ai 领域,因此也总会有自己的一席之地。

最近,千万三点五一次性发布了四款中量级模型,最有争议的一点不是参数变大,而是三五 b 对 上两百三十五 b。 如果小模型在多项能力上接近甚至超过上一代大模型,那我们过去几年坚信的一个逻辑可能正在松动。 更关键的是, flash 版本默认支持百万级上下文,这意味着它可以处理完整代码、仓库、超长日制,甚至减少 r a g 的 分段损耗。与此同时,强化学习和数据质量被放在更高优先级 模型不再只是知道的多,而是回答的稳。所以问题来了,如果训练策略比参数更重要,那么未来模型的竞争会不会从谁更大变成谁更稳?这件事对工程和测试的影响可能比想象中更早到来。

全国本地部署阿里千万三点五的最新模型,还能满足千人在线并发?什么配置这么硬核?这期是为深圳某企业定制一台模型,本地部署与机器人研发的服务器,搭配了两张 a m d 枭龙九六五四共一百九十二,核心三百八十四现成。注意,这不是撕裂者, 经常有小伙伴把它们认错。内存条浅浅上个十六根,四十八 g d d 二五四八零零七百六十八 g 容量,跑这个模型也绰绰有余, 后期项目升级再加也不迟。显卡配的是英伟达 rtx pro, 五千七十二 g 版本,对比四十八 g 版本,能支持更大的 ai 模型推理,微调推理效率与文本生成速度完全翻倍, 稳定性与扩展性也更强。本地部署最新的千万三点五模型,最高支持一千人同时在线并发,总托肯吞吐三千五百六十六每秒,存储上直接就是九十九点二 tb 的 超大空间,用于存储模型科研的数据存放。



你敢信吗?只要发一条指令,电脑就能自己变出一个完整游戏?这不是特效,是二零二六年真正本地 ai 实力。 视频里这个章鱼入侵者三千多行代码,全是 ai 一 次性生成的。你看这章鱼,触手会动,背景有层次,连爆炸音效都是算法实时算出来的,没录过一声音。 最神的是他像个不知疲倦的程序员,遇到报错,自己读日制,自己修 bug, 直到游戏能玩为止。这就是智能体闭环,完全不用人插手 这套系统,跑在二十四 gb 显存的 rtx 三零九零显卡上,二手只要几千块,不用给大公司交云服务费用的,还是完全开源的 q l u 模型,隐私安全全在自己手里。 这意味着什么?游戏开发门槛被踏平了,以前需要团队做几个月,现在一个人加一块卡就能搞定。当 ai 能独立完成逻辑、美术甚至调试,你觉得人类程序员的价值会变成什么样?是彻底失业,还是变成指挥官?评论区告诉我你的看法吧!

兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

兄弟们,千万三点五开原版本最新的现在已经在下载了啊,三十五币的这个已经下载到百分之十一了, 三十七点八一 gb 可能能够完全加载进 gpu。 我 的电脑是一百二十八 g 内存的啊,正在下载,下载之后今天晚上看看直播一下测试效果怎么样。 ok。