讲一篇有关 deepsea 的 最新论文,叫做 deepsea ocr two, 它引入 deepsea color v two 作为视觉的编码器。这个框架呢,打破了传统的 ocr 模型,或者说是 vr 模型,固定的从左上到右下的扫描图像像素的限制,从而模仿了人类的视觉的因果流,就 color flow 的 逻辑。 首先我们回顾一下二零二五年 deepsea 刚出 ocr 模型的时候,那时候呢,是用视觉方式来压缩信息,减少大圆模型的 token 的 整个的上下文。 deepsea v two 呢,框架做了一定的调整,是模仿人类逻辑来阅读复杂的文档,在多项的基础测试中呢,刷新了搜查。目前呢,从论文到代码到模型都已经开源了,具体怎么做呢?文章中说的是原来呢,传统的视觉语言模型 v i m 通常是用光标扫描的方式处理信息, 理解呢,是强行的把二 d 的 图像呢硬变成了一 d 的 一个训练,就是所谓的像素,而忽略了图像内部的语义关系。那这个是跟人类的视觉的习惯背道而驰的。为了解决这问题呢,他们引入了一个轻量级的大圆模型 queen 二零点五七的原本的 kipp 的 编码器 queen, 二零点五 b 呢,其实呢,是一个大圆模型,它的理解能力会强很多,它的信息的上下文也会大很多。 基于这个圆模型呢,作为它的一个 input 的 上下文,从而呢使整个的 ocr 这个模型呢,主要包含两部分, 就是 vision tokenizer, 就是 通过卷积层的设计,将图像呢转变成一个视觉 token, 而不是像素的信息。第二呢,就是作为视觉编码器的大元模型,就我们刚刚说的这个 queen two 零点五 b 模型,不仅可以处理视觉的 token, 还引入了一组可学习的称为查询 token query tokens, 通过 attention mask 就是 注意力掩码的设计呢,视觉 token 之间呢,采用了双向注意力,保持了全局的感知能力。其实这就是一个 v i t 的 逻辑,就是 transformers 之间的每一个词组之间是有联系的, 它的 vision in transformer 就是 把每一个视觉的模块变成一个 token, 就是 卷积的逻辑。这 token 呢,与 token 之间呢,又产生关联,这把复杂的卷积的流程呢,通过它产生注意力机制的简化。所以在这样的一个架构下呢, deep c o c r two 呢,编码阶段就已经把不相同的信息理解了,而不是一股脑的扔给了编码器。结论呢,就是 token 更少,精准更高。在 omni dot 持这一点五的基本测试上呢, deepsea o c r two 使用了最少的视觉 token, 综合得分高达百分之九一点零九,相比于上一代的提升百分之三点七三。在各项指标上,比如说阅读顺序 outer 的 edit distance 编辑器以上也从上一代的零点零八五降到现在的零点零五七。 所以我们看到了,其实 deepsea 呢,一直在开源的模型和理论上不断的做一些创新。这次创新呢,我觉得很巧妙的是,引入了国产的另外一个大模型和理论上不断的做一些创新呢,我觉得很巧妙的是,引入了国产的另外一个大模型和理论上来做它的 vr 模型的 input 就 是输入,那这样类似的工作其实我们也在尝试,可以看出了整个的国产的生态呢,其实已经非常健全了,尤其是千万的 ecosystem, 从各个维度的模型都有着开源,成为了一个非常好的一个开源的七座,为所有的生态伙伴的应用公司的后续点提供了非常好的基建。
粉丝3.5万获赞30.7万

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

大家好,今天咱们来聊一个 ai 圈的大新闻, q n 三点五模型家族来了,他提出了一个特别酷的想法,就是说用同一套 ai 架构,既能驱动你口袋里的小手机,也能撑起云端庞大的福气。 这可不只是一个简单的生机,这更像是一场要把顶尖 ai 带给每个人的革命。哎!大家可以先想象一下这个场景,这其实就是 q n 三点五想要解决的核心问题,它的设计理念就是追求极致的弹性和通用性, 就用一套架构搞定所有大小设备的需求。好的,那今天咱们就来把 q n 三点五好好拔一拔, 咱们先看看这个面向所有人的 ai 家族到底是什么?然后呢,再往深了挖,看看它的技术有什么黑科技。接着是今天的重头戏,聊聊那些小尺寸大智慧的新模型,之后再把它跟行业里的大佬们比一比,看看实力如何。 最后咱们总结一下这件事到底为什么这么重要?咱们先进入第一部分,来聊聊 q n 三点五最核心的一个特点就是它的朴实性。这个模型家族的目标就是想覆盖我们能想到的几乎所有计算场景。 你看,官方的定义里有两个词特别关键,一个是开源,一个是多模态。开源意味着什么?意味着代码是开放的,所有开发者都能免费用,随便改。这一下子就把创新的门槛给拉下来了。 而多模态呢,就是说他不光能跟你聊圈打字,他还能看懂图片,听懂声音。你想想,这应用范围一下子就变得多广了。那么是什么让 q 文三点五这么厉害呢?请现在我们就打开他的引擎盖,一起看看他背后到底藏了些什么技术法宝。 那这些就是 q n 三点五的秘密武器了,可以说是这些技术的集体突破才撑起了它强大的性能。比如说它能用一套逻辑同时处理图像和文字,还能覆盖全球两百多种语言,训练的基础设施也是全新的。 这里面每一点都是一次实打实的进步。这里面呢,这个高效混合架构特别有意思,听起来是不是很复杂?别怕,我给你打个比方,你就把它想象成一个超级聪明的混合动力汽车引擎, 它特别会看情况办事,知道什么时候该踩板油门,什么时候该省油滑行带来的好处就是用最少的资源实现了最快的响应速度。 好了,重点来了,接下来咱们要深入聊聊。这次发布离我个人觉得最让人激动的部分,也是今天咱们的焦点就是那些个头不大,能量却超强的小模型。他们的出现,让顶尖的 ai 技术终于不再是那些大型数据中心的专利了。 首先登场的是家族里最小的两个成员,零点八 b 和二 b 模型,它们小到什么程度呢?可以轻松地装进你的手机、智能手表,甚至是一些互联网设备里,而且反应速度快得吓人。这意味着什么? 这意味着未来你的 ai 助手可能就完全在本地运行了,不用联网,不用等待,就能帮你总结邮件回复消息,实现真正的零延迟交互,多爽啊! 再来看这个四 b 模型,我觉得它是在性能和资源消耗之间找到了一个完美的平衡点,它足够强,可以作为一个自动化智能体的核心大脑,就是那种能帮你自动订餐、规划行程的 ai 程序。但同时呢,它又足够清亮,不会把你的设备脱刀卡顿。 最后是这个九 b 模型,哎,你可别小看它尺寸紧凑,它的性能是实打实的,能跟那些比它大得多的模型较板的, 这让它成了服务器部署场景里的幸比之王,特别适合那些既想要高智能硬件资源又比较紧张的场景。好啦,看完了这些灵活的小个子,现在咱们把目光转向家族里的大火, 看看昆 n。 三点五的旗舰模型在跟 g d t cloud 这些行业顶尖选手掰手腕儿的时候表现到底怎么样? 咱们直接上数据,这张表展示的是模型在一些超高难度推理任务上的对决,这最能考验一个模型的智商了。大家看,在 h m m t。 这个顶级的数学竞赛测试里, q n。 三点五直接拿了满分,跟 g p t。 五点二并列第一。 在考验综合推理的 ami 和代码能力的 live code bench 上,它也同样达到了顶级水平。这张图就更直观了, 在 h m m t。 数学推理迹象测试里,昆三点五的表现确实是天花板级别的,跟 g p t。 五点二并驾齐驱。这很有力地证明了这个全新的模型家族在最核心的逻辑推理能力上,已经稳稳地占据了世界第一梯队。 好了,我们了解了他的全家桶,看了他的技术,也比了他的性能,那么这一切对于开发者,对于整个 ai 行业到底意味着什么呢?咱们来总结一下。 那么咱们应该记住哪三点呢?第一是通用性,一套架构从手机到云端通吃。第二是高效率,顶级的性能,不再是需要海量资源的吞金售了。而最重要的一点我觉得是易获取, 通过开源,特别是开源了这么多强大的小模型, q n 三点五正在把顶尖 ai 的 能力真正地交到每一个开发者、每一个创造者的手里。 所以说,这不仅仅是一次技术发布,它更像是一次机遇的释放。当算力的门槛被大大降低,当顶尖的智囊变得触手可及,真正的问题就变成了, 手握这些工具的我们将会去创造一个怎样的未来呢?这个问题就留给屏幕前的每一位来思考了。

先说结论,我选择的是千万三点五三十五 b a 三 b 四位量化模型。大家好,今天这期视频我们来解决一个非常关键的问题,当你买了一台 max studio 后,到底应该怎么选择模型?怎么选择推理框架? 下面介绍三种最主流的模型格式。官方模型格式通常是官方发布在哈根 space 上的模型,采用 pad 加 gpu 训练完成, 这个是最原始的模型格式,特点是精度最高、最完整,适合训练,但不适合推理,并且非常吃显存, 不适合直接在本地使用。一句话,这个是用来训练的,不是用来直接跑的。第二种是 g g u f 格式,这是目前最流行的本地推理格式,它的特点是模型经过量化,兼容性很强,可以在 n 卡 a 卡 mac 电脑上都能运行。 第三种是 m l x 格式,这是 mac 电脑的专属格式,它的特点是专门为 mac 电脑设计, 利用 mate gpu 内存统一调度,在 mac 电脑上性能比其他两个格式更快。再来介绍一下模型的分类, dos 模型和 mo 一 模型。 dos 模型就是稠密模型,意思是每一次推理所有的参数都会参与计算,因此速度会相对比较慢一些,大约三十五 to 每秒。 m o e 模型全称是混合专家模型,特点是每次激活一小部分参数,因此它在本地设备运行时速度会非常快,大约可以达到七十多个每秒。 mac 电脑上常用的大约模型推理框架软件有三个, 分别是 o m l m studio、 o m l x。 这里推理性能最好的就是 m o m l x, 专门用来推理 mx 格式的模型,比另外两个推理软件要快很多,所以在 mac 环境下可以无脑选用。我在哈根菲斯上下载了下面这几个模型,官方版本的千万三点五二十七 b 四比特, 千万三点五三十五 b a 三 b 四比特。千万三点五三十五 b a 三 b 八比特 还有第三方的蒸馏模型。利用 cloud 四点六蒸馏的两个模型,由于进行了针对 os 的 蒸馏, 其推理思考能力应该会更强一些。但是这两个模型不能直接通过参数来关闭 sync 模式,所以每次调用时都会 消耗很长时间在思考。有时候在做简单任务的时候会有一些繁琐,所以在处理简单任务的时候,我会选择官方版本的模型并关闭 sync 模式,这样更快一些。再看一下四位和八位比特以及输入 token 与占用内存的关系。通常在 open craw 或者 cloud code 中,调用 agent 完成任务时都会有很长的上下文,因此输入 token 都会很长,这会影响内存的占用。 通过这两个表我们可以看出, token 越多,占用的内存也就越多。考虑到还需要加载纹身图的图像模型,所以必须控制模型的量化位数,因此最终我选择千万三点五三十五 b a 三 b 四比特模型 或者对应的帧流模型。下面我来实操一下在 max studio 中如何使用 o m l x 这个软件来调用模型。好,我们现在通过远程来登录这个 max studio, 你 可以在这里 点击双击 o m l x, 它就会出现在右上角这个 toolbox, 这里点击右右键就可以 chat chat with, 而且这里就可以直接跟他聊天。当然我们可以看一下左下角有个后台管理,这里有一些可以设置的地方,比如说它当你加载了一个模型之后,你就可以直接通过这些啊, a p i 的 a p i 和 cloud a p i 也可以通过这个命令行直接将它集成到 cloud code 里面,或者 codex open code 和 open cloud, 这都支持。第二个就是模型的管理,我下载这六个 也可以从 facebook 上直接下载,也支持了摩达社区,这里有一个全局的设置,比如这里设置了一个 a p i 的 密钥,设置模型的下载目录或者加载目录。这里有一个地方需要注意一下, 我下载的这个千万三点五的模型是上下文支持两百五十六 k, 所以 这里一定要填这个东西,因为它默认的那个最大上下文窗口大概只有三十二 k, 如果这里不改的话就会报错,所以这个 一定得把它改过来,改成呃你的模型最大支持的那个数。再就是这个模型的设置,比如说关闭这个 thinking 模式,你在这里要把这个添加一个 enable thinking 这个参数,把它设置为 force, 而且最好是强制的, 就可以保存。你下次再调用这个模型,它就不会开始那个 thinking 模式。但是对这两个蒸馏的模型,你关了这个也没用,内部始终是把那个 thinking 模式打开的,所以如果你不想用这个 thinking 的 话,你就用这个官方的把这个参数给关掉。 如果你想用 sync 模式的话,可以考虑用这两个推理的蒸馏过的模型,这里是日制分析,日制可以看一下它的调用,这里是这个性能精准测试, 可以来用来测试你下载的模型的精准。比如我们来测一下这个稠密模型,千万三点五二十七 b 四 b 的 比特的这个模型,看看速度怎么样啊?这里跑完了一次这个稠密模型的基本测试, 可以看到它基本上它的速度是在三十一点八 to, 每秒并发的话可以达到四十, 我们再跑一个 m o e 格式,这也是斯比特的这个跑完了,这个是比较快的,它可以达到七十八 to, 每在本地 使用这个 m o e 来跑这个 agent 应该速度是够的。 ok, 今天就讲到这,下期就讲一下如何在 max studio 上运行这个纹身图模型。好,下期见,关注我 ai, 分享时尚技巧,我们下期见。

兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

你没看错,现在你的手机也能本地飞速跑一个 ai 大 模型了,回答速度堪比云端!就在昨晚,阿里开源了四个千万三点五小尺寸模型,直接把 ai 的 门槛给踩碎了,连马斯克都坐不住了,空降评论区惊呼令人惊叹的智能密度!此次阿里发布的千万三点五九币,在七项评测中均拔得头筹,大幅领先了 pt 五 nano 和 google 的 jamming、 二点五 flashlight 等模型。重要的是,不需要几万块的服务器,在你的普通电脑上就能跑。有网友实测,九 b 模型跑起来内存占用比 tom 浏览器还小,八 g 内存就能带飞。甚至有大神在 m 四芯片上跑出了每秒四十九点五个 token 的 速度。 也就是说,一个三百五十亿参数的模型,在本地实时对话几乎零延迟。有开发者算了一笔账,一台 mac mini 加上千万三点五成本,甚至不到初级员工一个月的工资, 它能二十四小时帮你干活。而且它完全属于你,不需要联网,不需要买会员,不用担心隐私泄露,因为所有数据都在你自己硬盘里。正如网友所言,没人能夺走它。以前全世界都在争夺谁控制 ai, 但从今天起,答案变成了你!

大家好啊,最近不是千万三点五的中小模型都发布了吗?我本来准备是想测一测模型,给大家汇报一下,结果没有想到啊,我居然迷上了另外一件事,我给你们看一下,这是一台我的工作站, 我现在把降噪关掉,给你们感受一下, 怎么样 怎么样,听到了吗?因为这个模型真的太好玩了,所以导致我三天都没有关这台服务器。 好了好了,回归正题啊,原本只是想试试这个模型能不能用在 openclaw 里面,结果一发不可收拾,我这个工作站都暴躁的运行了三天了,我老婆女儿都开始吐槽了,而且导致我最近是严重缺觉,成天就脑子里都想的都是这五只龙虾, 我也不知道,下次分享的时候说不定就是十只了。但是今天呢,我还是先给大家汇报一下我这个千万三点五的测评数据吧,然后我再给你们详细的分享我这几天的奇妙感受。 我先说重点啊,我这次测评用的是 s g 浪,推荐大家都用这个单卡,用的是四十八 g 显存的四零九零魔改版 f p 八的精度,这个配置呢,能跑二百五十六 k 的 上下文。 值得一提的是,应该是只有 s g 浪完整的支持了前缀缓存,也只有在前缀缓存才能体验住千万三点五这种混合注意力架构的真正牛逼的地方。我举个例子,如果你是一百 k 上下文,冷启动 perf 阶段就是十秒钟, 但是如果你带了缓存就是两百毫秒,所以直接的结果就是,你哪怕有很长的上下文,但是他的首字延迟就是很低,输出还特别快。 我的测试场景给大家讲一下,就和我们的真实场景特别像,我每个模型测试都是从二十 k 上下文开始,一直增长到二百 k, 每次增加四 k 上下文,模拟我们真实环境下的长任务,而且他是在缓存命中的 三十五 b a, 三 b 这个模型啊,他最初的速度是一百二十头克每秒,最后衰减到了八十,衰退不算多。 而二十七 b 这个模型就逆天了,虽然它一开始就是个归宿,二十 to 每秒,但是到了二百 k, 它依然能保持十八 t 的 每秒。而且最离谱的是,你们看到了吗?因为它有缓存啊,所以即使缓存里有两百 k 的 上下文, 我输入四百 k 的 togg, 它的 perf 耗时只有两百毫秒。所以实际的生产环境,用人话来说就是在那种多工具调用的环节, 其实你感觉不到它很慢,因为工具调用这个场景啊,它输出的 token 都比较少,所以它响应也很快,很快就出结果了。你的直接感受就是对话再长,它的速度都不会衰减。我还做了一个测试啊,就是用 agent teams 同时开六个 agent, 哎呀,那个感觉真的是太爽了, 速度还能叠加,我也不知道是为什么,就直接从后台的输出,你就能看到它能达到一百二十多个每秒,而且这个二十七 b 模型,它是可以一键启动 agent teams 的, 我之前拿千万三点五 plus 都测试失败了, 他能同时开六个成员,速度能叠加到一百二十 t, 而且我还测了一下一百二十二 b 那 个模型,我个人的这个体感二十七 b, 他的智商是超过这个一百二十二 b 的, 只是个人感觉啊,就是从各方面数学,编程能力他都很强, 唯一的缺点就是他单进城特别慢,于是我就想到了一个妙招,哎,单进城很慢,那我就多进城呗,我可以拿它养龙虾呀,而且我可以一次养好几只,你养一只龙虾慢,那我养多只他不就快了吗? 这就直接导致我的服务器一直在咆哮,二十四小时都是这个咆哮状态,一直都满载,我家电费就更不要提了, 给大家分享一下我的龙虾啊,我现在一共养了五只龙虾,这个是主控,然后他部署在一台服务器上面,然后剩下的四个是在这台服务器的容器上面。给大家看一下,这是这四个小弟, 汤圆、奶茶、闪电、布丁,然后他们自己的持久化文件,都有各自的目录,然后这里面有他的记忆啊,还有他的目标啊, 我现在让他们干了一件什么事呢?就是主控,主控大佬会通过定时任务,就作为导师来检查他们每一个人的这个目标文件,看他在这个周期里有没有完成目标,然后给他写入一些新的目标。然后呢,这些小弟也是通过定时任务启动的, 然后他每次定时任务就是会完成他的这个 goals, 然后更新他的 memory。 他 们的目标是什么呢?就是跟他们一起开发了一个论坛,然后这个论坛用于让他们沟通,他们一直 在开发这个论坛需要的功能,然后一直在写入代码,然后重新部署。这样子论坛长什么样呢?大概就是这个样子啊,他们在不停的会发一些信息, 就是汇报一下自己的工作进度呀,就是彼此沟通吧,但是我觉得现在还不是很好,他们还是各干各的,还没有彼此的连接起来。但是这是我的一个小的社群实验,就我想看看他们能不能给自己开发一些东西,让自己变得更好这样子, 所以我现在也在尝试不同的部署,但是现在你国产的这些 coding plan, 他 们都有限制并发嘛,对吧?所以你想要养这么多只龙虾,同时你就你也干不了别的了。我现在呢,给大家看一下,我现在在模拟当初论坛开发那个流程,现在是有六个 agent teams, 有 六个成员, 然后他们全部是通过千万三点五二十七币这个筹密模型在本地运行。看,就是这个我在这个 s g 浪上部署的这个模型,然后后台的这几只龙虾呢?他们是定期任务,他每十分钟会有一波高峰, 但是虽然说每一个县城只有大概二十多头肯,但它整体你看它有时候能跑到一百,甚至能到一百二十多,就是它六个跑满的时候是有一百二十多头肯每秒,然后它 prefill 的 速度也很快,所以其实我感觉虽然如果单县城去使用我会很烦,它的速度很慢,但是我一次开很多,我就不管了,让它们自己去玩去, 我就觉得这种效果还蛮不错,至少这个速度我还是能接受,毕竟他是个本地模型,而这个二十七 b 模型其实非常聪明,非常聪明,我如果把这个二十七 b 模型换成三十五 b, 那 个三 b 激活的采用,那这个速度就离谱了,差不多六七百头肯没秒完, 但是你就会发现他们一直做一些无用功,但是二十七 b 模型就会感觉更聪明一些。反正这个论坛我发现不断在产生一些变化,我录完刚才那一段,然后我写了一些提交了, 但是我看到论坛他们已经把论坛已经甩的不像什么了,我觉得非常有意思,不管他们干成了什么事情,或者没干成什么事情,你你都能发现出一些很有趣的事情。我们看到这个我现在这个主控已经很着急了, 他说他大家都没有提交,然后我现在给他只是让他做一种新的沟通方式,但是几个小弟嘛,其实就觉得还不错,他们觉得这个哎,任务都做完了,没事了, 就是你们也可以试试这样养龙虾,说不定大家能摸索出来一种,让他们用一种方式,能协调合作,哎,我觉得可能就会很有收获。所以如果你是有四十八 g 以上统一内存,比如说 mac mini 啊, mac studio 啊, ai max, 三九五啊,或者是你有这个五零九零,或者是我这种 四零九零魔改版啊,我恭喜你,你买的硬件升值了,因为他们养龙虾体验实在是太好了, 就是因为三十五 b 和二十七 b 显存差不多啊,你想想你就相当于有了两种模式的模型,可以一键切换,一种是速度暴躁,但是智商略低,有点像战士那种。 另外一种就是归宿,但是智商爆表,有点儿像法师,你可以随时切换他的人格,是不是这个道理?当然了,你依然可以用那种 coding plan 版的高级模型,用它来做编排者,就相当于你养了一个老大,但是小弟可以开很多, 你可以尝试能不能形成一个蜂群,我最近就在实验。那我之前不是还分享了一个进化体系吗?如果可以用循环的方式来运行 evover 龙虾的技能体系,就能快速的自我优化。我最近也在不断的尝试这个领域,看看能不能实现我二十四小时的路谱,看它能不能自我进化。所以请原谅我这期没有什么干货,都是我的一些畅想。 我这个人就是脑洞比较大,但我在 ai 时代所有收获都是受益于这种脑洞大,所以从这篇起也算是开启了我的一个新系列。我后面会不断地分享我养龙虾的心得,也请大家持续关注。好了,以上就是本期全部内容了,谢谢大家!

如果你还在用中美 ai 差距来理解今天的大模型格局,那这种观点可能已经过时了。阿里刚刚把千万三点五 max preview 扔进了最硬核的 lm arena 擂台,结果直接打到中国第一,全球前五,而且是盲测对战 开发者不知道对手是谁,纯拼能力。更关键的是,他不仅赢了国产模型,甚至在一些对比里压过了 gpt、 cloud 谷、 rock 这些一线选手。但重点不在谁第一这件事。真正值得关注的是,中国大模型第一次系统性进入全球第一梯队。 过去两年,中国模型一直在追参数、追数据、追开源节奏。但这一次,千问三点五 max 用的是另一套逻辑,更小的激活参数、更高的模型矩阵。说白了,从堆料开始转向工程能力。 而这背后,其实是一个更大的行业变化,大模型竞争正在从模型能力转向体系能力,谁有更完整的开源生态开发者应用落地能力,谁才有长期优势。所以这一回合,不只是阿里赢了一次榜单,而是宣告一个信号,全球 ai 竞争已经从美国定义规则,变成了中美共同制定规则。

中国 ai 领域又迎来重大突破,阿里巴巴千问团队刚刚发布了全新中型 ai 模型系列千问三点五,这套模型竟然能以小博大,用更低的算力成本实现超越大型 ai 的 性能表现。最令人惊讶的是,其中的三十五 b a 三 b 模型, 每次查询仅激活三百五十亿参数中的三十亿个性能,却已超越上一代两千三百五十亿参数的旗舰模型。 团队表示,这得益于架构创新、数据质量提升和强化学习技术的突破,而非单纯堆砌参数规模。一二二 b a 幺零 b 模型更是引发开发者社区热议。 reddit 上的测试显示,这款模型在多个评估指标上与 openai 的 gpt 五 mini 不 相上下, 甚至在某些方面表现更优。最神奇的是,它可以在普通六十四 gb 内存的消费级硬件上运行。阿里云还同步推出了急用型生产版本千问三点五 flash, 提供一百万 token 的 超长上下文支持,这款产品专门为需要快速部署的企业用户量身定制。值得注意的是, 阿里云最新报价显示,其 ai 服务的 api 价格仅为谷歌 gemini 同等服务的十八分之一,标志着中国 ai 企业正在以惊人的性价比优势在全球 ai 竞赛中加速超车。一位测试者这样评价 这些中型模型,给人的感觉就像是更庞大的系统,拥有通常只有超大模型才具备的那种智慧感。这或许预示着 ai 发展的新方向不是越大越好,而是越聪明越好。

上节课我们在本地部署了千万三点五 ai 大 模型,这节课我们继续部署 open core, 并让 open core 对 接上本地 ai 大 模型,彻底告别头肯焦虑,让大家零成本养龙虾。现在看 open core 官网,里面有很多种安装方式, 我们这里啊,使用 n p m 方式,一键安装,运行之前需要先有 node js 环境才能使用 n p m 命令。 node js 安装好后,打开终端运行 n p m i 杠 g 二分 q, 安装完成,运行命令,开始配置,复制过来粘贴。 先问我们啊,是否继续,当然要继续了,用键盘左右方向键选择 yes, 接着选啊,快速开始。这里问要对接什么模型, 这些选项啊,大部分都是对接云端 ai 模型的,因为我们要对接本地 ai 模型,所以要选择自定义。接着问模型的 api 地址,这个地址啊,在 o m x 的 仪表盘里,大家看这里, 复制一下,将这个删掉粘贴我们这里啊,要填的是幺二七点零点零点一,冒号八千斜杠 v 一。 继续啊问模型的 api k, api k 在 管理面板的设置权限设置里, 默认的 key 是 默认一二三一二三,我们不做修改,就填这个,先按回车粘贴过来,兼容性选择 open ai。 接着问模型 id, 模型 id 啊,在管理面板的模型管理器里面,将名字直接复制了,粘贴过来,确定 end point id, 保持默认就行,这个是模型的别名,可以不填,直接下一步。接着问啊,要对接什么聊天工具列表里啊,默认只有飞书。我这里出现的 open code 微信是我后面装的,大家初次安装并没有这个关于微信的对接,我们下节课再来讲, 这里直接选跳过接着问搜索服务现在没有,也先跳过,继续出来。技能的选择,直接按回车。 出来的技能选择,这里推荐只选 clonehub, 按空格,选中按回车键安装,其他的先不要选,可以避免网络有问题一直卡住。其他的有需要啊,后面可以再来安装。我这里列表中没有看到 clonehub, 是 因为我之前已经安装过了,所以看不到,我就直接选跳过。 后面的几个 api 啊,也都是收费的啊,暂时都没有,全都选 no no no no 还是 no 霍克时啊,也选跳过先按空格再回车。到了最后一步了,问我们运行方式,推荐的是在终端中运行,选择后,现在就可以和他直接发消息了。好,我们发个消息, 它会直接在动态中进行回复,当然也可以使用 word 界面进行访问,大家打开幺二七点零点零点一冒号幺八七八九,在这里也可以一样聊天,还可以做各种设置。总结下,安装 open core 需要 load 机制环境,在装好 load 机制后,使用 n p m 命令,可以一键安装 open core, 安装好后,运行命令开始配置文字版,内容请看课程讲英文档, iphone 可乐,现在出来聊天还可以操控你的电脑了,在下节课的对接微信里,我继续演示给你看。

大家好,今天我们来实测一个全网都关心的核心话题,二零二六年只用三千元装一台家用主机,能不能流畅本地运行?最新发布的快三点五系列大模型小餐数量,模型的智能水平到底够不够用?这台机器是二零二六年一月初组装的,整 机总成本刚好控制在三千元左右,核心是二手高性价比硬件组合,十八和三十六现成的服务器级 cpu。 具体的硬件明细给大家列清楚了, 显卡用的是 amdrx 六千九百 xt, 十六 gb gb 六现存两百五十六内存,服务器及处理器淘宝仅一百三元,内存是三星 ddr 三 x 服务器内存十 六 g 一 百五十元搞定。剩下的 ssd、 主板、电源这些配套硬件加起来约九百元,整机刚好三千元左右。两款核心测试工具,第一款是 lm studio 大 幅格式模型,可以一键下载,只不过下载比较慢,并且需要安装。第二款是扣爆的 c p p, 这是一款很简洁的推理工具,下载一个 e x c 就 能使用。很多朋友都知道 amd 消费级显卡不支持 q 的, amd 官方有自己的 rockman 计算平台, 但它对消费级显卡的适配非常差,这次我们没有选用。最终我们用的是 vulcan 后端 gpu 硬件加速。 vulcan 是 低开销高病型的通用计算接口,只要装了显卡驱动就可以实现。大模型的最优解之一直 接上。结果,首先是二十七 b 密架构模型 q 四 m 量化严重超出十六 gb 显存,实测速度仅十四 ts。 然后是九 b 密架构模型 q 八 k xl 量化,刚好完全装入十六 gb 显存,无内存交换,实测速度达到二十七 ts, 是 所有测试里速度最快最流畅的。接下来是三五 b mode 架构模型 q 四零量化仅轻微超出显存实测速度二十二 ts, 表现非常亮眼。而同样是三十五 b mode, 把量化等级升到 q 六零之后,严重超出显存 发大量内存交换速度直接跌到七 t s, 基本无法正常使用。看完了跑分数据,很多朋友肯定会问,速度快是快?那模型的实际能力到底行不行?我们专门针对本次测试里速度最优的九 b 模型做了实际能力验证。线上官方发布的快三点五 flash 正是以本次测试的三十五 b a 三 b m 模型为同源底座,这也印证了阿里官方对这个规格模型综合能力的高度认可。而九 b 模型是我们这次测试里参数量最小的规格, 按理来说表现应该是最差的,但他的实际能力依然让人惊喜。我们做了梳理逻辑测试,问他三点九和三月十一日哪个大,还故意加了干扰话术,他依然准确给出了正确答案。然后我们做了古文背诵测试,模型一字不差的完整输出了对应的古文内容,说明他内化的知识和记忆储备也完全够用。第一,同显存约束下,猫架构的表现显著优于单次架构, 三十五 b 猫模型轻微爆显存时还有二十二 ts, 远超二十七 b 稠密模型爆显存时的十四 ts, 猫的稀疏激活特性在显存受限场景下优势非常明显。第二,量化等级和显存适配性直接决定推理性能的上限。十六 gb 显存下,九 b q 八模型刚好完全装入显存 出二十七 ts 的 最优速度。而三五 b 模型把量化等级升到 q 六之后,因为超了显存速度直接跌到七 t 美 s, 所以 大家选量化方案一定要严格匹配自己的显存上限。第三,同文件体积下大餐数量模型的能力优势非常显著。九 b 小 模型和三十五 b 猫模型量化后体积相近,但三十五 b 模型的语义理解、逻辑推理、复杂任务处理能力有量级提升。 a m d 消费级显卡通过 rock 后端不用折腾配置门槛极高的 rock 就 实现流畅的本地推理。九 b 模型二十七 t s 的 速度完全满足日常对话创作需求。第二,二手志强 cpu 加 amd 旗舰显卡的平台有着极高的本地 ai 部署性价比,三千元的装机成本就能实现三十五 b 级别大模型的本地部署和可用机推理,完全能满足绝大多数个人本地 ai 的 场景需求,性价比直接拉满。本地大模型部署的基础工具链现在已经完全成熟了。 对比三年前二零二三年我们部署 chg l m 六 b 的 时候,还要折腾复杂的环境配置,现在以扣爆的 c p p 为代表的工具已经完全实现了开箱即用。第二,端侧 a 阵的智能体还处于发展初期,现 在本地大模型的 m c p 工具 a 阵的智能体能力还是需要用户手动做,复杂的环境配置,没法像网页端 ai 那 样开箱即用。举个最简单的例子,让本地 ai 读取 excel 文件,做数据汇总再输出结果,现在还是需要繁琐的插件配置和环境调试,没法直接落地。最后给大家做个总结,二零二六年的今天,三千元级别的主机完全可以实现 quan 三点五系列大模型的流畅本地部署。本期的实测内容就到这里,你平时用本地大模型做什么?欢迎在评论区留下你的硬件配置和使用体验,我们下期再见。


quan image edit 二五幺幺无疑是近期开源 ai 绘画领域的一匹黑马,其在图像编辑与人物一致性上的表现,被不少资深玩家公认为触达了当前技术的天花板。 quan 二五幺幺最令人震撼的能力首先体现在其对人物之间的融合上。在实际的工作流测试中,当创作者输入两张人物参考图时,模型并没有进行深意的像素堆叠,而是展现出了惊人的解剖学推理能力。 即便原图仅为半身像, ai 也能根据人体结构与场景逻辑自动捕全出原本不存在的腿部与鞋袜。这种从图像模仿到羽翼捕全的进化,使得它在处理复杂的双图融合任务时,能够保持人物面部特征与服饰细节的高度统一, 彻底解决了以往模型容易出现的肢体崩坏问题。这种对画面元素的深层理解同样延伸到了跨次元的 ip 融合场景中。 当我们将真人照片融入风格独特的电影海报时,宽二五幺幺表现出了极强的元素固化能力。它能够在将真人无缝植入动画场景的同时,精准保留背景中原有的小细节,实现了人物与环境的完美共生。尽管在处理背景中的复杂文字时偶尔仍有瑕疵, 但其在构图与氛围渲染上的稳定性已足以胜任高精度的创意海报设计。如果说一致性是 ai 绘图的基本功,那么对物理光影的逻辑化重塑 是奎纳二五幺幺的杀手锏。不同于传统滤镜简单的色调独家,该模型仿佛在构建一个真实的三维物理世界。在进行日夜转换的测试中, 当指令要求将白天室内场景转为夜晚时, ai 不 仅压暗了环境光,更会依据物理常识自动点亮床头的台灯,营造出真实的慢反射效果。为了让大家能第一时间上手体验这套强大的生产线工具,我已经将本期教程中演示的专属 comfyi 工作流以及配套的懒人整合包整理完毕,直接置顶放在了评论区,即取即用。在下一期内容中,我们将进一步拆解工作流内部的节点,连接逻辑,手把手带你了解这套最新最强的模型使用方法。上期我们对 quimmy 编辑二五幺幺同志集 表现的宏观评测,今天我们将不再留恋于概念,而是直接把工作流拖入 comfy, 来一场硬核的拆解测试。如果说上一期我们是在惊叹引擎的马力, 那么这一期我们将亲自坐进驾驶舱,测试这套经过精心调优的三图编辑工作流,究竟是如何在实战中将逻辑与画质推向极致的。 测试的序幕由最基础的单图编辑拉开,我们在最左侧的被修改的图像节点中加载了一张普通的室内场景,试图考验其光影修改的内容。在提示词中简单输入,将环境改为深夜,开启台灯后,得益于 lightning lora 的 介入, 画面在短时间内便完成了从白昼到深夜的切换。最令人惊艳的是, ai 并没有简单粗暴的压暗全图,而是聪明的识别出了画面中的高原逻辑。 接下来,我们进入了双图融合的进阶玩法,即当人物遇上新世界。我们在第二个家在节点上传了一张风格迥异的风景图, 并下达了将图一人物融入图二背景保持光影一致的指令。这正是宽二五幺幺的杀手解所在。生成的图像中,人物不仅自然的占据了新场景, 更关键的是光影发生了逻辑性的适配。这种以往需要 control lab 配合光影重绘修半天的工作,现在仅仅通过一句话就能实现。他不是简单的抠图合成,而是重新渲染了人物在特定环境下的真实状态。 最终的终极考验来到了三图编辑,这也是该工作流配置三个 loadimage 节点的意义所在。我们直接沿用了工作流中预设的那条高难度指令, 让图一的女人的衣服替换图二紫色毛衣角色站在画面中间,背景改为图三的场景,并进一步指定毛衣款式。参考图二,这相当于强迫 ai 并发处理三个任务,背景被完美重建在身后实现场景迁移, 而图案中的毛衣材质被精准提取并穿在人物身上。值得一提的是,由于尾部 cvr 二放大模组的介入,即使经过如此复杂的重绘, 布料的纹理细节在放大后依然清晰锐利,完全没有传统重绘常见的涂抹感。总结来看,这套工作流之所以能被称为版本,答案是因为它完美平衡了速度与质量,依靠物理逻辑而非像素拼贴来保证画面的合理性,最后再由 cpr 都抵画质, 他已经超越了工具的范畴,更像是一个懂你指令的 ai 修图师。相关工作流和整合包已经在评论区准备就绪,各位不妨下载一试,看看你的三张图能碰撞出怎样意想不到的火花。

今天带你硬核开箱一个阿里在除夕刚发布的天问。三点五 plus, 直接 c u r 调 api, 不 加任何系统提示词和框架,就为看看这 m o e 的 架构,三千九百七十亿的总参数, 仅激活一百七十亿的模型,视觉理解的水平到底怎么样?实测的结果还是挺诧异的,为什么要测视觉?因为视觉能力真的能干活。比如你用 a s 动画操作 mac 版微信,但微信没开放 api, 不 跟 cv 的 模型匹配,又笨重又脆弱。说一下实测的细节,在桌面的截图理解上, 你给他一张混乱的 mac 桌面截图,他能准确识别每个窗口、终端、 room 等,并推断出这是一个开发环境。 带手绘的草图转代码给一张手绘的登录页,草图带手写批注二十五秒,他直接生成了一个能直接运行的 html 文件,用 css 渐变模拟横线纸,用 cursor 字体匹配手写杆, 甚至忽略了批注,知道那只说明而非 ui 元素,还原度达到了百分之八十五。微信的自动化实践才是高潮,我用它配合脚本, 实现了从截图到发送微信消息的全流程。一、截图扔给钱文问搜索框在哪儿?他返回接入 search box center, 幺五零, 逗号三十五,还提示需要搜索。二、换算坐标,点击输入联系人。三、再次截图,让他确认聊天窗口和输入框的位置。四、点击输入框发送消息。五、最后截图验证发送成功。整个流程,天问充当了眼睛和大脑。 四次视觉识别,每次七到十五秒,过程中窗口缩放、主题更换、微信更新,全部都不怕,因为模型是真正的在理解屏幕的内容了, 而不是匹配像素块。天籁三点五杠 plus 创新的混合注意力机制加极致稀疏 m o e 架构 加超长上下文决定了它这么强。非常可贵的是整个千问三点五系列全尺寸开源阿帕奇二点零协议, 这意味着开发者中小企业都能低成本用上顶级模型。如果你也在探索 ai 视觉自动化或者 r p a, 真的 可以试一试千问三点五 com plus。

阿里小钢炮 ai 刚登场,三十二岁核心技术负责人却突宣离职,事情还得从两天前说起。三月二日深夜,阿里千问团队悄悄干了件大事,一口气开源了宽三点五系列的四款小尺寸模型,参数覆盖零点八 b 到九 b。 这组主打小而美的端侧模型刚一上线就迅速在科技圈刷屏,甚至把马斯克都给炸了出来。他在社交平台 x 上现身评论区,大赞这批模型,展现了令人印象深刻的智能密度。就在开发者们正热火朝天下载测试款三点五的时候,剧情却迎来了神转折。 三月四日凌晨,阿里最年轻的 p 十、年仅三十二岁的通易千问核心技术负责人林俊扬突然在社交媒体发文宣布卸任。 me stepping down by my beloved queen。 在 这场新模型口碑登顶的狂欢中,这位核心主创的骤然离场,不仅让不少 ai 开发者倍感惋惜,也让外界对背后的引擎充满猜测。要想搞懂科技圈为什么对它的突然离开这么一难平, 你得先看看卸任前到底给整个行业留下了一个多硬核的作品。林俊扬团队这次甩出的四款端侧小模型, 被不少极客圈内行直接戏称为精准的云端玻璃器。这套产品简直是冲着瓦解云端算力霸权去的。他硬生生把 ai 的 大脑塞进了咱们的随身设备里, 让四款模型像精密齿轮一样各司其职。作为敏捷前锋、极致轻量的零点八 b 和二 b 模型,简直是为手机 i o t 设备量身定制的本地神经末梢,它们不仅响应极快,而且原生支持多模态,在低延迟场景下让交互体验变得前所未有的丝滑。而精准切中内存与性能甜点位的四 b 模型, 则成了开发者眼中性价比极高的轻量级 ai 智能体机座。但真正让这台云端玻璃器展现出惊人实力的,是越级性能担当九 b 模型。这个体积紧凑的模型,哪怕在内存受限的设备上,也能输出相当出色的逻辑推理能力。你能想象吗, 这么一个餐数量区区九十亿的小家伙,在时机测试里,居然能和餐数量高达一千两百亿的老牌开元巨头正面硬钢 体积相差十几倍,战斗力却毫不逊色。这种极限以下刻上的表现,彻底撕下了大模型圈无脑堆算力疯狂拼参数的遮羞布。如果说九 b 跃级挑战是算力效率上的突破,那把高达二十六万 token 的 长上下文窗口硬塞进一台手机里,就真的有点不可思议了。过去大家总吐槽本地小模型是金鱼记忆,聊两轮就前言不搭后 语,但现在,二十六万字的全部底层代码一次性喂进手机里。试想一下这个画面, 你的 iphone 十七 pro 或者任意一台本地设备,在完全断网甚至开启飞行模式的情况下,依然能把你刚刚丢进去的海量资料倒背如流,并在毫秒间给出极其精准的逻辑推演。 不用上传云端,完全不必担心隐私泄露,更不用交一分钱的 api 订阅费。只是在这场属于小模型的狂欢里,核心主创林俊扬的黯然退场,终究留下了一抹遗憾。有同团队的核心成员在评论区心碎留言暗示离开或许并非他本人的选择, 这不免让人唏嘘。端侧 ai 的 革命才刚刚打响,带头冲锋的灵魂人物却中途下车了。大家觉得这批能直接塞进手机的小钢炮 ai, 未来真的能干翻那些高高在上的付费云端模型吗? 对于这位三十二岁阿里屁时大佬的突然离开,你们又听到了什么风声?欢迎在评论区留言,咱们一起盘一盘!

大家好啊,昨天阿里巴巴开源了千问的一个小模型,三点五系列最小的尺寸模型啊,四款,那其中有一款是零点八 b 和两 b 的 啊,这个是非常小啊,推力虽然很大,但这里面我说的不是他的,我说的是一个三点五 b 的 啊,四 b 这款, 四 b 这款好了,四 b 这款的话呢,我们昨天晚上测试了一下汤,同时话呢,我们先说一个事啊,马斯克在 x 上对这个模型进行了测试,并且给出了一个非常好的体验,他认为这些参数他的智能密度令人印象深刻啊,为什么这么说? 我说这个四 b 的 模型,我建议大家考虑,如果稍微能力强,可以上那个九 b 的 模型。干什么来都知道你们正在养龙虾是吧?就那个大龙虾,那个智能体的集成是吧?号称是贾维斯的出行, 但是他是一个吃 token 大 户啊,什么意思啊?就是我之前试过啊,一个晚上让他给我们做一个程序啊,然后消耗了两百多万 token, 做出来程序还有很多 bug 啊,那,那这个事确实不可持续,虽然说这个 token 现在比较便宜,但两百多万 token 的 话也十几块钱呐,对吧?一个晚上十几块钱这玩意,而且解决一个任务呢,人任务多的话,可能上千万 token 都出去了,那怎么办?对,这个事怎么办? 所以呢,这个端侧部署一个端侧模型来解决这个龙虾啊,在日常应用中的绝大多数的 token 的 使用是当务之急, 那么在这种情况之下,这种小模型的话呢,就比拼,哎,谁能把大模型的这个能力降下来的这个度越小啊, 它寄生能力越好,对吧?这种情况下,所以千门刚刚推出这四款,尤其其中这个四臂,我们正好测试了,我们在昨天测试了,在我们的自己养的龙虾上跑起来非常的舒服啊,百分之八十以上的工作完全由这个端侧的小模型来解决了, 非常好啊,包括数据的处理啊啊,包括图表的处理啊啊,包括我们跟他日常对话包,包括调取这个,哎, skills 包括什么?呃,就是搜索东西啊,包括数据的集成啊,包括 excel 表格处理啊等等,这些东西完全都可以通过端测这个四 b 的 小模型进去, 非常好。所以呢,我说啊,我说这千万这次开源的四个小模型,其实恰恰什么,就是我们现在玩龙虾的最好的助手,也是最适合龙虾发展的模型, 就是这么回事啊,就非常的玄幻,但是现在就是这么回事啊,所以后续的东西,如果你们感兴趣的话啊,你们如果正在养龙虾的话,或者你想探索龙虾的,哎,我建议你好好试试这个模型,这个模型会给你省很多钱,因为它是开源的,你直接不熟以后最少你百分之八十左右的工作, 甚至高一点百分之八十五左右的工作,你是不用再去调取网络的 a p i 的 接接口了,它这个东西就产生更好的应用,懂,懂吗?但对于我们来说的话呢,它一是省钱,另外一个的话就是它的能力还够,而且它还有什么?它关键它有图形的这个 o c r 的 能力啊,然后它有图片的生成能力,这个就很强了, 这就很强了啊,所以这个事我觉得还是非常有意思的,而且小尺寸实现高智能啊,这个是非常强的,而且是少数实现跨级的性能的超越,媲美中型模型啊,中尺寸媲美顶级模型,这样的一个情况,我觉得华为的,哎,不是华为千万,这次做这事非常的好啊,非常的好, 好了,简单大家说一下,如果有需要的话可以好好试一下啊。另外的话呢,说一下呢,很多朋友说,老张,你现在是不是又关注 ai 了?注意关注 ai, 因为这是热点 啊,这是一定的热点,而且我们的这个说,在咱们的这个会议视频当中,热点也是因为我们的分析的快,然后你要说到哪看的话,关注一下我们小程序啊,到底瑞克老张哥不哥啊?我们小程序小程序里面的话呢,说实在的,咱们那个有一个免费的专栏,你说我不想花钱,有免费的专栏,就是咱们在平台上发的内容精选出来放的免费专栏的,不停的更新的,你要需要会看 看一下啊,赶紧的订阅就行,免费的。当然咱们的年度那个会员的话呢,现在是幺六九九啊,而且的话呢,我们是一年一百八十个这个会员视频,三十二场以上的会员直播之前内容都能看,甚至包括以前的付费专栏,包括以后的付费专栏都能免费看,特别划算啊,平均一那个一个视频 喝喝一场直播都十块钱左右啊,所以你觉得对吧?这个一一一一,一瓶两瓶,这个汽水钱啊,就就就解决一次这个抹平新茶的机会,你觉得划算不划算?好不好啊?今天就到这,我是瑞小张,关注我,带大家看中国科技的高度和温度,明天见,拜拜。

阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。

阿里千问三点五小模型今天发布,手机端 ai 进入新时代,在 local ai app 的 app 内已经可以在本机手机内安装和体验。视频里是二 b 模型,在 iphone 十七 pro 上完全本地运行, 它提供了四个尺寸,零点八 b, 二 b, 四 b, 九 b, 全部 ipad 二点零开元。最厉害的一个点是它原生多模态文字图片视频,一个模型搞定两百六十二 k, 上下文两百零,一种语言, 只要九 b 击败五 n a n o 和上一代困三到三十 b。 最疯狂的是零点八 b 模型,能理解和处理视频。