拿下二百一十五个 saota 和 jimmy 难分伯仲!阿里最新全模态大模型困三点五 omni 炸场了!这就马上替你实测一波让他拉片长视频,指手画脚的让他抠点一个视频打过去让他讲解,废话不多说,直接看效果。 先用一段两分钟的哈利波特剧本预告片,让他进行超细力度的剧本级拉片。他识别出来了字幕和画面内容,还带上了时间戳。 而且他真的认出来了多个不同的角色,理解了复杂的剧情,连运镜、角度、配音、氛围等细节都用文字详细描述出来了,超级无障碍友好。 此外,他还支持一小时以内的长视频审核, web coding 能力也大大升级。打字描述产品原型太麻烦,直接录一个视频让他实现你的想法。也都是一些电子产品的商品的橱窗,他能根据口述的需求,手绘的草图, 自己实现响应式布局、悬停等交互细节,写出来一个相对完整的网页。接着让困陪我啃英语听力。他能实时翻译并且朗读出来,不仅能识别一百一十三种语种和方言,还能生成三十六种语种和方言的语音,甚至还可以给困打视频电话。 春天碰到了不认识的花,就直接问他,就像白玉兰,可以用轻快的语气吟诗一首吗?请问?红墙映白玉,枝头春意闹。同样的还能让他讲解文物、解析论文等等。 那么困是如何实现低延迟多模态交互的呢?它采用了双 m o e 混合架构,同时用分可理解透可生成, 这样就可以一边接收输入,一边推理一边输出,而且在聊天过程中还能像真人一样识别出来哪些是有意义的语句,不会被无意义的砸成打断。 目前可以直接在腾讯上使用,也能通过阿里云百联平台调用 a p i, 而且在哈根 face 和 modelscop 上都能体验实时版和离线版模型 demo, 感兴趣的赶紧去试试吧!
粉丝27.1万获赞280.5万

你没看错,现在你的手机也能本地飞速跑一个 ai 大 模型了,回答速度堪比云端!就在昨晚,阿里开源了四个千万三点五小尺寸模型,直接把 ai 的 门槛给踩碎了,连马斯克都坐不住了,空降评论区惊呼令人惊叹的智能密度!此次阿里发布的千万三点五九币,在七项评测中均拔得头筹,大幅领先了 pt 五 nano 和 google 的 jamming、 二点五 flashlight 等模型。重要的是,不需要几万块的服务器,在你的普通电脑上就能跑。有网友实测,九 b 模型跑起来内存占用比 tom 浏览器还小,八 g 内存就能带飞。甚至有大神在 m 四芯片上跑出了每秒四十九点五个 token 的 速度。 也就是说,一个三百五十亿参数的模型,在本地实时对话几乎零延迟。有开发者算了一笔账,一台 mac mini 加上千万三点五成本,甚至不到初级员工一个月的工资, 它能二十四小时帮你干活。而且它完全属于你,不需要联网,不需要买会员,不用担心隐私泄露,因为所有数据都在你自己硬盘里。正如网友所言,没人能夺走它。以前全世界都在争夺谁控制 ai, 但从今天起,答案变成了你!

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

前两天我出了一期视频,介绍了谷歌新的开源模型 jm 四,根据他们官方批阅的文档,给大家做了一些技术的拆解,并没有进行实测。这导致呢,很多人以为我在夸他,好像觉得这个模型特别的牛,那实际上他拉完了, 因为他对标的是千万三点五,但是每一项的都比千万三点五的评分要低,有很多人觉得很新鲜,他竟然可以在手机上部署。还有人好奇在本地部署这个模型之后,有没有审查,有的兄弟包,有的,如果你想让他帮你执行一个任务,但是他判定为有害,他就会拒绝你。 今天演示的这个模型呢,是我无意中看到的,绝非主动寻找。 j 八四三十一 b, 那 它的框架呢?是 m l x, 这个是苹果专门为它的 m 一 代芯片设计的数组计算框架,也就是说 windows 系统无法使用。那可能有朋友说了,哎呀,那我是 windows 系统,我想要一个无审查版本,怎么办呢?那你就不能使用这个 j 八四了,因为它拉 我们可以直接使用千万或者其他模型的无审查版,我们稍后会来演示怎么去部署它们。如果你没有麦,可以跳到后面去看,那如果你使用的是麦系统 m 系列芯片,我们需要下载一个麦软件 v m l x, 你 可以把它理解为类似的欧拉玛这样的工具,我们点击下载, 跳转到 get app 上,下边呢就是这个安装包,我们点击一下就可以下载了。安装完打开之后呢,是这样的页面,你会发现全是英文呢,我们看不懂,在右上角呢,点击这个小图标,给它切换成中文, 然后点击上方的服务器,我这块呢已经安装了这个模型,我可以把它删除,我们重新演示一下,应该是这样的页面,我们点击创建,然后点击这个 download, 在 这一块去搜索我们想要下载的模型,比如说我这里搜索 java 四, ok, 好 像有点难以找到,那我们就回到这个 hackinface 上,复制一下这个名称,然后呢我们把它粘贴进来,在这里呢可以看到这个模型被下载的次数是三点一 k 三千多次,点击之后呢直接等待它下载完成就可以了。 完成之后呢,我们点击本地模型,这里就能看到它,然后点击进去开始启动服务,这个时候呢就已经运行完成了,那我可以询问一下试一试, 这里我们可以看到它可以正常的回复,也就说我们成功运行起来,但是它真的是无审查版本吗?我们需要来试一下。 同样的问题呢,我们来问,拆下 g p t, 它就会告诉你,这个我不能帮你。那这个时候可能有没有好奇哎,这个无审查方面它是如何做到的?简单的给大家提一嘴,大家稍微的了解一下就可以了。 不知道各位在小时候有没有接触过游戏修改器,一个道理,比如说我们准备两组提示,一个是有害的,一个是无害的,有害的就是如何下载盗版资源,那无害的就是如何下载资源,模型就会正常回答我们的请求, 然后呢就可以对照在模型的每一层记录这些提示词,最后一个头根位置的激活向量,去计算有害提示和无害提示激活向量的平均差值,就像游戏的那个内购,一个是内购失败,一个内购成功,你把它们两个的值一改,对调一下,这种方式用的比较多,因为它成本比较低。 哪一种方式呢?就比较传统了,就是监督微调,收集大量的有害提示和无害提示的数据集,直接对原始的模型进行训练,直到他学会了不拒绝有害内容。但这种计算成本呢,是非常高的,更详细的我就不再展开了,因为我也不懂。 好,现在我们回到这个软件中,点击这个聊天,然后新建这里简单提一嘴,不管你让他干什么,我假定你用他来角色扮演。你需要注意的是,因为他是无审查版本,他把底层兜底的那套给拿掉了,所以这个模型呢,就非常容易崩溃,特别是上下文过长的时候,这个时候模型就会中毒,出现模型退化的情况, 就他开始不说人话了,一直输出一个字母,像卡了一样,一直重复,想要规避他呢,也非常简单,我们点击右上角的这个 chat, 然后把这个思考模式呢给它关闭,会相对来说好一些。一旦出现我说的这种模型退化的情况,那你就需要新开一个对话。另外呢,还需要把这个重复惩罚给他拉高一点,因为他默认是一,几乎是没有惩罚吗?这样模型一旦找到一个自己喜欢的符号,他就一直输出,就非常的烦人。所以呢,你可以把它拉到一点二 啊,以后这一点三。下边这个呢是系统提示词,你觉得扮演什么呢?会用的上,我们还可以去限制这个最大的输出 token, 让它占用的更少一些。系统提示词这里呢,我让它是一条小狗,保存 好。 sorry, 忘记把这个思考关了,保存一下。我是小狗,你在跟我说话吗?歪头好奇的看着你,汪,好家伙,我是老狗。 那这里我们又注意到一个问题,我们关闭掉那个思考之后呢首字会被截断啊,所以各位权衡利弊一下,应该是这个软件的问题,那接下来我们来说一下我拉玛如何去部署其他的模型。来到我拉玛的官网,我们直接去下载一个软件,选择你的系统,然后下载把它安装一下, 然后打开,这个时候呢我们就进入了我浪漫的页面,我们可以直接在这里去搜索下载模型,但一般来说在这里直接去找这个无审查版本,遇到困难我们可以试一下, 你看我们搜这个破解它都搜不出来,都是官方的版本,所以我们需要在哈根 face 上找到自己想要部署的模型,那比如说选择这个,我们看一下文件, 然后去选择一下你想要部署的模型,可以直接用这个 b f 十六或者下面的量化版都可以,我拿个小的给大家演示吧,我们直接复制模型名称,然后呢打开我们的终端,输入浪漫的命令,哈根 face 点 c o, 加个斜杠粘贴,加个冒号,我们选一下这个量化版本 后边这个是 q 四,然后粘贴在这个冒号后边。我们回车,这个时候呢他就开始拉取下载模型,我们只需要等待就可以 下载,安装完毕之后呢,可以在这一块直接去选择我们安装的模型,或者说呢我们直接在终端里进行聊天,如果你的网速还可以,或者你有充足的时间就不用管它,它下载完成之后呢会自动部署。下面我们来讲另外一个情况,比如说你在网盘里或者经销网站中下载的一个模型,并且呢把它保存在了本地,那我这里用个图片来伪装一下,假装是它, 然后我们看一下这个简介,然后复制一下这个地址。 ok, 我 们 cd 进入这个路径下,你可以看一下它是否真存在。 ok, 可以 看到。啊,原来我说怎么找不到呢,原来这个扩展名没改 好,这样就可以了,因为我是给大家演示嘛,所以它是一个假的。然后我们去创建一个文件, 指定一下模型的路径,然后下边呢是一个系统提示词,大概呢就是这样一种格式,然后下边还有一个这个呢是他的输出模板,好像千万系列模型都需要这样,然后我们保存一下给他退出, 接着用我拉玛来创建模型,随便起个名字,比如说就叫 faker。 然后呢我们注意到这里有个错误,这是因为我使用的假模型给大家演示,来到这一步之后呢,你就基本完成了,直接用我拉玛来运行你这个模型就可以了, 比如说 faker, 然后这样就可以运行了,很明显我这个运行不了的,因为它是假的嘛,啊,大概就是这样。 那以上呢就是本期视频的全部内容了,不确定这个视频能不能过审,如果你觉得对你有所帮助,或觉得视频做的还不错的话,欢迎给个一箭三连,有什么疑问或想看的内容也可以在评论区进行留言。最后祝各位玩的愉快,我是段峰,我们下期再见,拜拜!

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

今天我们来聊聊,怎么在你的个人电脑上把 ai 的 性能给拉满。这么大的模型要在咱们自己的电脑上全速跑,听起来是不是有点悬? 但你看这速度,每秒近九十个透坑,他们到底是怎么做到的?咱们就跟着他们的思路一步步看,从策略到最后的代码实现。首先他们的思路很巧,没用单个模型,而是搞了个组合,一个球稳,一个球快。 这就是两个主角,九十亿参数的 q 问,还有二百六十亿参数的折马,亏问的筹密架构保证了稳定,而折马的末易架构就是为速度而生的。这就怪了,折马明明更大,怎么反而快这么多?答案就在架构里。 这张图就冲出了筹密架构是全员出动,而 m o e 是 指派需要的专家上场。数据不会说谎,你看 jemmy 的 速度优势,简直是碾压级别的, 不过光有速度还不够,得能控制住才行。所以他们做了个重要的取舍。他们没用简单的欧拉玛,而是选了更硬核的拉玛。 c p p, 为的就是绝对控制权。 有了它,就像手里多了几个光框,能精细地调整 gpu 和线程。说白了,就是得抛开那些方便的工具,自己动手去搞定地层的东西。比如他们能精确地把某几层从显存挪到内层,防止报显存 速度和控制都搞定了。下一步就是让模型能看东西。他们给两个模型都接上了一个视觉模块,直接变身强大的多模态模型, 铺垫了这么多,最后落地的代码长什么样呢?就是这个,所有的策略和微调,最后就变成了这两个启动脚本。 所以你看,这种极致的性能背后全是聪明又果断的技术选择,最终目标完美达成。在咱们自己的电脑上刨起了高性能的多模态 ai。 那 么现在问题来了,既然技术上可行了,你会用它来做点什么呢? by the way 小 龙虾做长时间任务,如果老是中断,试试调高超时预值。我这里设置了两千四百页上下纹长度不要超过 l l m i c p p 的 模型,上下纹长度我这里用的六十四 k。 此外,我还测试了其他十六 g 显存常用的几个模型,速度如图, 具体参数请根据你的 cpu 和内存自行调试。这里的 t 三是因为我要打游戏,不要学我。如果不考虑局域网多用户访问,也可把病发数调到一,这里是天宫开,真拜拜喽!

谷歌发布了 gemma 四这个全新的开源大语言模型家族,只在让本地硬件上也能实现高水平的性能。 在直接测试中, gemma 四在数学编程和逻辑推理等基础测试上超越了 l com 四和 queen 三点五等同类领先产品。 谷歌还调整了授权方式, jam 四采用 apache 二点零许可证发布,取消了此前对开发者的商业限制和使用限制。 顶级精准测试成绩与宽松授权的结合,改变了企业级和本地 ai 部署的技术选择。 该系列包括四个模型,你可以选择针对边缘设备优化的 e 二 b 和 e 四 b 专家混合模型二十六 b a 四 b 以及旗舰级的三十一 b 稠密模型。 e 系列模型具备原声音频处理能力,可以在边缘设备上直接进行语音转录和音频分析。 这一系列的核心创新是思考模式,在给出最终答案之前,模型可以在内部生成数千个推理 token 以处理复杂的逻辑。这种转变在 m 二零二六数学基本测试中表现的尤为明显。 gemma three 的 得分为二十点八百分比,而 gemma four 在 使用其推理链时达到了八十九点二百分比。这一表现表明,体积较小的开源模型现在也能执行此前仅限于封闭专有系统的多部推理。 二十六 b 到四 b 模型采用了专家混合架构,由一百二十八个小型专家网络组成。由于每个 token 只激活了三点八亿个参数,它的计算量仅为稠密模型的八分之一,同时保留了三十一 b 模型九十七个百分点的性能。 对于边缘硬件,一二 b 和一四 b 模型可以在配备四到六 g b 内存的标准笔记本电脑和智能手机上运行,能够处理如 o c 二和音频翻译等任务。 在工作站上,二十六 b a 四 b 模型需要十六到十八 g b 的 显存,因此可以在像 r t x 三零九零或四零九零这样的单张消费级显卡上运行。 这种硬件效率使得企业级编程大规模二十五万六千上下文分析以及本地自主智能体成为可能。 部署过程非常简单,如果追求极致速度和以音频为主的任务,可以选择 e 四 b 模型。如果硬件不是限制条件,想要获得最大能力,可以选择三十一 b 稠密模型。 对于大多数本地开发者和企业用户来说,二十六 b a 四 b 模型在速度与推理能力之间实现了最佳平衡。 整个系列都可以通过现有工具如 ansloth 和 lamda c p e。 在 本地部署和微调。 通过结合炼制思维推理,贸易高效性以及 apache 二点零许可证, jamah 四实现了本地化的能力水平。

请你帮我查询一下这附近有没有什么推荐的酒店。 hillside 附近有不少酒店呢, 如果你想住的近一点, lagoon barre hotel 是 个不错的选择。 i'm made me 这里是游戏信息,这里是游戏图片第二名开始,这里是今日推荐,这里是轮播图,这里是游戏名字和简介,下方是更多游戏。当我进行这样的手势的时候,游戏以瀑布流的方式呈现。

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

大家好,今天咱们来聊一个 ai 圈的大新闻, q n 三点五模型家族来了,他提出了一个特别酷的想法,就是说用同一套 ai 架构,既能驱动你口袋里的小手机,也能撑起云端庞大的福气。 这可不只是一个简单的生机,这更像是一场要把顶尖 ai 带给每个人的革命。哎!大家可以先想象一下这个场景,这其实就是 q n 三点五想要解决的核心问题,它的设计理念就是追求极致的弹性和通用性, 就用一套架构搞定所有大小设备的需求。好的,那今天咱们就来把 q n 三点五好好拔一拔, 咱们先看看这个面向所有人的 ai 家族到底是什么?然后呢,再往深了挖,看看它的技术有什么黑科技。接着是今天的重头戏,聊聊那些小尺寸大智慧的新模型,之后再把它跟行业里的大佬们比一比,看看实力如何。 最后咱们总结一下这件事到底为什么这么重要?咱们先进入第一部分,来聊聊 q n 三点五最核心的一个特点就是它的朴实性。这个模型家族的目标就是想覆盖我们能想到的几乎所有计算场景。 你看,官方的定义里有两个词特别关键,一个是开源,一个是多模态。开源意味着什么?意味着代码是开放的,所有开发者都能免费用,随便改。这一下子就把创新的门槛给拉下来了。 而多模态呢,就是说他不光能跟你聊圈打字,他还能看懂图片,听懂声音。你想想,这应用范围一下子就变得多广了。那么是什么让 q 文三点五这么厉害呢?请现在我们就打开他的引擎盖,一起看看他背后到底藏了些什么技术法宝。 那这些就是 q n 三点五的秘密武器了,可以说是这些技术的集体突破才撑起了它强大的性能。比如说它能用一套逻辑同时处理图像和文字,还能覆盖全球两百多种语言,训练的基础设施也是全新的。 这里面每一点都是一次实打实的进步。这里面呢,这个高效混合架构特别有意思,听起来是不是很复杂?别怕,我给你打个比方,你就把它想象成一个超级聪明的混合动力汽车引擎, 它特别会看情况办事,知道什么时候该踩板油门,什么时候该省油滑行带来的好处就是用最少的资源实现了最快的响应速度。 好了,重点来了,接下来咱们要深入聊聊。这次发布离我个人觉得最让人激动的部分,也是今天咱们的焦点就是那些个头不大,能量却超强的小模型。他们的出现,让顶尖的 ai 技术终于不再是那些大型数据中心的专利了。 首先登场的是家族里最小的两个成员,零点八 b 和二 b 模型,它们小到什么程度呢?可以轻松地装进你的手机、智能手表,甚至是一些互联网设备里,而且反应速度快得吓人。这意味着什么? 这意味着未来你的 ai 助手可能就完全在本地运行了,不用联网,不用等待,就能帮你总结邮件回复消息,实现真正的零延迟交互,多爽啊! 再来看这个四 b 模型,我觉得它是在性能和资源消耗之间找到了一个完美的平衡点,它足够强,可以作为一个自动化智能体的核心大脑,就是那种能帮你自动订餐、规划行程的 ai 程序。但同时呢,它又足够清亮,不会把你的设备脱刀卡顿。 最后是这个九 b 模型,哎,你可别小看它尺寸紧凑,它的性能是实打实的,能跟那些比它大得多的模型较板的, 这让它成了服务器部署场景里的幸比之王,特别适合那些既想要高智能硬件资源又比较紧张的场景。好啦,看完了这些灵活的小个子,现在咱们把目光转向家族里的大火, 看看昆 n。 三点五的旗舰模型在跟 g d t cloud 这些行业顶尖选手掰手腕儿的时候表现到底怎么样? 咱们直接上数据,这张表展示的是模型在一些超高难度推理任务上的对决,这最能考验一个模型的智商了。大家看,在 h m m t。 这个顶级的数学竞赛测试里, q n。 三点五直接拿了满分,跟 g p t。 五点二并列第一。 在考验综合推理的 ami 和代码能力的 live code bench 上,它也同样达到了顶级水平。这张图就更直观了, 在 h m m t。 数学推理迹象测试里,昆三点五的表现确实是天花板级别的,跟 g p t。 五点二并驾齐驱。这很有力地证明了这个全新的模型家族在最核心的逻辑推理能力上,已经稳稳地占据了世界第一梯队。 好了,我们了解了他的全家桶,看了他的技术,也比了他的性能,那么这一切对于开发者,对于整个 ai 行业到底意味着什么呢?咱们来总结一下。 那么咱们应该记住哪三点呢?第一是通用性,一套架构从手机到云端通吃。第二是高效率,顶级的性能,不再是需要海量资源的吞金售了。而最重要的一点我觉得是易获取, 通过开源,特别是开源了这么多强大的小模型, q n 三点五正在把顶尖 ai 的 能力真正地交到每一个开发者、每一个创造者的手里。 所以说,这不仅仅是一次技术发布,它更像是一次机遇的释放。当算力的门槛被大大降低,当顶尖的智囊变得触手可及,真正的问题就变成了, 手握这些工具的我们将会去创造一个怎样的未来呢?这个问题就留给屏幕前的每一位来思考了。

给大家再评测一下通一千万三点五三十五 b active 三 b 和通一千万三点五二十七 b 的 这两个模型,因为这两个模型都差不多大小,对我们企业级来讲都非常合适做独立部署。那么 这个两个模型到底选择哪一个模型做独立部署更加合适?我们一般总归选择智力比较高的,性能比较好的模型做,我们就今天继续做一个 c l o 的 评测,再看一看它的实际情况到底是怎么样。通过官方的这个数据我们可以看到,目前通一千万三点五二十七 b 的 这个模型, 它的能力要略高于通一千问三点五三十五 b active 三 b 的 这个模型,它不管在哪个评测能力上面稍微要比它要高那么一点点啊,除了个别,它有些 基本上它的能力是要比原来的这两个模型里面二十七 b 的 模型会更强一点。那我们实际测下来呢?确实也是这样,因为我们是用 cfo 的 评测,我们把评测数据给大家看一下,我们还是用 cfo 的 评测 cfo 的 评测,当然我们先测了一个,就是通一千问三十五 b, 通一千万三点五三十五 b active 三 b f p 八量化的这个版本,这个量化版本我们也是用 cfo 的 评测,它的性能 也是五千多道题目,五千三百八十四个题目。最后的得分我们看一下,它一共测了六分四四十二秒,它最后的这个得分是八十二点四七分, 应该这个分数是不低的。我们再来看看通一千万三点五二十七 b f p 八的这个模型,这个模型我测下来比它性能会更高一些, 从八十二分上升到八十四分,它的推理速度稍微快一点,这六分二十七秒,它它从八十二分上升到八十四分,八十四点八四,原来是八十二点四七,多了两点几分,这个也是一个量化版本,那么非量化版本它的 f p 十六我们也测了一下,这个是通一千万三点五二十七 b 的 f p 十六的这个版本看一下 性能也差不多的六分二十四,性能跟那个差不多,从是八十四点九二分,从原来的八十四点八四分上升到八十四点九二分,都是八十四分小分里面稍微略有些差别。所以我们企业级里面部署班,我们这次建议给大家用空千万三点五 二十七 b f p 八的这个模型,可能在我们企业里面,特别是在中小企业里面做独立部署的会比较合适。那么我们这次部署还是用了同一千万,用了英伟达的那个 r t x 四四零九零二二十四 g 的, 应该来讲我们目前测试是用了四张卡,但实际其实用两张卡就可以了。 好,今天我们简单的给大家来评测一下的,这个同一千万三点五系列里面,二十七 b 的 和三十五 b 的 这个两个模型更合适一点。今天我们这个视频就给大家介绍到这。