00:00 / 01:33
连播
清屏
智能
倍速
点赞101
00:00 / 00:38
连播
清屏
智能
倍速
点赞144
阿里开源四款Qwen3.5小模型,马斯克惊叹“智能密度”惊人 阿里近日开源Qwen3.5系列四款小尺寸模型(0.8B/2B/4B/9B),这些模型专为端侧设备优化,可在笔记本电脑甚至手机上运行。马斯克在社交媒体评价其具备“令人惊叹的智能密度”,引发开发者社区热烈反响。 #Qwen35 #马斯克 #阿里 #AI小模型 性能突破:小模型实现大能力 Qwen3.5-9B在多项基准测试中表现卓越,在GPQA Diamond、MMMU-Pro等评测中超越GPT-5 nano、Gemini 2.5 Flash-Lite等大型模型。特别是9B版本在MMMU-Pro测试中以13分优势击败GPT-5-Nano,展现出色性能。4B版本在多语言知识、视觉推理等任务接近9B水平,成为轻量级智能体的理想选择。 端侧部署优势明显 0.8B/2B版本专为移动设备和IoT边缘设备设计,具备低延时特性;4B版本支持多模态任务,平衡性能与资源消耗;9B版本在受限显存环境下提供高性价比服务。实测显示,Qwen3.5-9B在AMD Ryzen AI平台配合量化算法,处理速度达30 token/s,仅需16GB显存即可运行。 开发者积极验证应用潜力 开发者验证模型可在Mac mini等设备配合OpenClaw实现全天候运行,成本低于初级员工月薪。有用户成功在iPhone部署,引发移动端应用热潮。虽然小模型在复杂数学推理方面存在局限,但其在特定任务上已达到商用级水平。 此次开源标志着端侧AI能力显著提升,为低成本AI部署开辟新路径。模型已在魔搭社区和Hugging Face开放下载,助力全球开发者探索边缘计算新场景。
00:00 / 05:51
连播
清屏
智能
倍速
点赞36
想本地跑Qwen 3.5 72B大模型,却被显存、内存分配搞懵的?手里拿着RTX6000 Pro 96G显卡、256G大内存,愣是不知道怎么让模型各司其职,生怕一跑就爆显存、卡成狗! 今天我用漫画给你讲透,Ubuntu系统下,大模型、小模型到底该怎么分配资源,纯干货,看完直接抄作业! 首先咱先搞懂一个核心误区:不是所有模型都要挤显存!很多人以为模型运行全靠显卡,结果把TTS、ASR这些小模型也往显存里塞,直接把96G显存挤爆,这完全是错的! 我的配置是Ubuntu桌面版,RTX6000 Pro满血96G显存,256G大内存,要跑Qwen3.5 72B 8比特大模型,再加Qwen轻量ASR、TTS,还有视觉模型,怎么配才不卡? 记死了!大模型专属显存,小模型全扔内存,这是铁律!Qwen3.5 72B这种大模型,必须全塞进显存,咱们用llama.cpp启动,加两行关键参数,-n-gpu-layers 100让所有模型层都进显存,--no-cpu-offload禁止往内存跑,满负荷运行也就占80多G显存,96G完全够用,还留余量! 那小模型咋办?语音识别、语音合成、视觉小模型,代码里加一句.to("cpu"),强制跑内存,别碰显存!别觉得小模型不吃内存,就像我之前Mac跑TTS,小模型运行也能占十几G内存,但咱有256G大内存,三个小模型全跑内存,加系统开销,顶天也就七八十G,剩下一百多G随便造,根本不会爆! 很多人纳闷,72B这么大的模型,内存才占一二十G,小模型反而占更多?很简单!大模型权重全在显存,内存只负责调度打杂,小模型没显卡算力加持,全靠内存运行,所以占比看着反常,实则完全合理! 还有人问,用工具部署会自动分配吗?千万别信!llama这些工具不会智能区分,你不手动设置,它就全往显存塞,必爆无疑!必须人工干预,大模型锁显存,小模型锁内存,互不抢资源,运行起来流畅不卡顿! 总结一下,Ubuntu部署就这么干:大模型加参数全跑显存,小模型加代码全跑内存,96G显存+256G内存,这套组合跑72B大模型+多小模型,稳稳当当,再也不用担心爆显存、卡机! 同款配置的兄弟,直接照着这个方法配,新手也能一次成功,觉得有用的赶紧收藏,别等用的时候找不到!
00:00 / 03:02
连播
清屏
智能
倍速
点赞11
00:00 / 04:53
连播
清屏
智能
倍速
点赞2