Qwen3.5-35B视觉多模态本地跑通,性价比炸裂💥 在2026年的今天,想跑大模型还要花几十万买H100/A800?NO! 🙅‍♂️今天给大家展示一套“极度务实”的国产化AI推理服务器方案。 CPU: 国产之光海光3490(16核32线程) 显卡: 2张 RTX 4090 48GB 魔改版(显存翻倍,快乐翻倍!) 目标: 完美运行 Qwen3.5-35B-A3B-FB8 视觉多模态模型! 总成本不到专业卡的零头,性能却足以应付绝大多数私有化部署场景!🔥 🤖 为什么选这套配置跑 Qwen3.5-35B? 1️⃣ 显存才是硬道理!💰 Qwen3.5-35B 是一个巨大的模型。 FP16精度:需要约 70GB+ 显存。 INT4量化:需要约 20-24GB 显存。 但是! 我们要跑视觉多模态 (Vision) + 长上下文 (Long Context) + 高并发。 图像编码需要额外显存。 KV Cache 在长文本下会吃掉大量显存。 双路4090 48G = 96GB 总显存。这意味着你可以: ✅ 轻松运行 FP8/INT4 精度的全量模型。 ✅ 预留充足显存给 高分辨率图片输入。 ✅ 支持 更长上下文 (32k+) 而不爆显存。 ✅ 甚至可以做小规模的 LoRA 微调!🛠️ 2️⃣ 海光3490:被低估的国产老将 🇨🇳 很多人觉得16核不够用? 在推理 (Inference) 场景下,瓶颈主要在 GPU 和 PCIe带宽,CPU主要负责数据预处理和调度。 海光3490基于Zen架构,PCIe通道数充足,能喂饱双卡数据流。 重点: 在信创、政企、涉密场景,国产CPU是刚需。这套方案完美符合“自主可控”要求,且成本极低! 📝 总结 这套 “海光3490 + 双4090 48G” 的方案,是2026年中小型企业、科研实验室、极客玩家部署私有化大模型的版本答案。 不要迷信原厂标,适合业务的才是最好的!如果你也想搭建自己的AI大脑,这套作业可以直接抄!📝 #大模型 #Qwen35 #国产芯片#RTX4090 #多模态AI
00:00 / 02:13
连播
清屏
智能
倍速
点赞5
00:00 / 01:45
连播
清屏
智能
倍速
点赞410
Tony沈哲2周前
本地 AI 推理平台 第十三期 Vol.13|OpenClaw 接入本地推理:Qwen3.5-27B 实测 这一期测试一个比较有意思的组合: OpenClaw + 本地 AI 推理平台 + Qwen3.5-27B 模型。 我将 OpenClaw 接入到我正在开发的 本地 AI 推理平台, 让 OpenClaw 使用本地模型作为 推理后端。 本次使用的模型是: Qwen3.5-27B-Claude-4.6-Opus-Distilled(MLX 4bit) 这是一个基于 Qwen3.5-27B 的模型,并蒸馏了 Claude Opus 风格行为, 同时使用 MLX 框架 + 4bit 量化进行本地推理优化。 需要说明的是: 这个模型 并不是真正的 Claude, 而是一个 Claude 风格的蒸馏模型。 在这一期视频中主要演示: 1️⃣ OpenClaw 接入本地推理平台 通过接口让 OpenClaw 使用 本地 AI 推理平台作为推理后端: OpenClaw ↓ 本地 AI 推理平台 ↓ Qwen3.5-27B Claude Distilled 这样 OpenClaw 就可以使用 本地模型进行推理。 2️⃣ Qwen3.5-27B Claude Distilled 简单实测 通过几个简单示例测试模型能力: 代码生成能力 概念解释能力 实际使用体验 例如: 生成 OpenCV C++ 直方图匹配算法 解释 Transformer 为什么可以处理长文本 这一期主要展示的是: 如何让 OpenClaw 接入本地模型推理能力, 并测试 Qwen3.5-27B Claude Distilled 的实际效果。 如果你对 本地 AI 推理、Agent 架构、或 AI 系统开发感兴趣, 欢迎关注这个系列。 我会持续记录 本地 AI 推理平台的开发过程与实验。 #OpenClaw #抖音养虾人俱乐部 #Qwen #本地大模型
00:00 / 10:49
连播
清屏
智能
倍速
点赞30
00:00 / 00:55
连播
清屏
智能
倍速
点赞27
想本地跑Qwen 3.5 72B大模型,却被显存、内存分配搞懵的?手里拿着RTX6000 Pro 96G显卡、256G大内存,愣是不知道怎么让模型各司其职,生怕一跑就爆显存、卡成狗! 今天我用漫画给你讲透,Ubuntu系统下,大模型、小模型到底该怎么分配资源,纯干货,看完直接抄作业! 首先咱先搞懂一个核心误区:不是所有模型都要挤显存!很多人以为模型运行全靠显卡,结果把TTS、ASR这些小模型也往显存里塞,直接把96G显存挤爆,这完全是错的! 我的配置是Ubuntu桌面版,RTX6000 Pro满血96G显存,256G大内存,要跑Qwen3.5 72B 8比特大模型,再加Qwen轻量ASR、TTS,还有视觉模型,怎么配才不卡? 记死了!大模型专属显存,小模型全扔内存,这是铁律!Qwen3.5 72B这种大模型,必须全塞进显存,咱们用llama.cpp启动,加两行关键参数,-n-gpu-layers 100让所有模型层都进显存,--no-cpu-offload禁止往内存跑,满负荷运行也就占80多G显存,96G完全够用,还留余量! 那小模型咋办?语音识别、语音合成、视觉小模型,代码里加一句.to("cpu"),强制跑内存,别碰显存!别觉得小模型不吃内存,就像我之前Mac跑TTS,小模型运行也能占十几G内存,但咱有256G大内存,三个小模型全跑内存,加系统开销,顶天也就七八十G,剩下一百多G随便造,根本不会爆! 很多人纳闷,72B这么大的模型,内存才占一二十G,小模型反而占更多?很简单!大模型权重全在显存,内存只负责调度打杂,小模型没显卡算力加持,全靠内存运行,所以占比看着反常,实则完全合理! 还有人问,用工具部署会自动分配吗?千万别信!llama这些工具不会智能区分,你不手动设置,它就全往显存塞,必爆无疑!必须人工干预,大模型锁显存,小模型锁内存,互不抢资源,运行起来流畅不卡顿! 总结一下,Ubuntu部署就这么干:大模型加参数全跑显存,小模型加代码全跑内存,96G显存+256G内存,这套组合跑72B大模型+多小模型,稳稳当当,再也不用担心爆显存、卡机! 同款配置的兄弟,直接照着这个方法配,新手也能一次成功,觉得有用的赶紧收藏,别等用的时候找不到!
00:00 / 03:02
连播
清屏
智能
倍速
点赞11
00:00 / 02:49
连播
清屏
智能
倍速
点赞46
00:00 / 00:31
连播
清屏
智能
倍速
点赞287