00:00 / 03:22
连播
清屏
智能
倍速
点赞17
Tony沈哲3周前
本地 AI 推理平台 第十三期 Vol.13|OpenClaw 接入本地推理:Qwen3.5-27B 实测 这一期测试一个比较有意思的组合: OpenClaw + 本地 AI 推理平台 + Qwen3.5-27B 模型。 我将 OpenClaw 接入到我正在开发的 本地 AI 推理平台, 让 OpenClaw 使用本地模型作为 推理后端。 本次使用的模型是: Qwen3.5-27B-Claude-4.6-Opus-Distilled(MLX 4bit) 这是一个基于 Qwen3.5-27B 的模型,并蒸馏了 Claude Opus 风格行为, 同时使用 MLX 框架 + 4bit 量化进行本地推理优化。 需要说明的是: 这个模型 并不是真正的 Claude, 而是一个 Claude 风格的蒸馏模型。 在这一期视频中主要演示: 1️⃣ OpenClaw 接入本地推理平台 通过接口让 OpenClaw 使用 本地 AI 推理平台作为推理后端: OpenClaw ↓ 本地 AI 推理平台 ↓ Qwen3.5-27B Claude Distilled 这样 OpenClaw 就可以使用 本地模型进行推理。 2️⃣ Qwen3.5-27B Claude Distilled 简单实测 通过几个简单示例测试模型能力: 代码生成能力 概念解释能力 实际使用体验 例如: 生成 OpenCV C++ 直方图匹配算法 解释 Transformer 为什么可以处理长文本 这一期主要展示的是: 如何让 OpenClaw 接入本地模型推理能力, 并测试 Qwen3.5-27B Claude Distilled 的实际效果。 如果你对 本地 AI 推理、Agent 架构、或 AI 系统开发感兴趣, 欢迎关注这个系列。 我会持续记录 本地 AI 推理平台的开发过程与实验。 #OpenClaw #抖音养虾人俱乐部 #Qwen #本地大模型
00:00 / 10:49
连播
清屏
智能
倍速
点赞30
Qwen3.5-35B视觉多模态本地跑通,性价比炸裂💥 在2026年的今天,想跑大模型还要花几十万买H100/A800?NO! 🙅‍♂️今天给大家展示一套“极度务实”的国产化AI推理服务器方案。 CPU: 国产之光海光3490(16核32线程) 显卡: 2张 RTX 4090 48GB 魔改版(显存翻倍,快乐翻倍!) 目标: 完美运行 Qwen3.5-35B-A3B-FB8 视觉多模态模型! 总成本不到专业卡的零头,性能却足以应付绝大多数私有化部署场景!🔥 🤖 为什么选这套配置跑 Qwen3.5-35B? 1️⃣ 显存才是硬道理!💰 Qwen3.5-35B 是一个巨大的模型。 FP16精度:需要约 70GB+ 显存。 INT4量化:需要约 20-24GB 显存。 但是! 我们要跑视觉多模态 (Vision) + 长上下文 (Long Context) + 高并发。 图像编码需要额外显存。 KV Cache 在长文本下会吃掉大量显存。 双路4090 48G = 96GB 总显存。这意味着你可以: ✅ 轻松运行 FP8/INT4 精度的全量模型。 ✅ 预留充足显存给 高分辨率图片输入。 ✅ 支持 更长上下文 (32k+) 而不爆显存。 ✅ 甚至可以做小规模的 LoRA 微调!🛠️ 2️⃣ 海光3490:被低估的国产老将 🇨🇳 很多人觉得16核不够用? 在推理 (Inference) 场景下,瓶颈主要在 GPU 和 PCIe带宽,CPU主要负责数据预处理和调度。 海光3490基于Zen架构,PCIe通道数充足,能喂饱双卡数据流。 重点: 在信创、政企、涉密场景,国产CPU是刚需。这套方案完美符合“自主可控”要求,且成本极低! 📝 总结 这套 “海光3490 + 双4090 48G” 的方案,是2026年中小型企业、科研实验室、极客玩家部署私有化大模型的版本答案。 不要迷信原厂标,适合业务的才是最好的!如果你也想搭建自己的AI大脑,这套作业可以直接抄!📝 #大模型 #Qwen35 #国产芯片#RTX4090 #多模态AI
00:00 / 02:13
连播
清屏
智能
倍速
点赞5
司波图8月前
拼好机!2500元装一台AI服务器!vLLM张量并行性能暴涨 💥2400元预算挑战AI算力天花板!本期视频,我们解决了Radeon VII / MI50 等 gfx906 架构显卡长期以来无法使用 vLLM 张量并行的痛点! 我们将全程展示如何用两张“过气”Radeon VII显卡,搭配X99“洋垃圾”平台,组装一台总价仅2397元的AI算力服务器。通过社区大神 nlzy 提供的特制Docker容器,我们成功解锁了vLLM的张量并行功能,在Qwen3 32B量化模型上实现了98 tokens/s的并发推理速度,性能是Ollama的6倍以上! 视频最后,我们还将通过Open WebUI,实战演示8个用户同时访问这台服务器的流畅体验! 本期硬件配置清单 (总计: ~2397元) 显卡 (GPU): AMD Radeon VII 16GB x 2 (二手 ~1600元) 主板 (Motherboard): 精粤 X99M-PLUS (~300元) 处理器 (CPU): Intel Xeon E5-2680 v4 (56元) 内存 (RAM): 海力士 ECC REG DDR4 8GB x 4 (176元) 硬盘 (Storage): 512GB NVMe SSD (~150元) 电源 (PSU): 额定850W 金牌认证电源 (二手 115元) 【本期方案超详细文字版教程】 为了方便大家复现,我们已经把今天所有用到的命令、链接,以及一份超详细的文字版部署教程,全部整理好,放到了UP主的Gitee主页上! 直达链接:https://gitee.com/spoto/R7vllm 如果觉得本期视频对你有帮助,请务-务-务必 点赞、投币、收藏 三连支持一下UP主!你们的支持是我爆肝更新的最大动力!感谢大家! #AI #AMD #vllm #服务器 #装机
00:00 / 07:59
连播
清屏
智能
倍速
点赞6242
新闻标题: 阿里除夕夜开源Qwen3.5大模型,A股算力、应用与生态伙伴全面受益 简要概括: 2026年2月16日(除夕夜),阿里巴巴宣布将开源新一代千问大模型Qwen3.5,该模型实现了模型架构的创新。此举旨在降低AI应用门槛、繁荣开发者生态,并推动其“AI to C”战略落地。 核心影响与受益链条: 1. 算力基础设施直接受益:大模型训练与推理需求激增,利好服务器、IDC、芯片、光模块、温控等硬件供应商。例如,浪潮信息作为阿里云AI服务器核心供应商,业绩深度绑定;数据港为模型运行提供关键算力支撑。 2. 垂直行业应用加速落地:通过“千问伙伴计划”,模型能力渗透至酒店、交通、金融、医疗、电商等领域。石基信息、千方科技、恒生电子等合作伙伴将借助千问AI优化其行业解决方案。 3. 技术生态服务商扮演桥梁角色:软通动力、润建股份等公司提供模型集成、算力调度及企业级AI转型服务,是模型规模化落地的重要推动者。 4. 零售与营销场景优化体验:阿里系持股或深度合作的三江购物、蓝色光标等公司,将千问AI能力用于线下门店数字化、社区团购及智能营销,提升运营效率。 总结:阿里此次开源巩固了其在大模型生态的领导地位,从上游算力、中游行业应用到下游零售场景,形成了一条完整的A股受益产业链。同时需注意AI技术迭代、客户集中度及商业化进度等潜在风险。
00:00 / 00:27
连播
清屏
智能
倍速
点赞131
00:00 / 01:49
连播
清屏
智能
倍速
点赞15
00:00 / 02:03
连播
清屏
智能
倍速
点赞12
阿里在春节全新开源大模型Qwen3.5! 阿里在春节全新开源大模型Qwen3.5! Qwen3.5-Plus拥有3970亿总参数,但激活参数仅170亿,性能超越了上一代万亿级模型。得益于创新的极致稀疏MoE架构,其推理效率大幅提升,最大吞吐量可达19倍,而API调用成本低至每百万Token 0.8元,性价比极高。 此次升级的核心是从“语言模型”进化为“原生多模态大模型”。与市面上常见的“拼装”方案不同,Qwen3.5从预训练第一天起,就让文本、图像、视频等多模态数据在同一架构下进行深度融合学习,使其具备了像人一样的跨模态直觉理解力。实测中,它能将手绘草图直接生成可用的网页代码,也能精准理解复杂图片中的物体、模糊文字并进行综合推理。 模型的技术突破在于四大核心创新:混合注意力机制提升了长文本处理效率;原生多Token预测使响应速度接近“秒回”;系统级训练稳定性优化(如获得NeurIPS 2025最佳论文奖的注意力门控机制)确保了大规模训练的稳定。这些技术共同实现了“以小博大”,在保持顶尖性能的同时,让部署成本大幅降低,变得更加“好用、实用、用得起”。 此外,Qwen3.5具备强大的智能体(Agent)能力,可作为视觉智能体自主操作手机与电脑完成任务,并与OpenClaw等工具集成,实现自动化流程。总体而言,Qwen3.5不仅再次刷新了开源模型的能力天花板,更将行业竞争的重点从单纯比拼参数规模,引向了追求极致效率与实用性的新阶段。
00:00 / 05:12
连播
清屏
智能
倍速
点赞35