司波图7月前
拼好机!2500元装一台AI服务器!vLLM张量并行性能暴涨 💥2400元预算挑战AI算力天花板!本期视频,我们解决了Radeon VII / MI50 等 gfx906 架构显卡长期以来无法使用 vLLM 张量并行的痛点! 我们将全程展示如何用两张“过气”Radeon VII显卡,搭配X99“洋垃圾”平台,组装一台总价仅2397元的AI算力服务器。通过社区大神 nlzy 提供的特制Docker容器,我们成功解锁了vLLM的张量并行功能,在Qwen3 32B量化模型上实现了98 tokens/s的并发推理速度,性能是Ollama的6倍以上! 视频最后,我们还将通过Open WebUI,实战演示8个用户同时访问这台服务器的流畅体验! 本期硬件配置清单 (总计: ~2397元) 显卡 (GPU): AMD Radeon VII 16GB x 2 (二手 ~1600元) 主板 (Motherboard): 精粤 X99M-PLUS (~300元) 处理器 (CPU): Intel Xeon E5-2680 v4 (56元) 内存 (RAM): 海力士 ECC REG DDR4 8GB x 4 (176元) 硬盘 (Storage): 512GB NVMe SSD (~150元) 电源 (PSU): 额定850W 金牌认证电源 (二手 115元) 【本期方案超详细文字版教程】 为了方便大家复现,我们已经把今天所有用到的命令、链接,以及一份超详细的文字版部署教程,全部整理好,放到了UP主的Gitee主页上! 直达链接:https://gitee.com/spoto/R7vllm 如果觉得本期视频对你有帮助,请务-务-务必 点赞、投币、收藏 三连支持一下UP主!你们的支持是我爆肝更新的最大动力!感谢大家! #AI #AMD #vllm #服务器 #装机
00:00 / 07:59
连播
清屏
智能
倍速
点赞5468
阿里开源四款Qwen3.5小模型,马斯克惊叹“智能密度”惊人 阿里近日开源Qwen3.5系列四款小尺寸模型(0.8B/2B/4B/9B),这些模型专为端侧设备优化,可在笔记本电脑甚至手机上运行。马斯克在社交媒体评价其具备“令人惊叹的智能密度”,引发开发者社区热烈反响。 #Qwen35 #马斯克 #阿里 #AI小模型 性能突破:小模型实现大能力 Qwen3.5-9B在多项基准测试中表现卓越,在GPQA Diamond、MMMU-Pro等评测中超越GPT-5 nano、Gemini 2.5 Flash-Lite等大型模型。特别是9B版本在MMMU-Pro测试中以13分优势击败GPT-5-Nano,展现出色性能。4B版本在多语言知识、视觉推理等任务接近9B水平,成为轻量级智能体的理想选择。 端侧部署优势明显 0.8B/2B版本专为移动设备和IoT边缘设备设计,具备低延时特性;4B版本支持多模态任务,平衡性能与资源消耗;9B版本在受限显存环境下提供高性价比服务。实测显示,Qwen3.5-9B在AMD Ryzen AI平台配合量化算法,处理速度达30 token/s,仅需16GB显存即可运行。 开发者积极验证应用潜力 开发者验证模型可在Mac mini等设备配合OpenClaw实现全天候运行,成本低于初级员工月薪。有用户成功在iPhone部署,引发移动端应用热潮。虽然小模型在复杂数学推理方面存在局限,但其在特定任务上已达到商用级水平。 此次开源标志着端侧AI能力显著提升,为低成本AI部署开辟新路径。模型已在魔搭社区和Hugging Face开放下载,助力全球开发者探索边缘计算新场景。
00:00 / 05:51
连播
清屏
智能
倍速
点赞31
00:00 / 01:35
连播
清屏
智能
倍速
点赞27
00:00 / 08:57
连播
清屏
智能
倍速
点赞8
00:00 / 02:41
连播
清屏
智能
倍速
点赞1
00:00 / 05:03
连播
清屏
智能
倍速
点赞53
00:00 / 02:00
连播
清屏
智能
倍速
点赞1671
00:00 / 01:32
连播
清屏
智能
倍速
点赞120
00:00 / 00:53
连播
清屏
智能
倍速
点赞344