00:00 / 00:47
连播
清屏
智能
倍速
点赞13
00:00 / 01:38
连播
清屏
智能
倍速
点赞18
笔记本部署Gemma4免费养“大龙虾”可行么? Gemma4本地大模型发布啦!你的笔记本部署本地大模型免费养“大龙虾”可行么? 今天 AI 圈最大的新闻,就是谷歌正式发布了本地开源大模型 Gemma 4,包含了 E2B、E4B、26B、32B多个参数版本。 众所周知,养大龙虾这种需要高频调用、实时反馈的智能体,Token 的输出速度就是生命线。 如果半天憋不出一个字,那不叫智能体,那叫“智障体”。 为了回答这个问题,我拿手头的两台主流配置的轻薄笔记本,用 Ollama本地部署大模型,做一次真机测试。 不吹不黑,我们直接用数据说话。 为了尽量还原大家的日常使用场景,我选了一台 Mac 笔记本和一台 Windows 笔记本,都是目前大家最常用的笔记本型号。其中苹果笔记本为MacBook Air M4 芯片,配置了16GB 统一内存和 1TB硬盘。而Windows笔记本为联想小新Pro 14 GT ,配置了酷睿 Ultra 5 CPU,以及 32GB 大内存和1TB 硬盘,笔记本为核显,没有独立显卡。 让我们来看看最终的核心数据,也就是Token 输出速度: 1. 谷歌的中量级模型Gemma 4 E4B MacBook的Token输出速度为21.25 tokens/s; Windows笔记本的Token输出速度为12.64tokens/s; 在小尺寸大模型中,苹果笔记本凭借统一内存架构,速度几乎快了一倍,是绝对的王者。 2. DeepSeek R1 8B MacBook的Token输出速度为16.74 tokens/s Windows笔记本的Token输出速度为7.8 tokens/s 3. 阿里的Qwen 3.5 9B M4芯片的MacBook Air的Token输出速度为8.8 tokens/s 而Windows笔记本的Token输出速度为5.9 tokens/s 低于 10 tokens/s 的模型体验非常糟糕,不建议在此配置下使用。 4. 谷歌Gemma4:26B的重量级模型 MacBook Air 笔记本显存直接爆掉,完全无法运行。 而Windows 联想小新笔记本的Token输出速度竟然达到了11.45 tokens/s,完全超乎想象。 #vibecoding#gemma4#openclaw#大龙虾#大模型
00:00 / 04:29
连播
清屏
智能
倍速
点赞421
00:00 / 00:42
连播
清屏
智能
倍速
点赞9
00:00 / 00:59
连播
清屏
智能
倍速
点赞442
司波图8月前
拼好机!2500元装一台AI服务器!vLLM张量并行性能暴涨 💥2400元预算挑战AI算力天花板!本期视频,我们解决了Radeon VII / MI50 等 gfx906 架构显卡长期以来无法使用 vLLM 张量并行的痛点! 我们将全程展示如何用两张“过气”Radeon VII显卡,搭配X99“洋垃圾”平台,组装一台总价仅2397元的AI算力服务器。通过社区大神 nlzy 提供的特制Docker容器,我们成功解锁了vLLM的张量并行功能,在Qwen3 32B量化模型上实现了98 tokens/s的并发推理速度,性能是Ollama的6倍以上! 视频最后,我们还将通过Open WebUI,实战演示8个用户同时访问这台服务器的流畅体验! 本期硬件配置清单 (总计: ~2397元) 显卡 (GPU): AMD Radeon VII 16GB x 2 (二手 ~1600元) 主板 (Motherboard): 精粤 X99M-PLUS (~300元) 处理器 (CPU): Intel Xeon E5-2680 v4 (56元) 内存 (RAM): 海力士 ECC REG DDR4 8GB x 4 (176元) 硬盘 (Storage): 512GB NVMe SSD (~150元) 电源 (PSU): 额定850W 金牌认证电源 (二手 115元) 【本期方案超详细文字版教程】 为了方便大家复现,我们已经把今天所有用到的命令、链接,以及一份超详细的文字版部署教程,全部整理好,放到了UP主的Gitee主页上! 直达链接:https://gitee.com/spoto/R7vllm 如果觉得本期视频对你有帮助,请务-务-务必 点赞、投币、收藏 三连支持一下UP主!你们的支持是我爆肝更新的最大动力!感谢大家! #AI #AMD #vllm #服务器 #装机
00:00 / 07:59
连播
清屏
智能
倍速
点赞6325