Deepdick1周前
老手机硬核爆改,本地跑通Gemma 4多模态并接入OneAP 🔥 变废为宝!骁龙855老手机硬核爆改,本地跑通Gemma 4多模态并接入OneAPI! 抽屉里吃灰的红米 K20 Pro 还能干嘛?我把它爆改成了一台纯本地的 AI 服务器,不仅跑通了参数量约 7.52B 的 Gemma 4 多模态模型,还通过自写中间件完美接入了 OneAPI!全程硬核折腾,快来看看完整的部署通关流程👇 🛠️ 第一步:底层打通与环境保驾护航 先通过 Linux 服务器配置无线 ADB,利用 Magisk 获取 Root 权限,并写了脚本实现开机自启无线调试,彻底解放数据线。随后在手机原生 Termux 里装好 clang、cmake 以及 termux-wake-lock 防休眠锁,防止系统杀后台,为后续长时间编译做好准备。 🧠 第二步:疯狂避坑与跑通文本模型 一开始想用 llama-server 提供服务,结果发现安卓底层的 Bionic libc 存在兼容问题,果断弃用,改用 Ollama 完美跑通了纯文本推理。接着编译 llama.cpp,注意这里是个大坑:旧版的 llama-llava-cli 已经被废弃了,必须编译最新的 llama-mtmd-cli 工具。最后把 5.3GB 的文本主模型和 946MB 的视觉投影文件塞进手机。 👁️ 第三步:榨干老手机,点亮多模态 加上灵魂指令参数 --jinja,多模态链路正式打通!过程相当壮烈:推理一张图片时,老手机的 8 核 CPU 基本吃满,内存占用飙到 7.1GB 甚至开始调用 swap,总耗时大概两分钟多。虽然属于“可用但不轻盈”,但它真的能看懂图了! 🌉 第四步:手搓 Bridge,变身标准 OpenAI 接口 为了把手机 AI 变成局域网里的正规军,我在另一台 Debian 服务器上手搓了一个自定义 Bridge(桥接中间件)。这个神器绝了: 多模态接管:收到 OneAPI 的请求后,Bridge 会先下载图片,通过 SCP 把图传到手机,再通过 SSH 唤醒手机执行命令行推理,最后清洗掉杂乱的日志,包装成标准的 OpenAI 格式返回。 秒回探活:遇到 OneAPI 的渠道连通性测试,Bridge 会直接触发“短路探活”秒回结果,防止超时报错。 github:https://github.com/shihua-guo/Diary/tree/master/daily/202
00:00 / 04:33
连播
清屏
智能
倍速
点赞28
00:00 / 03:16
连播
清屏
智能
倍速
点赞127
00:00 / 01:57
连播
清屏
智能
倍速
点赞1015
00:00 / 00:28
连播
清屏
智能
倍速
点赞4