用Codex 搭了一个本地语音转文字项目,让想法变成现实 我用 Codex 在本地电脑上做了一个 AI 会议纪要工具。 配置不算高:3060 笔记本,6GB 显存。 一开始只是想本地部署 Dify,后来顺手做成了一个完整的小项目:语音转文字 + 自动摘要 + 会议纪要整理。 整个流程大概是: 先用 Docker 在 Windows 本机跑 Dify,接着安装 Ollama,拉了 qwen3:4b 做本地摘要模型。 然后单独做了一个 Web 工具,用浏览器上传音频/视频,或者直接实时录音。 语音识别一开始用 Whisper base,但中文效果一般。 后来换成 FunASR Paraformer,中文会议、课堂、访谈这种场景明显更稳。 现在这个工具可以做: 音频/视频转文字 实时录音转写 自动生成摘要 提炼关键要点 整理待办事项 输出风险或问题 导出 TXT / Markdown / SRT / JSON 架构也很简单: 浏览器录音或上传文件 → 本地 FastAPI 服务 → FunASR 做中文识别 → Ollama qwen3:4b 生成纪要 → 页面展示和导出 中间踩过不少坑:Docker 连接失败、Dify 页面转圈、OpenAI 额度报错、浏览器录音权限、Whisper 识别不准。基本都是在 Codex 里边跑边修。 这次最有意思的地方,不是“AI 写了几行代码”,而是它真的参与了整个 VibeCoding 过程: 我提出目标,Codex 读本机环境、装依赖、写脚本、改接口、测模型、修 bug,最后把工具跑起来。 我觉得本地 AI 最大的价值是: 数据不出电脑,成本低,还能按自己的工作流定制。 这个项目适合做会议纪要、访谈整理、课堂笔记、视频字幕、客服质检等场景。 普通电脑也能玩本地 AI,关键是别一开始就追大模型,而是先围绕真实需求把工具做出来。 #AI工具#Dify #Ollama #Codex #Vibecoding
00:00 / 00:40
连播
清屏
智能
倍速
点赞4
00:00 / 01:51
连播
清屏
智能
倍速
点赞2
00:00 / 02:01
连播
清屏
智能
倍速
点赞282
00:00 / 02:28
连播
清屏
智能
倍速
点赞356
00:00 / 03:42
连播
清屏
智能
倍速
点赞32
00:00 / 01:53
连播
清屏
智能
倍速
点赞5
00:00 / 08:00
连播
清屏
智能
倍速
点赞1
00:00 / 01:30
连播
清屏
智能
倍速
点赞786
00:00 / 01:09
连播
清屏
智能
倍速
点赞4