00:00 / 01:17
连播
清屏
智能
倍速
点赞NaN
GiftLee1周前
复旦开源语音全家桶,MOSS-TTS牛到离谱🎙️ 2.5万Star,单日新增53!🎙️ 复旦NLP团队刚开源的MOSS-TTS Family,直接把CosyVoice、FishAudio按在地上摩擦。 ✨ 痛点精准爆破 ❌ 单模型撑不起复杂场景:要像真人、要几十分钟稳定输出、要多人对话、要实时交互,一个TTS根本搞不定 ❌ 开源模型音质拉胯:大多24kHz单声道,听着像“电话音”,SIM(相似度)被闭源模型吊打 ❌ 部署门槛高:几十亿参数,没显卡跑不动,CPU只能干瞪眼 ✅ MOSS-TTS:五合一解耦,覆盖TTS、对话、声音设计、音效、实时流 🚀 核心杀招 ✅ 开源SOTA:Seed-TTS-eval基准上,SIM 73.28%(EN)/79.62%(ZH),碾压所有开源模型 ✅ 暴打闭源:MOSS-TTSD-v1.0主观评测Elo击败豆包、Gemini 2.5-pro ✅ 31种语言通吃:v1.5新增粤语、荷兰语等11种,覆盖全球主流语种 ✅ Nano核弹:仅1亿参数,4核CPU实时生成48kHz双声道,3天Star破千 ✅ 极致部署:支持llama.cpp无PyTorch、SGLang 3倍加速、8GB显卡跑8B模型 🔧 硬核技术 🎧 CAT分词器:纯Transformer无CNN,12.5Hz极低帧率,32层RVQ变比特率 ⏱️ 实时语音代理:TTFB 180ms + LLM首句197ms = 端到端377ms,真·实时对话 ⏸️ 显式暂停控制: "[pause 3.2s]"语法,精准控制呼吸感 👥 谁最爽? 👉 AI播客/视频创作者:MOSS-TTSD直接把多人对话文本转成音频 👉 语音Agent开发者:MOSS-TTS-Realtime构建低延迟语音助手 👉 边缘设备部署:MOSS-TTS-Nano跑在树莓派、浏览器 Apache 2.0开源免费,Hugging Face下载60万+次 你的AI,终于会“说话”了 🗣️ MOSSTTS #开源TTS #语音克隆 #复旦NLP #实时语音 #Nano核弹
00:00 / 02:08
连播
清屏
智能
倍速
点赞59