sdsds2221月前
【缝合】IndexTTSQwen3实现AI全自动故事配音工具 自制AI沉浸式有声故事一键生成工具,再也不怕没睡前故事听了。自己动手,丰衣足食!#Qwen3 #TTS #IndexTTS2 #ai配音软件 #ai有声小说 一个基于Indextts和Qwen3TTS的 AI 有声书制作工具。利用 LLM 自动拆解剧本与识别情绪, 集成多角色 TTS 语音合成(可智能分析音色并使用Qwen3TTS语音设计模型从音色描述文本生成音色), 支持音效(SFX)、背景音乐(BGM)混音及实时台词音频滤波器的自动插入和匹配, 可直接在浏览器导出 mp3 成品。 本工具本体无需配置环境即可跨平台在浏览器使用。 IndexTTS2和Qwen3TTS的CNB云原生在线使用,基于脚本管理调度服务器的内存显存资源实现。 现已支持音色自动分析生成功能,基于llm分析剧情产生角色音色描述文本,再利用描述文本使用qwen3tts生成音色参考音频。 Github项目地址:https://github.com/sdsds222/Unitale CNB云原生服务端仓库:https://cnb.cool/ConyStudio/IndexTTS2-Qwen3VoiceDesign 在线使用页面(llm和tts须自行配置):https://sdsds222.github.io/Unitale AI音色自动合成:能够分析文本,为角色智能生成音色描述文本,使用Qwen3TTS音色设计模型生成对应的参考音频。 AI 自动音效编排:系统能够深度理解文本中的动作描写与环境氛围,自动从本地素材库中检索匹配的音效,并精确计算其在台词念白过程中的插入时间点,无需人工手动对轨。 AI 动态配乐系统:AI 实时分析剧情的情绪起伏与转折,自动判断背景音乐的切入、停止与无缝切换时机,实现配乐与剧情发展的同步。 AI 场景感知滤波器:系统自动检测特殊的对话场景(如“电话通话中”、“内心独白”、“水下对话”、“广播通知”),并自动为对应台词挂载实时音频滤波器,还原真实的物理声场听感。 深度情绪与角色演绎:自动拆分小说段落,精准区分旁白与不同角色,并根据上下文推断角色的情绪强度,产生情绪描述提示词,指导 TTS 生成有感染力的语音表演。
00:00 / 05:59
连播
清屏
智能
倍速
点赞92
00:00 / 00:43
连播
清屏
智能
倍速
点赞1953
00:00 / 00:51
连播
清屏
智能
倍速
点赞23
00:00 / 00:47
连播
清屏
智能
倍速
点赞14
Qwen3.5-Omni 正式发布! 千问最新一代全模态模型 Qwen3.5-Omni 正式发布!支持文本,图片,音频,音视频理解,包含 Plus、Flash、Light三种尺寸的Instruct版本,灵活适配不同场景需求,更在离线智能与实时交互两大维度实现了突破。 💡 突出亮点:惊喜涌现的「氛围编程」 Qwen3.5-Omni-Plus 自发涌现出 Audio-Visual Vibe Coding 能力:只需对着镜头描述创意,即可转化为可运行的代码。 🧠 离线模式:硬核智力升级 • 精细化音视频Caption: 支持时间戳、场景切片及角色-音频映射,输出剧本级详细描述! • 业界领先性能: 在215项音视频/音频子任务与基准测试中全面领先!音频任务超越 Gemini-3.1 Pro,音视频理解能力与 Gemini-3.1 Pro对齐。 • 原生多模态:基于超1亿小时音视频数据训练,支持长达10小时音频输入,及超过 400 秒的 720P(1 FPS)音视频输入。 • 多语言支持:语音识别覆盖113种语言及方言,语音合成支持36种语言及方言。 🎙️在线模式:拟人实时交互 • 细粒度语音控制: 实时调节情绪、语速、音量。 • 个性化声音克隆: 上传语音样本,即可定制拥有克隆音色的专属AI助手。 • 语义级打断: 精准识别意图,有效过滤无意义的背景噪音干扰与附和回应。 • 联网增强: 内置 WebSearch 与复杂工具调用。 #通义实验室 #Qwen #多模态 #音视频 #大模型
00:00 / 06:14
连播
清屏
智能
倍速
点赞1373
00:00 / 02:21
连播
清屏
智能
倍速
点赞1