00:00 / 00:43
连播
清屏
智能
倍速
点赞1953
00:00 / 01:20
连播
清屏
智能
倍速
点赞2519
sdsds2221月前
【缝合】IndexTTSQwen3实现AI全自动故事配音工具 自制AI沉浸式有声故事一键生成工具,再也不怕没睡前故事听了。自己动手,丰衣足食!#Qwen3 #TTS #IndexTTS2 #ai配音软件 #ai有声小说 一个基于Indextts和Qwen3TTS的 AI 有声书制作工具。利用 LLM 自动拆解剧本与识别情绪, 集成多角色 TTS 语音合成(可智能分析音色并使用Qwen3TTS语音设计模型从音色描述文本生成音色), 支持音效(SFX)、背景音乐(BGM)混音及实时台词音频滤波器的自动插入和匹配, 可直接在浏览器导出 mp3 成品。 本工具本体无需配置环境即可跨平台在浏览器使用。 IndexTTS2和Qwen3TTS的CNB云原生在线使用,基于脚本管理调度服务器的内存显存资源实现。 现已支持音色自动分析生成功能,基于llm分析剧情产生角色音色描述文本,再利用描述文本使用qwen3tts生成音色参考音频。 Github项目地址:https://github.com/sdsds222/Unitale CNB云原生服务端仓库:https://cnb.cool/ConyStudio/IndexTTS2-Qwen3VoiceDesign 在线使用页面(llm和tts须自行配置):https://sdsds222.github.io/Unitale AI音色自动合成:能够分析文本,为角色智能生成音色描述文本,使用Qwen3TTS音色设计模型生成对应的参考音频。 AI 自动音效编排:系统能够深度理解文本中的动作描写与环境氛围,自动从本地素材库中检索匹配的音效,并精确计算其在台词念白过程中的插入时间点,无需人工手动对轨。 AI 动态配乐系统:AI 实时分析剧情的情绪起伏与转折,自动判断背景音乐的切入、停止与无缝切换时机,实现配乐与剧情发展的同步。 AI 场景感知滤波器:系统自动检测特殊的对话场景(如“电话通话中”、“内心独白”、“水下对话”、“广播通知”),并自动为对应台词挂载实时音频滤波器,还原真实的物理声场听感。 深度情绪与角色演绎:自动拆分小说段落,精准区分旁白与不同角色,并根据上下文推断角色的情绪强度,产生情绪描述提示词,指导 TTS 生成有感染力的语音表演。
00:00 / 05:59
连播
清屏
智能
倍速
点赞65
00:00 / 06:12
连播
清屏
智能
倍速
点赞31
00:00 / 01:40
连播
清屏
智能
倍速
点赞24
00:00 / 01:36
连播
清屏
智能
倍速
点赞24
一川AI3月前
今日AI新闻2025.12.11 1. 阿里通义千问发布 Qwen3-TTS 语音合成模型 ——49 种音色自由切换,支持 10 种语言及方言,可零成本商用。该模型在播客、有声书等场景中能精准还原不同角色声线,词错误率保持行业领先。 2. 阿里同步推出 Qwen3-Omni-Flash 全模态模型 —— 支持 119 种语言实时流式交互,开放系统提示词自定义权限,特别适配直播弹幕即时翻译等场景。基准测试显示其响应速度较上代提升 300%。 3. Google 推出 Gemini TTS 2.5 语音系统 —— 实现情绪级语音调控,从欢快到阴郁 24 种语态自由切换,支持 24 种语言跨角色对话。新系统可根据上下文自动调整语速,预计 2026 年第一季度正式商用。 4. Adobe 与 ChatGPT 达成深度合作 —— 用户现可通过对话直接编辑 Photoshop 图片和 PDF 文档。输入 "把背景调亮并添加水印" 等自然指令,即可自动完成专业级设计,无需手动切换软件。 5. 商汤科技发布 Seko 2.0 动画神器 —— 输入一句话自动生成 100 集连贯动画剧集,采用多剧集记忆架构确保角色不崩坏。官方宣称单集制作成本已降至 15 元以下,较传统方式节省 99% 费用。 6. 腾讯元宝 AI 上线 QQ 群智能总结 —— 自动提炼未读消息核心内容,支持热聊话题归类、重要信息标红。该功能已覆盖 PC 端、移动端及浏览器插件,有效解决 "爬楼" 焦虑。#今日AI新闻#tts#qwen #gemini#腾讯元宝
00:00 / 01:46
连播
清屏
智能
倍速
点赞20
00:00 / 02:37
连播
清屏
智能
倍速
点赞27