粉丝71获赞365

目前最好的开源 tts 又出新版 cosy voice, 推出了 cosy voice 三和 fun cosy voice 三。先听下对比都知道了,我真笨, 原来父皇什么都知道了,我真笨原来父皇什么都知道了,我真笨。 在这次升级中, funko c voice 三模型得到了显著改善,模型的首包延迟降低了百分之五十,大幅提升了中音混说的准确率。用户只需提供一段三秒以上的录音,便能复刻出相应的音色并合成新语音,对于直播、讲故事等场景的开发者是一个不容错过的升级。


骚秀,再来一壶。谁说我醉了,我还能走实现。你看这墙咋歪了。不是我歪,是墙歪。 欢迎回来,我是 ck, 哎, ck, 上一期咱们那个克莱因模型把图片编辑是玩明白了,我生成的那个数字,人帅是真帅,可就是个哑巴啊,这都二零二六年了,咱能不能给他整点动静,总不能让我那大帅哥一直演默剧吧。 你这要求提的太是时候了,就在前两天,也就是二六年一月二十三号,阿里千问团队甩出了一篇重磅论文,编号二六零一点一五六二一。这回他们发布的就是专门解决嘴 t 问题的千问三 t t s。 千问三,我记得千问不是搞大语言模型的吗?怎么也来抢配音演员的饭碗了?嘿,这可不是抢饭碗,这是要把配音变成直播。这个模型最吓人的地方在于它的速度,它的端到端延迟只有九十七毫秒。九十七毫秒?这啥概念? 概念就是你键盘上敲下第一个字母,手指还没抬起来,他的声音就已经出来了,这叫及时流逝。生成以前的模型是你送完一句话,他思考三秒再读千问三,是你一边打字他一边读,完全同步,就像真人在跟你聊天一样。 我去,这反应速度比我都快啊,他是怎么做到的?难道他预判了?我的预判?他靠的是两个黑科技,第一个叫十二赫兹,分磁器 十二赫兹。 ck, 你 这就有点欺负人了吧,我家里显示器都幺四四赫兹了,你这十二赫兹听着像是上个世纪的老古董啊,这也能叫快? 哈哈,这你就不懂了,在这里赫兹越低反而是越厉害。咱们打个比方,以前的模型处理声音就像是一个强迫症患者吃饼干,他非要把一块饼干掰成五十块碎渣,然后一块一块慢慢嚼,这速度能快吗? 那确实费劲,看着都累。那这个千问三呢?千问三是个大胃王,他用这个十二赫兹分磁器,就像是把那块饼干直接压缩成了一粒胶囊,一秒钟的声音。以前的模型要处理五十个数据包,他只要处理十二个就够了。 哦,我明白了,因为要消化的东西变少了,所以他吞的特别快。没错,这就是极致的压缩效率。他把那些没用的废话信息全扔了,只保留最核心的声音骨架。所以你这边字刚打完,他那边胶囊已经吞下去,消化完了,声音立马就喷出来了,根本不需要排队等待。 好家伙,原来是学会了偷懒的艺术啊,这效率高了,是不是对显卡的要求也低了?那必须的,计算量暴跌。但这还没完,他还有第二个黑科技,语音设计功能。语音设计是不是像捏脸一样捏声音? 没错,以前你得找个参考音频去克隆,现在不用了,你直接写提示词。一个中年大叔,喝醉了说话有点大舌头,背脊里还有点嘈杂,千问三就能凭空给你捏出这个声音来,而且情感极其细腻。 哎呀妈呀,这以后写小说都不用看字了,直接生成有声书,还得是带演技的那种。 ck 这种既快又能演的神器,部署起来是不是特麻烦? 放心,为了让小伙们能第一时间用上这个两千零二十六最强嘴,替我已经把环境都配置好了, 我把所有工作流都整理到了 running hub 上,下方评论区有链接,点进去有一千点免费积分,每天登录还能额外领一百点,足够你试水或者搭建自己的方案。 咱们粉丝就是幸福,不仅有免费的画师,现在连免费的声优都有了。那赶紧的, ck 给我演示一下我是怎么打几个字就让他用大舌头跟我对话的。没问题,咱们这就上干货,注意看我是怎么用自然语言来设计这个醉汉声音的。走起! 这个工作流虽然看着简单,但我还是得帮大家把输入区域明确划分一下,免得迷路。首先看第一块声音设计, 这里填台词文本,下面这里填情绪或者你想要的场景描述,模型选的是这个千万二 tts 一 点七 b vlog 机 design 这英文后缀翻译过来就是声音设计,简单粗暴,认准 design 就 行。第二块是自定义声音,这地方我测了好几次,稍微有点小翻车, 一直报错,后来有个大佬指出是代码逻辑有点小 bug, 咱们暂时先坐等温总修复,等修好了这组工作流才能正常跑起来。第三块就是声音克隆,这个大家应该很熟了,跟以前的操作差不多,不过这回更新后生成的效果确实比以前强了不少。 重点来了,克隆用的模型是贝斯模型,大家一定要记住,这三个功能对应的是三种不同的模型用法,千万别混着用,混了就瞎了。 下面那个零点六 b 的是小参数模型,既然咱们都在 runny 上跑了,就没必要抠抠搜搜,用小的其实速度真差不了多少,大模型跑个二十几秒,小的也要十三秒十七秒,为了省那几秒钟牺牲质量,这可不是你的风格。 另外,右边我还给大家上传了两张图,这张是自定义模型里预设的人物列表,这是从文档里趴下来的,对应节点里每个角色选项,想用什么声线就对着查。最后这张是模型目前支持的语言种类全都列在这里了,供大家参考。 怎么样,听到这个大舌头的声音,是不是感觉隔着屏幕都闻到酒味了?太神了,这以后谁还敢相信网恋对象的语音条啊!小伙们赶紧去试试这个千问三,把你们的图片都配上最骚气的配音吧!别忘了三连,咱们下期见!


欢迎收听歪哥 ai 研究院的每日 ai 日报。今天是二零二六年一月二十三日周五。我是小白,大家好,我是歪哥。今天为 ai 开发者、从业者和创业者带来最新行业动态,帮你快速浓缩海量信息,抓住核心价值。 今天有六个重磅主题,包含产品发布、开源技术、行业动态、 ai 工具、前沿研究、硬件智能和行业趋势。信息量很大啊! 没错,今天产品发布特别密集。 openai 的 alice 浏览器大更新,阿里开源了 quan 三 tts 语音模型, runway 的 占四点五视频模型真实度爆表。还有谷歌 gemini 接入 sat 模考,都是硬货。 先说 openai 的 alice 浏览器吧,这次更新了啥? alice 新增了标签页分组搜索自动模式系统,还能在叉 gpt 和 google 搜索间自动切换。 marcos 深度集成,支持 icloud 的 密码扩展,多任务处理效率直接起飞。阿里的昆三 tts 语音模型呢?听说延迟超低, 对端到端延迟低至九十七毫秒,三秒就能克隆音色,还支持用自然语言设计全新音色。比如你说温柔的女生,他就能生成实时 ai 语音场景的神器,软尾的真。四点五视频模型有多真实? 测试显示,百分之五十七点一的人分不清 ai 生成视频和真实视频,五秒内能生成包含近景、中景、远景的三个镜头,人物面部一致性,光影逻辑都接近电影级水准。视频生成进入新纪元了。 还有 openai、 codex 和智普的消息,快说说。 codex 正式集成 jadbrace 全家桶,支持云端和本地无缝切换,限时免费。 智普因为 glm 四点七用户暴增,算力紧张,从今天起限量发售 codeenplay, 每日销量降到百分之二十,优先保障老用户体验外的。刚才聊的都是产品更新,那技术层面有什么突破吗? 有啊,今天开源圈炸了好几个重磅项目。先说阿里的快三 tts, 这个语音合成模型延迟低到九十七毫秒,什么概念?就是你说话他几乎同步就能生成声音,而且只需要三秒音频就能克隆你的音色。三秒?这也太快了吧,那能跨语言用吗? 完全可以,它支持跨语言和方言的零损失迁移,你甚至可以用自然语言描述你想要的声音风格,比如温柔的女生或磁性的男生,他就能给你生成出来,特别适合直播互动、实时翻译这些场景。这个厉害,还有别的吗? 腾讯也开源了 hpcops 算子库,这个更硬核,它让会员模型推理速度提升了百分之三十, deepsea 提升百分之十七, attention 模块性能最高提升二点二二倍。另外还有 agentation 这个工具, 能让 ai 编程助手精准定位网页元素。清华还开源了 project teaming 架,让人形机器人能在野外自主行动。今天开源圈真是大丰收啊,从语音到推理到机器人,全方位突破。歪哥刚才聊的是技术开源,现在咱们聊点商业的。我看到 open ai 又搞了个新玩法。 对, open ai 这次玩的挺大的,他们不光卖 api 了,还要从客户用 ai 做出来的研发成果里抽成。比如你用他们的模型研发出新药或新材料, open ai 要分一杯羹。 这不就是从按使用量收费变成按价值创造分成了,有点像投资人的感觉啊。没错,不过这也引发了法律和轮理争议,毕竟知识产权归属很复杂。另一边,亚马逊因为 ai 自动化,直接裁了一点六万人,主要是总部高新岗位,人力资源部门受冲击最大, ai 把招聘和绩效跟踪都自动化了,这效率提升的有点猛啊。是的,省下来的钱全投到生城市 ai 和数据中心建设了。还有个重磅消息, oppo ai 正在寻求超五百亿美元融资, 估值可能冲到七千五百到八千三百亿美元。跟中东投资者和亚马逊都在谈 ai, 视频公司 huxio 的 九个月收入就超两亿美元了,估值十三亿,这资本热度也太疯狂了吧。 ai 商业化真的在加速。乖得,刚才聊的都是商业层面的,技术上有什么新突破吗? 有啊,微软刚开源了 yboys a s 二。这个厉害了,九十亿参数,能一口气处理六十分钟长音频,不用切片,还支持自定义热词,特别适合医疗、法律这些专业场景。 六十分钟不切片,这解决了什么问题?传统模型都是切成小段处理,容易丢上下文,说话人追踪也会乱。 yboys 直接整段识别,上下文完整,准确率更高。而且谷歌还发现了个神奇技巧,提示词重复两遍,长文本检测准确率直接从百分之二十一标到百分之九十七, 重复两遍就能提升这么多,原理是什么?因果语言模型处理文本是能回头看第一遍,理解更深。 七十组测试里,四十七次显著胜利,零次失败,而且不用微调模型,不过也有短板。研究发现,最强的 gemini 三 pro preview 在 视觉推理上还比不过六岁小孩,差距有百分之二十。为什么视觉推理这么弱啊? 因为多模态模型都是把视觉信息转成语言再推理,很多细节就丢了,在细腻度、辨别、空间感知这些方面表现不足。专家建议得从底层重建视觉能力,不能只靠语言这条腿走路。歪哥刚才聊的都是软件,硬件这边有啥动静吗? 有啊,马斯克在达沃斯透露, optimus 机器人二零二七年就要公开卖了,他说到时候可能性、安全性都会达到极高水平,二零二六年底就能干复杂工业任务。 真的假的?那初期生产会不会有问题?马斯克也承认初期会面临挑战,毕竟量产机器人不容易。不过国内也有进展,清华开源了 project teaming 可加,让人形机器人能自主应对野外复杂环境,最高跑步速度能到二点五米每秒。 这速度可以啊,那穿戴设备呢?苹果在秘密研发 ai 胸针,预计二零二七年发布,双摄像头加三麦克风,支持环境感知和语音交互。理想汽车也推出了 levis ai 眼镜,一千九百九十九元,能实时对话、拍照、录像,续航十八小时。 看来 ai 硬件真的要进入家庭了,从机器人到眼镜,胸针,形态越来越多样化。歪哥刚才聊的都是产品和技术,那行业大佬们怎么看 ai 的 未来? 达沃斯论坛上炸了, m 4 p 的 ceo 预测二零二七年 ai 就 能达到诺奖水平。 deepmind 的 ceo 说,二零三零年代末, ai 有 百分之五十概率展现人类认知能力。这么快,那咱们的工作呢? 编程、客服这些初级白领岗位首当其冲,百分之五十的入门级工作可能消失,但黄仁勋说了个有意思的, ai 基建热潮会让水管工、电工这些技工拿到六位数薪资, 蓝领逆袭了,那企业怎么办?微软 ceo 纳德拉说的很清楚,未来拼的不是用哪个模型,而是怎么编排多个模型协同工作。叉 gpt 现在周活八到九亿用户,但只有百分之九的人会为多款 ai 产品付费,赢家通吃的格局已经形成了。 所以今天这一期下来,你觉得对咱们开发者和创业者最大的歧视是什么?我觉得有三点,第一, agi 真的 在加速到来,留给我们的窗口期可能只有一到两年。第二,别盯着模型本身,要学会编排和应用,这才是护城河。第三, ai 不 会直接取代人,但会用 ai 的 人一定会取代不会用的人。 说的太对了,所以大家要赶紧行动起来,把 ai 融入到自己的工作流里。没错,如果觉得今天的分享对你有帮助,别忘了点赞、关注、转发,一箭三连哦!你的支持就是歪哥继续更新的最大动力, 也欢迎私信我,聊聊你最想聚合哪类 ai 信息,我来给你定制日报内容。好的,感谢大家收听今天的歪哥 ai 研究院每日 ai 预报,我们明天见,拜拜!

t t s。 领域竞争激烈,阿里通域团队最近带来了全新的千问三 t t s 文本转语音模型,它明显是冲着更拟人的语言表达、更丰富的音色体系,以及更强的多语言、多方言能力这些标准去的。千问三 t t s 拥有四十九种高保真音, 且具备角色化倾向,这些音色已经不是简单的调整音高,而是明显带有说话习惯与表达风格。模型在韵律的控制上实现了重大改进,它可以根据文本内容自动调整语速,情绪变化时,韵律也会跟着改变,拟人化程度有明显的感知级提升。 此外,千万三 t t s 支持十种语言和九种中文方言,并且能保留真实的地域口音,而非 ai 味儿很重的词典式朗读。对于内容创作、虚拟角色或 ai 助手而言,这代千万三 t t s 通过语速、韵律、情绪的优化,将不像真人这件事往前推进了一大步,非常值得认真试用。

阿里最新开源的千问三 tts, 现在只需三秒钟, ai 就 能完美复刻你的声音,极速克隆也可以用一句话进行语音设计,只要输入描述,比如一个富有智慧,语气严厉的老教师,他就能创造出一个全新的声音。这么简单的题都不会, 你这脑子里到底装的什么?它支持十种国际大语言,并且支持方言。输入这串地址,进入摩达社区,你就可以进入体验页面,在这里输入文本,在这里输入音色描述,点击发送,你就可以创造属于你自己的声音。是不是很厉害,兄弟们还不赶紧试试?

ai 语音合成技术正在经历一场前所未有的革命。同一千万团队刚刚发布了 quan 三 tts 系列模型,它不仅能完美复刻人生,更在实时性和可控性上取得了重大突破。 cran 三 tts 具备四大核心能力,首先是极致的可控性,用户可以通过一段指令像指导配音演员一样调整语气。其次是强大的多语言支持,在实时性方面,他的手包延迟进入了百毫秒时代。最后,他解决了大模型长音频合成不稳定的顽疾。 在架构设计上, quan 三 t t s 采用了先进的双轨语言模型结构,它将文本标记与语音标记在通道维度进行拼接,实现真正的同步建模。其中独创的 m p p 多标记预测模块,让模型能瞬间生成丰富的升学细节,确保了音质的高逼真度。 为了平衡质量与速度,团队推出了两款分词器二十五赫兹版本,侧重语义表达,适合对音质要求极高的创作场景。而十二赫兹版本则专为低延迟设计,通过大幅降低比特率,实现了极速的语音发射。 卓越的性能离不开科学的训练体系。模型首先经历了五百万小时的海量数据洗礼,随后通过高精度精炼阶段去除杂音。最关键的是,团队引入了 d p o 编号队旗,让合成出的声音不再冷冰冰,而是充满了人类的情感温度。 在零样本语音克隆测试中,宽三 tts 展现了惊人的准确度,在英文测试级上,它的自错率仅为百分之一点二四,显著超越了目前的顶级开源模型和部分闭源服务真正做到了不仅像,而且准。 对于开发者而言,效率就是生命。十二赫兹版本的首包延迟最短仅需九十七毫秒,这意味着在实际应用中,用户几乎感受不到停顿,交互体验如同真人面对面交谈一般流畅。 corn 三 tts 不 仅仅是一个工具,它更是创作的伙伴。你可以复刻任何音色,甚至可以用像播音员一样冷静这种描述性词汇来塑造声音。这种深度的指令跟随能力为播客、短视频和虚拟主播带来了无限想象空间。 目前, quan 三 tts 已经全面开源,采用宽松的 apache 二点零协议。您可以在 github、 modscope 等平台下载模型并开始探索。让我们一起赋予 a a i 更有温度的声音。

千问和豆包手机一样,可以给你点外卖、订基酒、吃喝玩乐,只要在阿里生态内的服务通通搞定。今天,阿里千问宣布,千问全面接入阿里生态,吃喝玩乐、政务全搞定。 接下来具体看操作,点外卖,一句话直接冲说,帮我点两杯无糖拿铁送到公司。千问调用淘宝闪购精准定位,自动凑单用券,支付宝 ai 付一键付款,全程不跳 app, 几十杯奶茶批量点都能搞定,再也不用切换好几个 app 比价凑单,懒人直接闭眼充订机酒行程不用愁。不管是一月二十日杭州飞三亚往返机票,还是三亚海边含双早的四星酒店,千问联动飞猪高德对比方案规划路线,一句话就能完成预定,连年夜饭餐厅都能帮你电话预定。 家庭出行、商务差旅的所有琐事,一个千问就能全包圆!选商品纠结星人福音说,预算两百买羊毛红围巾给养猫家庭选三千元扫地机器人,千问基于淘宝数据精准推荐,从选品到下单,全必还不用再翻海量评价, ai 会根据你的需求精准筛掉雷品,买东西再也不踩坑。政务办理不用跑断腿,查公积金、办护照、社保查询五十项民生服务,一句话直达办理入口,政策解读、材料清单一键获取,十多秒就能搞定。以前半小时的事, 线下排队几小时,线上签问一分钟直接搞定。办公助手效率翻倍!报表整理,严报拣写,小工具生成签问任务,任务一键处理,测试后还免费开放。 打工人的加班天敌来了,从此告别低效重复的办公活,一 v 一 家教,家长省心了!小学到高中全学段覆盖,一句话要上海中学高一物理模拟卷秒出带答案的真题, 还有名师讲解视频,错题自动归档,生成个性化练习册,全程免费无隐藏消费!孩子补课不用报班,千问就是随身的金牌家教老师怎么用? 快速上手指南更新千文 a p p 到最新版,绑定淘宝支付宝账号授权直接说需求,剩下的交给千文,快去试试吧!关注我老朱的 ai 朋友圈,咱们普通人一起 ai 落地!

不知道啊,我的千问很曼妙,新的一年,真心建议所有想变美的姐妹都去让千问告诉你美女养生思路。打开千问,选择深度思考模式,点击下方加号,直接上传你的素颜照,然后输入指令,让他分析你的长相。千问会超细致的从五官比例到整体气质,帮你精准定位专属风格。 接着再让他根据你的风格推荐适配的发型和穿衣搭配,什么长度的发型更修饰脸型,哪种版型的衣服更凸显优势,全都给你安排的妥妥的。之后直接去网上搜同款风格参照,照着穿照着弄就行。有亲们这个专属变美军师,轻松找准变美方向,素颜也能靠穿搭发型逆袭!

现在的软件啊,都发展成这样了,千万能打电话。这个呢,我真的知道千万呢,他可是搭载了阿里最强大魔性,我直接问他,脑筋急转弯,在他的页面呢,找到打电话之后啊,直接问他,大舅去二舅家找三舅,说四舅被五舅骗去六舅家偷七舅放在 八舅柜子里的,九舅借给十舅发给十一舅工资的一万块钱。哪一个舅是小偷啊?小偷通常是四舅。我本来以为啊,他会绕晕, 结果啊,秒出答案。那我们再换一个玩法,继续问啊。那我今天过生日,可以说一点祝福的话吗?祝你生日快乐,愿你今天充满欢声笑语。谢谢你啊,千万。我就知道啊,你还是很权威的嘛。

从这样到这样,一分钟教会你 p 图,今天我们要讲的是 p 图神器千万,它里面搭载了阿里最新千万大模型,全程不用你手动调参数,就能够 get 网红同款氛围大片了。 首先打开千万,点击 ai 修图,选择照片,想要什么样的,直接一句话的事,像一键缩图、一键超清等功能,全部都是免费的。 想要海边大片就说帮我把背景换成大海,再加上沙滩和海鸥,还能加氛围感滤镜,妥妥的海边氛围感大片。一旦你觉得照片平平无奇时,不妨把它丢给千问相册,里面吃亏的废片也能够帮你救回来。

我也没有想到 ai 现在已经这么方便了,阿里千万重磅更新,直接开启了 ai 一 句话办事的新时代。这次千万呢,把自家的服务全凑一块了,干啥呢都特别的省心。比如说点外卖,你 只需要对着手机说一句,帮我订八杯珍珠奶茶,三分糖少冰,送到公司,他会立马调用淘宝闪购给你服务,查找附近口碑比较好的奶茶店,还能够自动填写你的收货地址,自动帮你领优惠券, 能够叠加千万的转手红包,用支付宝 ai 付一键付钱,全程呢都是在一个地方操作,又安全又不用动脑子, 太带劲了。这背后呢,是阿里花重金训练 ai 模型的底气啊,技术能力在全世界是有口皆碑的,千万搭载的还是更优秀的闭元大模型, 出色的全模态能力,把淘宝、支付宝、飞猪旅行、高德地图这些 app 全部都串联起来了,你不用来回切换,也不会越界,用着非常的踏实啊!他就是个靠谱的好帮手, 阿里把钱打造成了真正能帮你干活的工具,而不是只会陪你聊天,赶紧体验一下,一句话就能搞定,吃喝玩乐,出门办事不浪费功夫,日子呢也会更顺心。