豆包语音有多牛？全双工seeduplex一发布，直接封神！ #抖音精选 #豆包 #字节跳动 #豆包语音 #全双工

seeduplex开源吗

76

21

33

10

举报

发布时间：2026-04-13 07:57

粉丝6884获赞3.3万

相关视频

00:49
对标字节 seedance 2.0 的模型刚刚公布。 daVinci-MagiHuman
查看AI文稿
AI文稿
cds 二点零还没用上的时候，还在排队的时候又出了一个新的，叫什么 martyhuman，他呢说是 h 一百就能去跑五秒的幺零八零 p。然后我看了一下样片，样片觉得也不错，然后找到他们的仓库了，我放几组样片你们看看。那问题是他是开源的，那开源就意味着免费，那他要用这个 h 一百。 h 一百是什么价格呢？那我们找到这个 gpu 的算力平台，这有个 h 一百，那他一个小时十一块钱，那已经被抢空了。 ai 还会继续进化的，那他现在看着很贵，但是只要有开源跟上，他还会再进化的，一定会越来越便宜的。
1042境无止境
02:40
5天后GPT-6来袭！今天AI圈还炸了4件大事 #AI #AI看商业 #宏天有鸣
查看AI文稿
AI文稿
大家好，我是大龙 i z 贝斯旗下的 ai 看商业，欢迎收看 ai 看商业今天是二零二六年四月十日，过去十二小时， ai 圈又要让人失眠了。 g p t 六面试五天后就要轰击登场， maca 抛弃开元转币元来了，又有 deepsea 爷爷进了华为怀抱。五条大消息，我们速速开讲！第一条， gpt 六代号 spot 官宣四月十四日发布，多个独立消息员确认 openai 新一代旗舰将采用 symphony 统一多模态架构，性能较 gpt 五点四提升高达百分之四十，上下文窗口高达二百万 token，相当于一百五十万字文本 chat。 gpt code x s 三大能力合一， ai 编程工具格局将全面洗牌。马斯克暗示 ipo 前大招，万亿估值蓄势欲动。第二条， meta 放弃开源步道发布 miu spark 全面转币源， meta 投入一百五十亿美元，耗时九个月倾心打造 miu spark 在 ai 测评得到五十二分，叫 lama 四， mafric 跨越三十四分，核心能力包含原生多模态，响应速度提升百分之六十。扎克伯格正式放弃开源步道者身份，与 openai 谷歌正面战队员，杀企业级用户，再也不能白拿模型了。第三条， deepsea v 四全面拥抱华为升腾历史性脚印。 deepsea 将核心训练与推理全部迁移至华为升腾九五零 p 二芯片百分之一百终止依赖英伟达安卡推理性能达 h 二十、英伟达的二点八七倍，推理速度提升达三十五倍，能耗降低百分之四，十字节跳动二十五万颗，阿里十五万颗已锁定采购中国产业 ai 第一次在核心算力上彻底摆脱美星依赖。第四条，字节跳动发布全双工语音大模型 c two plus，这个模型将 ai 语音交互从回合制升级为实时自然交互，误回复率与误打断率降低百分之五十，判停延迟缩短二百五十毫秒，强化比例下降百分之四十。未来还将引入视觉模态，实现听看小说、思维协调、智能客服、智能车载等场景将全面受益。第五条，阿里百链上线跨绘画记忆库国产模型编程能力手抄 open a i 阿里云百链平台上线记忆库功能，支持跨绘画记忆解锁性能提升百分之五十。同日通、一千问 quan、三点六等国产模型在 human eel 编程精准，首次超越 gpt 微信支付字节 mate 同日出击 a i。技术工具，国产 a i 生态力量正全面迸发。好！今天的 ai 看商业就到这里，我是大龙，我们明天见！如果你觉得有用，记得关注 ai 看商业，点赞、收藏分享给更多人！我们是 i z b s 用 ai 看商业的每一面，就在三 w 点 a c b s 点 com 明天见！
0AI看商业
00:54
能干翻see dance 2.0的开源模型已经出现，就等发布最近杀出个史上最横的黑马——HappyHorse，悄咪咪就杀进了全球最权威的AI视频榜，直接把独孤求败的字节Seedance 2.0，给踹下了第一！#开源模型 #seedance
查看AI文稿
AI文稿
中国开源模型干翻 cds 二点零，这次是真的，最近杀出个史上最横的黑马 happy horse，悄咪咪就杀进了全球最权威的 ai 视频榜，直接把独孤求败的字节 cds 二点零给踹下了。第一，别觉得这是个水榜，这榜狠就狠在它是纯纯真人盲测。啥意思？就是评委看两个视频比好坏，完全不知道这视频是哪个 ai 做的，半分品牌滤镜人情分都没有，纯凭眼睛投票，谁画面好就投谁，绝对公平到骨子里！最提气的是圈内已经锤死了，这绝对是咱们中国团队做的 happy 货色，原声优先，支持普通话粤语，妥妥的国产之光。最最最王炸的是这个干翻全球顶流的模型，要全部开源基础模型，全套代码全部开源，干翻全球闭源模型，你们觉得这背后到底是国内哪个大神团队？评论区猜猜看，开源上线我第一时间发链接和保姆级教程，关注我绝对不亏！
3422七七爱吃糖
00:31
Seedance 比 DeepSeek 还要震撼，因为 DeepSeek 只是赢了开源，而 Seedance 是完爆了所有。深度使用后，你真的能切身感受到四个字：东升西落 #seedance #deepseek #AI #美股 #字节跳动
查看AI文稿
AI文稿
seat dance 的影响目前还远远被低估，肯定是比去年 deepsea 还要震撼的，因为当时 deepsea 只是干掉了开源模型，但是那些闭源的 gpt cloud 啥的还是比不过。而现在 seat dance 甭管你开源闭源，直接玩爆了所有竞品，遥遥领先。所以美股这次是真的被吓到了，毕竟美国 ai 的估值是奢侈品，而中国 ai 的逻辑是廉价的工业品。就像当年卷死光伏和新能源一样，中国接下来的剧本就是把 tokon 和宽利卷成白菜价，深度使用 cds 二，你是真能切身感受到东升西落的。
5091Gus发星星
01:48
#seeduplex #字节跳动 #豆包 #ai seeduplex让豆包成精了！
查看AI文稿
AI文稿
自己这次新更新的 c w x 真的是把 ai 语音给做成精了。大家以前用 ai 语音助手聊天的时候，就是你说完得停一下，他愣一秒，然后再机械的回复你，稍微停顿的久一点，他就以为你说完了直接讲话，你要是打断他的话，得扯着嗓子喊，体验真的不是很好。但是字节最近上线的这个 c w x 就把这种回合制聊天彻底废掉了。他主打一个全双攻，什么意思呢？就是以前你说完我再说，现在是边听边说，还能够观察你的脸色，他不会死板的等你说完，而是在持续的监听环境。更离谱的是，他还学会了拿捏节奏， w x 能听出你是在思考还是还是在结尾，他能够听懂沉默背后的意图，知道这时候该闭嘴，等你随口一句，等一下我记一下，他还能像真人一样就是瞬间收声。更异合的是，他能够分清谁才是主人。你开车的时候旁边有导航，或者说你在咖啡厅工作，然后隔壁在八卦，甚至有外卖员在敲门，他都能精准的判断哪些话是冲他说的，哪些话是环境噪音。四节这次给的数据非常的猛，误回复和误打断的概率直接下降了一半，这意味着语音助手从语音版搜索框进化成了数字真人。就是我感觉这次的升级比单纯的增加参数更有意义，因为以前呃大模型比的都是谁识别的更准，谁声音更甜，但是现在的赛道变了，是谁更懂社交节奏，比的是谁更像一个真正有血有肉的人。当 ai 学会了边听边看边想，它就不再只是一个工具，而是一个能够随时接住你话茬的伙伴。
45心心见解
00:40
字节发布全双工语音大模型 Seeduplex，豆包打电话能边听边讲
5988动静新闻
00:43
seedance2.0跌落神坛？阿里最新视频模型登顶第一 #seedance #AI #阿里#视频生成 #happyhorse
查看AI文稿
AI文稿
cydenx 二点零要跌落神坛了吗？前几天一个空降到全球 ai 视频模型榜首的黑马 happy hoars 一点零，在文声视频和图声视频领域都断层领先第二名的 cydenx 二点零。就在大家都以为是腾讯或者是快手的视频模型的时候，阿里跳出来把这个快乐小马模型认领了，它到底强在哪呢？就是它可以把视频和圣音一起打包生成，什么意思呢？以前生成完画面之后，你你还要去生成语音配乐对口型，而快乐小马可以把视频语音配乐原声导出，不用再另外生成，生产效率直线上升。还真是应了那句话， ai 时代，你学的越慢就越不用学，这些大厂巨头卷完自己就不用卷了。
32马克Ai 笔记
00:39
每天一个实用工具今天要讲的是：see-through
#AI #动漫老婆 #抠图 #每天学习一点点
查看AI文稿
AI文稿
今天要给大家分享的是 c 杠 through。什么是 c 杠 through？简单来说， c 杠 through 是极具安在你电脑上的 ai，它能够帮你抠出人物肢体和五官，摆脱繁琐的步骤，方便你建立可动的人物例会。重要的是运行它的成本，仅仅是电，在 github 上就能找到免费的开源项目。它不需电脑配镜，零成本制作你想要的效果。主播已经替你们跑通了不朽方法，需要的直接在评论区打出，需要我就会看到，我犀利一箱，每天给你们报道新的成果，加纳！
116栗雨香
00:32
Seedance 2.0 遇劲敌，神秘黑马登顶榜首
查看AI文稿
AI文稿
刚坐稳 ai 视频王座的 cds 二点零，突然就被一匹神秘小马给超越了。四月七号，一个叫 happy horse 一零的模型在全球权威 ai 评测平台直接拿下全球第一，而且是文声视频、图声视频两条赛道双料冠军，画面更连贯，细节更清晰，且完全开源，优势明显。更有意思的是，这个模型至今没人认领。从名字看，大家都在猜它来自中国，可能是国内大厂或是顶尖实验室的秘密武器。
1.4万媛来如此
00:37
开源版tapnow？联动ps belnder comfyui #seedance #即梦
查看AI文稿
AI文稿
如果我告诉你有一款开源软件，能把闭源的 cds、二点零、香蕉等大模型和开源的 comfy 全部打通，还能直接连进 blend photoshop，而且它完全免费。 top now 我觉得是收费软件中做到最好的视频创作软件，我的目标就是超越它。整个软件呢，全程用 tree solo wipe coding 开发，作为一个完全不懂代码的我，踩了很多坑，特别是性能问题，最终还是把它做出来了，它不完美，我会在接下来时间中不断的优化它，后面的视频我将进行功能演示，敬请期待。
1142猫咪老师（kill fomo）
01:53
seedance连夜涨价，神秘公司开源模型迅速打脸 Sora关停后，seedance2.0涨价，好消息是AI视频新贵闪亮登场。首先允许我先感叹一下，我就想问OpenAI 当初吹爆的 “视频生成天花板”怎么能说关就关呢，迪士尼拿100个IP1等着求合作呢。现在有意思的事情来了，Sora 刚关，即梦就开始 “暗涨”！15 秒视频积分从 45 涨到 120，涨 3 倍！月积分缩水超 60%，相当于同样的钱，少生成一大半视频。老用户收割，新用户懵圈，当初说的 “无限生成” 呢？
不过别着急，最近在权威平台 Artificial Analysis 的盲测里，有一款AI工具HappyHorse ，以 1333 Elo 分，碾压 Seedance 2.0 的 1273 分，直接登顶榜首！没有发布会、没有公司背书，纯靠实力 “杀” 出来.
#AI工具 #图生视频 #seedance #人工智能
查看AI文稿
AI文稿
最近大家是不是都在吐槽疾梦在 sora 关停后暗戳戳的涨价了，原本十五秒视频需要的积分从四十五直接涨到了一百二十月积分还缩水超过百分之六十，这就意味着花同样的钱能生成的视频数量大幅减少。不过最近 ai 视频圈杀出了一匹黑马， happy horse。在权威芒特平台上， happy horse 的 l o 评分直接断层，领先 c dance 二点零。在文声视频和图声视频这两个核心赛道上，它比 cds 高出了将近七十分。最关键的是， happy horse 是全开源的， happy horse 的基础模型和各种功能模块全部免费开放，还能商用，甚至可以本地部署。咱们平时用的 cds run 位都是闭源的，那 happy horse 到底强在哪里呢？首先，画质非常能打，拥有原声一零八零 p 电影级画质，动作流畅自然，光影还原也特别逼真。比如这段生成的视频，就很明显看到他对人物表情的处理。其次，它的音画同步做的特别出色，输入文本后直接就能输出带有对白和环境音的完整视频。我们用同一段提示词把它和 c dance 二点零做了对比，大家可以看看效果如何。 happy house 还有一个亮点，它支持七种语言，对于想做跨境短视频的博主来说，用它就省事多了。现在看来， happy horse 能掀桌子并不是因为它有多完美，而是它用开源打破了闭源的垄断，它背后神秘的公司也渐渐浮出水面，正是阿里巴巴。回过头想想， happy horse 对应马年匿名发布模型，典型的中国人工智能团队操作，大家猜到了吗？
8银河
02:10
ai圈“变天”就是这么快！前一天还在疯狂推崇seedance2.0，后一天直接被快乐马屠榜全球！4月AI双杀：Gemma4干翻文本，快乐马统治视频 #ai #Gemma4 #HappyHorse
查看AI文稿
AI文稿
哎呀，圈又炸天了兄弟们，四月二号谷歌直接扔出王炸杰玛士全新上线！这玩意一出来，之前全民疯抢的小龙虾直接不香了，短短几个月的热度断崖式下跌，现在几乎所有人都在调用杰玛士，为啥这么猛？杰玛士的核心优势太狠，三十一币的小参数干翻了二十倍体量的大模型，推理快，战斗力少，还完全开源商用，无限制。二百五十六 k 超长上下文，侧端手机都能离线跑，多模态直接通吃，不管是文本图片、音频视频全能打。对比市面上的那些闭园吃蒜泥还收费的模型，直接就是降维打击。以前养小龙虾要对硬件等半天，现在街马市四张单卡就能跑，成本砍半，谁还玩旧的？刚消化完街马市，国内的阿里直接跟上。四月十号，快乐小马 happy house 强势官宣上线，直接屠榜全球最权威的 ai 视频盲测平台，纯盲测真人投票 elo 积分制公平到没话说，数据直接甩你脸上全身。视频赛道 happy house 拿下了一千三百七十九分，比智杰 c 的是二点零一千二百七十三分，高了一百零六分，比可零三点零更是高了快一百二十分。断层式碾压第二名到第十名加起来的分差都没他领先的多。核心杀招是什么？听好了，单面统一传感器的架构，音视频画面同步生成，不是拼接，别家都是老套路先生成音频再生成画面，最后硬拼到一起。口型对不上，穿模卡顿，音画不同步，全是家常便饭。但是 happy house 是同一个电路，同时出音频画面，口型原声同步，零拼接零延迟，动作丝滑，口型精练，再也不穿膜，这才是真视频生产。而且费用和开放更良心，完全开源免费商用，四月三十号直接开放 api 接口，所有人都能调用，二次开发做自己的产品，成本直接打到底。对比那些逼源模型，按 tik 收费还限制调用的，这才是给普通人，给创业者的机会。一句话总结，杰玛士干翻了开元文本大模型， happy horse 图榜 ai 视频赛道，一个国外开元王，炸一个国内乱城市黑马，二零二六年 ai 搞钱，这两就是必抓的风口。
38向诗博的创业经
01:31
一键把动漫角色图拆分成用于动画制作的身体部件一个上线才一周的开源项目 see-through，可以把动画角色图拆成身体部件。
#游戏制作 #骨骼动画 #Live2D #AI
1505硅基包工头
00:51
阿里认领HappyHorse，附生成结果对比阿里认领HappyHorse，生成结果在后边，需要的可以快进，并特别提醒，网上那些所谓的 HappyHorse 官网全是假的，大家别被骗了！附上HappyHorse和seedance的生成比较#开源模型 #seedance
查看AI文稿
AI文稿
阿里官方微博正式宣布， happy horse 一点零是他们的，现在正在内测，四月三十号正式开放。 a p i。阿里特别提醒网上那些所谓的 happy horse 官网全是假的，大家别被骗了。现在我们来看看 happy horse 一点零和其他模型的对比。 you never gonna happen all right little guy let's get you set up， i can't believe it well！你觉得阿里这匹快乐马能成为下一个 ai 视频神器吗？评论区聊聊。
821七七爱吃糖
02:03
开源双雄！HappyHorse快来了，大佬早已提前体验上了！ #AI #AI视频 #HappyHorse #SD整合包 #SD绘画
查看AI文稿
AI文稿
ai 视频圈炸锅了，一个代号快乐马的模型悄然上线，直接图宝拳打字节 cds 二点零，脚踢快手可灵，而且它居然是开源的，就像当年的 stable diffusion 改写了 ai 绘画的规则一样，今天视频生成的开源革命正是大象像这样突然扔给我一把扇子，还有这样的视频，怎么了学长，听说你想学习篮球？是的，学长，我一直都想学习篮球，那我教你好了，但你得答应我一个条件。什么条件？如果你学会了就和我交往。它的安装步骤非常简单，只需要下载并解压就能完成所有配置。整合包还预制了很多实用的插件和模型，能够让你快速地进入创作状态。首先，下载完毕后点击解压，解压后你会看到三个主要文件，一个 y b y 压缩包，一个 ctrl alt 模型文件夹和一个启动器。运行依赖执行文件。在运行 stable fusion 之前，先安装环境依赖文件，确保启动器可以正常运行。接下来解压 y b y 压缩包，把它解压至一个空间足够大，纯英文无空格的路径位置。注意，这一步非常的重要，不然后期很有可能会出现一些莫名其妙的报错。解压完成后，找到文件目录，再次检查安装路径中是否存在中文或者空格。在解压后的文件中，双击打开启动器，第一次运行启动器的时候会自动下载一些配置文件，耐心等待即可。下载完毕后，点击一键启动，首次启动会稍微慢一点，等到 y b y 界面能够在浏览器里自动弹出，那就说明已经安装成功了。如果没有弹出或者不小心关掉了页面，还可以在控制台里找到它的 u r o 地址，复制到浏览器的地址栏中打开即可。接下来我们在提示词框中输入 one girl，点击生成。当右下角出现了一个女孩的图片，那就说明你的 stable fusion 已经安装部署成功了。视频所用到的软件和案例中的插件模型、提示词都可一一分享，以及更多教程类案例和公开课讲解等着你评论区留言。
39未来设计师由乃
02:16
字节跳动推出语音大模型Seeduplex 字节跳动推出语音大模型Seeduplex
查看AI文稿
AI文稿
字节跳动推出语言大模型 c d plex，可随时打断插画。四月九日，字节跳动宣布推出原生全双工语言大模型 c d plex，相比上一代半双工都包端到端。语言模型 c d plex 核心卖点，实现全双工互动，真正实现边听边说，可随时打断插话，使对话更自然。对话抗干扰能力方面，精准抗干扰，复杂环境下误回复误打断率减少百分之五十。对话节奏控制方面， ai 讲话比例下降百分之四十，更懂对话节奏，语言自然度上语调更自然，拟人度高。那么如何体验呢？你只需要更新豆包 app 至最新版本，然后进入对话界面，点击打电话即可与其通话。让我们来测试一下吧！今天北京天气怎么样？今天北京雾转小。那上海呢？十，上海今天多云到阴，午后到夜里有阵雨或雷雨。帮我写一段朋友圈文案吧。好呀，你想要什么主题的？关于旅行，给你几个不同风格的旅行朋友。哦，不对，改成加班吧。没问题，来几条加班自嘲风文案，别人的夜生活、聚餐电影，逛夜市，你给我推荐一部电影吧，如果你喜欢现实题材，推荐正在热映的我。许可文奇和秦海还有吗？对，观念中。那看看功夫熊猫四吧。阿宝这次要找四，我要豆瓣八分评分以上的推荐你看肖申克的救赎，豆瓣九点七分常年霸榜泡啤。他讲，还是问问你北京天气吧。北京今天是阵雨天气，气温在八到十四摄氏度之间，东南风二级，下午到傍晚有分散性阵雨，出门要带好雨，具体感比较阴凉，建议多穿。明天的天气呢？北京明天是晴天，气温在九到二十五摄氏度之间，西北风三级，天气转暖，但早晚温差大，记得根据气温变化调整衣物。
33疯狂科技厅
01:24
Agent有了手和嘴！MiniMax、智谱、字节同天放大招A 1. MiniMax发布MMX-CLI
2. 智谱开源GLM-5.1
3. 字节推出Seeduplex全双工语音模型
#AI #人工智能 #科技资讯 #MiniMax #智谱 #字节跳动 #Agent #AI语音
查看AI文稿
AI文稿
ai 圈今天炸了，三家公司同一天放大招。第一条， minimax 发布 m mx c l i 首个专为 agent 打造的命令行工具，两行代码装好， agent 在 cloud code openclaw 里就能直接调用编程视频语音音乐全模态模型 stout 直吐干净的 jason 净度走 star 退出码，全是语义化数字 agent，看一眼就知道该重试还是该报错，长任务还能异步挂后台。第二条，智普在 mit 许可下开源 g l m 五点一商用，完全免费。 sweat bench pro 跑到五十八点四分刷新记录， n l two repo 和 terminal bench 也大幅领先上一代国产开源，第一次在 agent 工程能力上全面超越闭源方案。第三条，字节，全双工语音模型 c d plex 正式上线，豆包基于边听边说的全新架构，雾打断率砍掉一半儿，强化比例下降百分之四十，通话满意度实打实涨了八个百分点，已经在桃子音色全亮上线三条新闻，一个信号， m m x c l i 给 agent 装了手， g l m 五点儿一给了脑， c d plex 长了嘴。你觉得 agent 什么时候能替你上一天班？评论区见。我是 grot frontier，下期见。
4Grokked Frontier
07:54
HappyHorse1.0神秘黑马登顶AI视频Arena榜首 #ai #seedance #抖音#阿里#快手
查看AI文稿
AI文稿
我们今天要聊的是一个在 ai 视频领域非常非常火的一个模型啊，叫 happy horse one point o，这个模型呢因为它在视觉质量上面的出色表现，然后又因为它是一个开源的模型，所以最近也引发了很多的讨论，但是同时它背后的开发团队到底是谁，也引发了一些身份揭秘的一些话题啊？没错没错，这个模型最近真的是很火，那我们就直接开始今天的讨论吧。好的，首先我们要聊的就是这个 happy horse one point no 它的这个模型的表现及它的技术的亮点啊，因为这个模型最近真的是在 ai 视频圈掀起了一阵风波嘛。嗯，那它到底在这个 ai video arena 的盲测榜单上面取得了什么样的惊人的成绩？然后又有哪些技术上面的创新让它能够做到这一步？ happy horse one point o 它是二零二六年的四月份，就这个名字一开始大家还觉得有点像是那种玩笑啊什么的，但是他直接就在 ai video arena 的盲测榜单上面，在 t 二 v 无音频的赛道上面拿到了 alu 一千三百三十三分的成绩，比字节的 cds 二点二还高了整整六十分。然后在 lv 赛道上面是一千三百九十二分，它是第一个就是开源的模型，能够超越所有的闭源的竞争对手，在视频领域这个成绩真的是让人很惊讶。对，就感觉是打破了之前大家对于闭源模型的那种不可超越的神话。对，它用的是一个十五个 b 参数的统一的 transformer 架构，这个架构呢是一个 forty 层的自注意力的 transformer，它能够在一次前向传播里面同时输出画面和声音。哦，它用的那个架构叫做 sandwich 三明治架构，就是它的最开始的四层和最末尾的四层是专门负责视觉和音频的，中间的三十二层是参数共享的。然后它的多模态的融合是用的 per head gating，就是它每个注意力头都是自己去学习一个融合的权重，而不是说简单的拼接好的。那这个模型在推理速度上面，或者说在部署的难度上面，有没有什么特别值得一提的地方？它用了 d m d two 蒸馏技术，所以它只需要八步就可以出图，也不需要 c f g，再加上它的 magic computer 编辑器，所以它在二百五十六 p 五秒的视频，它只需要两秒就能生成，然后幺零八零 p 的也只需要三十八秒，它只需要一张 h 一百或者 a 一百四十八个 g 显存以上的显卡就可以跑，而且它还支持 f p 八零化，就它的这个部署门槛，已经比其他的同规模的模型要低很多了。我们接下来就要讲的是这个模型在音频这块的表现了，因为很多人都关心说 happy horse 一点零，在音频这块到底跟其他的模型相比还有哪些短板？其实在不含音频的评测里面， happy horse 是远远领先的，但是只要这个评测里面加入了音频，比如说 t r v 赛道，它就会比 c d s two player 低十四分，然后在 i r v 赛道上面就只差一分了，就说明它的画面确实是非常强的。对，但是它的音频这块，尤其是从文本到音频这块，还有很大的提升空间，不过他从画面到声音这个转换已经做的非常好了。然后很多人也关心说这个模型在一些标准的评测上面，或者说在一些人类的这种直接的对比评测上面，到底表现怎么样？在四维评测里面，他的视觉质量是四点八零分，然后文字对齐是四点一八分，这两个都是最高分，物理理性是四点五，二是第二名。 we r 词错率是百分之十四点六，远远地优于 o v i one point one 的百分之四十点四五，这个差距确实很明显。对那人类的直接对比测试结果怎么样？在这个两千组的 human pr west 评测里面，它对比 o v i one point one 有百分之八十的胜率，然后对比 l t x two point three 也有百分之六十点九的胜率，这个都是真人的盲测，所以说明它在真实的感知上面是非常有优势的。行，我们之前谈谈这个大家非常非常关心的一个话题，就是关于 happy horse 一 point 二它的身份谜团。为什么大家会怀疑它和 davinci magenic human 其实是同一个模型？最奇怪的地方就是 happy horse，它没有自己独立的 git up 仓库，也没有在 hackinface 上面发布过权重，就你找不到它的这个官方的代码的出处，就这种神秘的感觉就特别容易让人产生联想，没错。然后大家去比对了各种评测数据，比如说视觉得分都是四点八零 w e r 都是百分之十四点六，然后都支持七种语言的唇形同步，参数架构也都是一样的，都是十五个 b，参数四十层，而且时间线也很巧。就是这个 davinci mega human，它是在三月份开园的，然后四月初 happy horse 就突然在 rena 榜单上面刷到了第一名，所以 web speed 的 ai 就直接发文质疑说这俩其实是同一个东西，只是换了个名字。嗯，虽然现在官方没有出来承认，但是这个证据已经很充分了，明白了。接着咱们来看看这个模型它的实际应用场景和它的一些局限性，就是说它现在主要用在哪些地方，然后它有哪些短板会影响它的推广。它主要就是用来生成多语言的数字人视频，然后产品动画演示，还有短剧制作多语言内容的本地话。嗯，它支持七种语言的唇形同步， we r 是百分之十四点六，就这些其实都是可以直接拿来商用的，它也支持五秒、八秒、十秒和十五秒的视频时长。听起来确实很实用。对，但是感觉对硬件要求不低吧？是的，它的这个显存要求起步就是四十八个 g，所以普通的显卡根本跑不起来。然后另外一个就是他因为刚刚上这个 rena，所以他的一流分数其实是样本量还不够大，所以他的分数其实是有波动的风险的。最后就是他现在也没有公开的 api，官方网站也还是 come soon，所以你现在想要用的话还是有不少阻碍的。说的很对啊，之后咱们来总结一下这个模型给我们带来了哪些比较关键的启示。嗯，或者说它在技术发展的趋势上面，在开源社区的推动上面，在模型的评估方式上面，甚至在整个行业的透明度上面带来了哪些比较关键的启示？首先第一个就是它的这个 sandwich 架构，它证明了你其实可以用一个统一的 transformer 来做音视频的联合生成，就你其实不需要视觉一个模型，音频一个模型，然后拼起来，这是第一个很大的一个突破，就是他为未来的多模态的生成指明了一个新的方向，这个确实是一个架构上面的一个很漂亮的一个突破。对，那在开源这方面呢？这是开源模型第一次在纯视觉的质量上面全面碾压闭源的大模型，而且是在人类的盲测当中，这个是对整个开源的视频社区是一个巨大的激励。然后另外一个就是现在这种匿名的 rena 的盲测，其实正在逐渐的取代过去的那种实验室的自爆分数的这种方式，它让模型的评估变得更贴近于真实的使用。但是同时 happy horse 它这个事件也暴露出来，就是即使代码是公开的，但是如果说你的这个身份是不透明的，那你这个可验证性依然是一个很大的问题。对，所以整个行业还是需要去建立一个更完善的透明的评估机制，对我们今天从技术创新到实际的应用，再到行业的影响，再到一些八卦，把这个 happy horse one point two 这个模型给大家扒了个底朝天。没错，那这期节目咱们就到这里了，然后感谢大家的收听，咱们下期再见，拜拜！拜拜。
277Goat宋江
00:34
实习下班做开源项目#工科#嵌入式#大学生#分享#开源项目
5092大花铧
01:33
MagiHuman本地就能用的开源版seedance2.0 #AI视频 #daVinciMagiHuman #人工智能 #AIGC #AI工具
查看AI文稿
AI文稿
我敲下回车键，信息瞬间传到了地球雁端，距离被彻底重新定定，我真的非常的无语，我不想再和你说任何话，因为你就不觉得你有任何问题吗？大家好，我是可瑟。今天我给大家分享一个开源界最强的视频模型， make human，然后我教大家怎么去使用。第一步我们先上张图片，然后在这里选择模型，这个模型已经默认好了，就不用去选择了。在这里再输入及略词，然后在这个节点你可以输入你的时间长度，就是你视频的时长，比如说他最长是二十秒，二十秒以内你都可以任意去填的，然后点击这个运行就好了，然后这是第一个版本，然后第二个版本这个也是一样的，你先上传图片，加载图片，然后填写提示词，在这里你可以上传一段音频，音频时间没有限制的，然后在这里填写你的那个时间的长度，这个时长也没有限制的，只要你的显存足够大，他就能运行，然后直接点击运行就 ok 了。我们可以看一下它在 get up 上面的一个新数啊，它刚上线五天的样子，上线五天它有一点就是一千的，一千一的那个星级，我们可以看一下它整体的效果啊，以及它跟其他模型的一个对比，它可以生成舞蹈类的，然后还有其他的，目前来讲它数字人的还是可以的，数字人领域的还是不错的，可以看一下它跟其他的一个对比，它整体的还是比较划算的，毕竟它还是开源的嘛。
14可铯创意cosaer

热门推荐

热门分类