00:00 / 01:28
连播
清屏
智能
倍速
点赞4
一川AI4月前
今日AI新闻2025.08.26 1. 阿里通义万相预告 Wan 2.2-S2V 模型 —— 解锁视频音频同步生成能力,可直接输出带唱歌声的 AI 视频。该多模态模型突破传统技术限制,实现音画深度融合,为内容创作提供新工具。 2. 字节跳动豆包团队内测 3D Model Generator 工具,支持通过图像生成 3D 模型或结合现有模型文件创作,大幅降低游戏开发等领域建模门槛。 3. 面壁智能与清华联合发布 MiniCPM-V4.5 模型,这款 4.1 亿参数的端侧多模态模型在 OCR 等任务上超越 GPT-4.1-mini,支持手机等设备运行多语言视频处理任务。 4. 微软开源 VibeVoice-1.5B 语音模型 —— 实现 90 分钟超长语音合成,支持 4 种音色切换,其双 tokenizer 架构解决音色语义错配问题,音频压缩率高达 3200 倍。 5. 苹果公布 RLCF 训练新方法,用任务清单替代人工评分机制,使模型执行复杂指令能力最高提升 8.2%,但需消耗较大算力生成检查清单。 6. 谷歌 Imagen4 图像模型正式开放,包含标准版(提升文本渲染精度)、Fast 版(单次生成成本 0.02 美元)和 Ultra 版(强化细节控制)三个版本。 7. 英伟达推出 Jetson Thor 机器人平台,搭载 Blackwell 架构 GPU,算力达 2070TFLOPS(提升 7.5 倍),128GB 内存支持多模型并行运算。 8. Genspark 发布 AIDesigner 工具 —— 输入文字即可生成品牌全案设计,涵盖 LOGO、包装到网站的全套方案,支持矢量图标和 3D 动画输出。#今日AI新闻#多模态大模型 #通义万相 #minicpm #豆包
00:00 / 01:55
连播
清屏
智能
倍速
点赞5
00:00 / 00:22
连播
清屏
智能
倍速
点赞7