Qwen3.5-Omni 正式发布! 千问最新一代全模态模型 Qwen3.5-Omni 正式发布!支持文本,图片,音频,音视频理解,包含 Plus、Flash、Light三种尺寸的Instruct版本,灵活适配不同场景需求,更在离线智能与实时交互两大维度实现了突破。 💡 突出亮点:惊喜涌现的「氛围编程」 Qwen3.5-Omni-Plus 自发涌现出 Audio-Visual Vibe Coding 能力:只需对着镜头描述创意,即可转化为可运行的代码。 🧠 离线模式:硬核智力升级 • 精细化音视频Caption: 支持时间戳、场景切片及角色-音频映射,输出剧本级详细描述! • 业界领先性能: 在215项音视频/音频子任务与基准测试中全面领先!音频任务超越 Gemini-3.1 Pro,音视频理解能力与 Gemini-3.1 Pro对齐。 • 原生多模态:基于超1亿小时音视频数据训练,支持长达10小时音频输入,及超过 400 秒的 720P(1 FPS)音视频输入。 • 多语言支持:语音识别覆盖113种语言及方言,语音合成支持36种语言及方言。 🎙️在线模式:拟人实时交互 • 细粒度语音控制: 实时调节情绪、语速、音量。 • 个性化声音克隆: 上传语音样本,即可定制拥有克隆音色的专属AI助手。 • 语义级打断: 精准识别意图,有效过滤无意义的背景噪音干扰与附和回应。 • 联网增强: 内置 WebSearch 与复杂工具调用。 #通义实验室 #Qwen #多模态 #音视频 #大模型
00:00 / 06:14
连播
清屏
智能
倍速
点赞1340
00:00 / 01:49
连播
清屏
智能
倍速
点赞868
00:00 / 05:03
连播
清屏
智能
倍速
点赞76
00:00 / 01:04
连播
清屏
智能
倍速
点赞6
00:00 / 00:58
连播
清屏
智能
倍速
点赞485
00:00 / 00:53
连播
清屏
智能
倍速
点赞347
Karminski1月前
Qwen3.5实测!来看贺岁档大模型的实力! 贺岁档大模型来啦! Qwen3.5 这次支持了文本、图片、视频多模态输入, 本次准备了全新的后端能力测试! 以及照例带来前端能力、Agent、长上下文能力的全面测试! 来看本次新增的后端编程测试 vector DB Bench: 要求大模型从零实现一个高性能向量数据库, 只给提示词不给实现方案, 配合 coding agent 自动写代码、编译、跑分. 结果 Qwen3.5 直接甩出王炸 —— QPS 1405, 是 Kimi-K2.5 的 4.8 倍, GLM-5 的 25 倍! 关键在于它不仅用了 IVF 倒排索引 + AVX512F 指令集, 还在有限轮次内自主探索出了最优聚类参数 (K=2048, nprobe=30), 每次查询只需扫描约 15000 条数据, 而 Kimi-K2.5 的参数配比要扫描 75000 条, 正好解释了近 5 倍的性能差距. 这波调参堪称神之一手. 前端编程也有进步: 大象牙膏测试终于能正确建模三角烧瓶, 鞭炮连锁爆炸的粒子光影效果不错, 支持多模态后甚至可以对着网站录屏直接克隆. 但空间理解仍是短板, 陀飞轮机芯测试中齿轮设计暴露了差距. 指令遵循: 洛希极限测试中的指令遵循达到 85.9% (Gemini-3.0-Pro 为 90.6%), 主要扣分在未遵循加速曲线公式. Agent 能力: 硅基骑手测试得分 668.43, 仅次于 GLM-5 的 738.69, 也侧面解释了为什么后端编程 Agent 表现这么强. 长文本召回: 256K 上下文召回 99.1%, 但不给原文时四选一蒙对率高达 75.6%, 结果完全不置信. 总结: Qwen3.5 最亮眼的是后端编程能力, 同样的 IVF 算法靠调参拉开 5 倍差距, Agent 能力同样在线. 不过本次测试还发现了点小问题, 输出偶尔不太稳定, 会漏掉 markdown 语法或把答案输出到 thinking 标签里, 这点要注意, 目前我已经反馈给官方了. 这份新年礼物, 大家觉得怎么样? #Qwen #千问大模型 #Qwen35 #阿里千问 #通义实验室
00:00 / 07:00
连播
清屏
智能
倍速
点赞57