Qwen3.5-Omni 正式发布! 千问最新一代全模态模型 Qwen3.5-Omni 正式发布!支持文本,图片,音频,音视频理解,包含 Plus、Flash、Light三种尺寸的Instruct版本,灵活适配不同场景需求,更在离线智能与实时交互两大维度实现了突破。 💡 突出亮点:惊喜涌现的「氛围编程」 Qwen3.5-Omni-Plus 自发涌现出 Audio-Visual Vibe Coding 能力:只需对着镜头描述创意,即可转化为可运行的代码。 🧠 离线模式:硬核智力升级 • 精细化音视频Caption: 支持时间戳、场景切片及角色-音频映射,输出剧本级详细描述! • 业界领先性能: 在215项音视频/音频子任务与基准测试中全面领先!音频任务超越 Gemini-3.1 Pro,音视频理解能力与 Gemini-3.1 Pro对齐。 • 原生多模态:基于超1亿小时音视频数据训练,支持长达10小时音频输入,及超过 400 秒的 720P(1 FPS)音视频输入。 • 多语言支持:语音识别覆盖113种语言及方言,语音合成支持36种语言及方言。 🎙️在线模式:拟人实时交互 • 细粒度语音控制: 实时调节情绪、语速、音量。 • 个性化声音克隆: 上传语音样本,即可定制拥有克隆音色的专属AI助手。 • 语义级打断: 精准识别意图,有效过滤无意义的背景噪音干扰与附和回应。 • 联网增强: 内置 WebSearch 与复杂工具调用。 #通义实验室 #Qwen #多模态 #音视频 #大模型
00:00 / 06:14
连播
清屏
智能
倍速
点赞1368
00:00 / 01:49
连播
清屏
智能
倍速
点赞882
00:00 / 03:22
连播
清屏
智能
倍速
点赞17
Claude Opus蒸馏Qwen3.5 V3来了 9B的蒸馏模型,工具调用测试居然打了满分。大家好,我是AI学习的老章。Claude Opus蒸馏Qwen3.5这条线,我从v1追到现在。今天v3来了,这次改动大到连名字都换了,叫Qwopus3.5,Qwen加Opus的合体。v1是让小模型学会推理,v2是让它想得更少答得更快,v3的核心是让它学会用工具干活。从会思考,到会行动,这是一个质变。先看数据。9B的GGUF版本下载量10.9k,断崖式领先。说明什么?大家心里清楚,9B就是甜蜜点。16GB的MacBook就能跑,Windows上普通显卡也没压力。再看跑分。HumanEval,v3拿了87.8%,比原版Qwen3.5的9B高了将近5个百分点。v2在9B上其实没啥提升,v3一下子拉开了差距。MMLU-Pro,通用知识能力,v2掉了7.2%,当时我说这是代价。v3把这个问题修了,反超原版1.43个百分点。代码更准,知识也没丢,这在蒸馏模型里非常少见。效率方面,思维链缩短25%,推理效率提升31.7%,用更少的Token办更多的事。最让我兴奋的是工具调用。v3专门做了针对工具调用的强化学习训练。我用ToolCall-15跑了一遍,15道题全部通过,满分。之前v2的27B才做到这个成绩,现在9B就行了。我的判断,这是这个系列真正成熟的一代。想本地跑一个能写代码、能调工具、还不吃资源的模型,Qwopus3.5-9B-v3目前最值得试。关注老章,我们下期见。
00:00 / 01:53
连播
清屏
智能
倍速
点赞481
00:00 / 01:04
连播
清屏
智能
倍速
点赞6
00:00 / 05:43
连播
清屏
智能
倍速
点赞53
🚀本地部署+全面测评!阿里最强全模态大模型Qwen3-Omni史诗级更新!OCR能力、音频识别、视频理解无所不能!Qwen3-Omni-30B-A3B-Instruct支持语音输出! 🚀🚀🚀视频简介: ✅神器降临!阿里Qwen3-Omni多模态大模型完整评测,实时语音对话+视频理解+OCR识别,Docker本地部署零门槛上手! ⚡️ 本期视频详细演示了阿里巴巴最新发布的Qwen3-Omni多模态大模型的完整部署和测试流程!这是一个原生端到端的多模态AI模型,采用MoE混合专家架构,拥有353亿总参数。 ✨ 主要演示内容包括:Ubuntu系统Docker本地部署、实时语音对话测试、音乐理解与歌词提取、模糊扫描件OCR识别、视频内容理解分析、AI生成内容识别等多个实战场景。模型支持119种语言输入和10种语音输出,包括粤语、四川话等方言。 🎯 三大版本功能各有特色:Instruct版本支持多模态输入输出、Thinking版本支持思维链推理、Captioner版本专注字幕识别。无论是语音翻译、音乐分析还是视频理解,Qwen3-Omni都展现了卓越性能! 🔥🔥🔥时间戳: 00:00 开场介绍 - 阿里巴巴发布Qwen3-Omni多模态大模型 00:32 模型架构 - MoE混合专家架构与参数详解 00:42 三大版本介绍 - Instruct、Thinking、Captioner功能对比 01:09 语言支持 - 119种语言输入与10种语音输出能力 01:34 本地部署教程 - Ubuntu系统Docker环境配置 02:35 推理服务启动 - localhost:8901端口访问演示 02:59 在线音频识别测试 - 实时语音对话功能展示 04:14 音乐理解分析 - AI描述音乐风格与提取歌词 06:00 OCR能力测试 - 模糊扫描件文字识别 07:04 视频理解测试 - 目标人物追踪与时间定位 09:29 游戏画面识别 - AI生成内容理解分析 11:10 多语言语音输出 - 支持粤语四川话等方言 11:20 实际应用场景 - 语音翻译、音乐分析、视频理解等 #qwen3 #qwen #Qwen3omni #aigc #ai
00:00 / 11:30
连播
清屏
智能
倍速
点赞225
00:00 / 01:49
连播
清屏
智能
倍速
点赞16