00:00 / 00:58
连播
清屏
智能
倍速
点赞514
阿里Qwen3.6-Plus重磅发布!强势登顶的国产大模型! #通义千问 #Qwen36 #国产大模型 #AI编程 #多模态AI 一、 概览与定位:强势登顶的国产大模型 2025年4月2日,阿里发布通义千问最新版本 Qwen3.6-Plus。在最新的大模型盲测榜单中,其综合能力位列全球第四、国内第一,标志着阿里AI实验室已跻身全球顶级行列。本次更新核心定位企业智能化办公,在多模态文档处理、内容审核、视频理解等方面有突出表现,并以百万上下文长度和增强的原生Agent能力,深度适配代码开发场景,堪称“性价比之选”。 二、 能力评测:多模态王者,编码与Agent奋力追赶 评测数据显示,Qwen3.6-Plus呈现“长短板分明”的特点: 1. 绝对优势领域(多项第一): - 多模态推理:在图像推理(MVD)、文档理解(DocVQA)榜单上均排名全球第一,在视觉问答、专业图表理解上表现出色。 - 视频理解:结合字幕的视频推理能力仅次于Gemini,表现强劲。 2. 奋力追赶领域: - 编码与Agent:在终端编程、代码验证等基础编码能力上已与Claude 3.5 Opus相当,但在多智能体编码、长程编码任务等复杂场景上仍落后于顶尖模型。 - 真实环境Agent:在网页操作等复杂任务(Crawl)评测中,分数已非常接近Opus。 3. 性价比:API价格为输入每百万Token 2元,极具竞争力。 三、 实战、体验与架构:强于视觉,需优化成本与控制 1. 官方与用户案例: - 视觉与编程:展示了强大的多模态编程能力(如生成3D网页)、视觉定位、图表推理、视频摘要生成与剪辑。 - 办公应用:能生成行业报告、PPT,进行智能合同审查等。 2. 实际体验反馈: - 优势:通过Workbench集成,能稳定完成复杂Agent任务(如自动撰写公众号文章),生成PPT质量较高。 - 不足:内置的文生图、文生视频功能不稳定,常失败或效果不自然;在多步骤Agent任务中,由于工具调用(如联网搜索)频繁,单次任务 - - Token消耗可高达138万(约3元),成本需注意控制。 3. 技术架构亮点:延续并优化了MoE(混合专家)与混合注意力(线性注意力+全注意力3:1混合)架构,通过分布式推理、显存优化等手段,有效支撑了百万上下文长度和
00:00 / 16:40
连播
清屏
智能
倍速
点赞90
00:00 / 05:00
连播
清屏
智能
倍速
点赞3
00:00 / 00:30
连播
清屏
智能
倍速
点赞2
00:00 / 00:27
连播
清屏
智能
倍速
点赞42
00:00 / 01:32
连播
清屏
智能
倍速
点赞2
00:00 / 02:10
连播
清屏
智能
倍速
点赞7
00:00 / 00:30
连播
清屏
智能
倍速
点赞1
Qwen3.5-Omni 正式发布! 千问最新一代全模态模型 Qwen3.5-Omni 正式发布!支持文本,图片,音频,音视频理解,包含 Plus、Flash、Light三种尺寸的Instruct版本,灵活适配不同场景需求,更在离线智能与实时交互两大维度实现了突破。 💡 突出亮点:惊喜涌现的「氛围编程」 Qwen3.5-Omni-Plus 自发涌现出 Audio-Visual Vibe Coding 能力:只需对着镜头描述创意,即可转化为可运行的代码。 🧠 离线模式:硬核智力升级 • 精细化音视频Caption: 支持时间戳、场景切片及角色-音频映射,输出剧本级详细描述! • 业界领先性能: 在215项音视频/音频子任务与基准测试中全面领先!音频任务超越 Gemini-3.1 Pro,音视频理解能力与 Gemini-3.1 Pro对齐。 • 原生多模态:基于超1亿小时音视频数据训练,支持长达10小时音频输入,及超过 400 秒的 720P(1 FPS)音视频输入。 • 多语言支持:语音识别覆盖113种语言及方言,语音合成支持36种语言及方言。 🎙️在线模式:拟人实时交互 • 细粒度语音控制: 实时调节情绪、语速、音量。 • 个性化声音克隆: 上传语音样本,即可定制拥有克隆音色的专属AI助手。 • 语义级打断: 精准识别意图,有效过滤无意义的背景噪音干扰与附和回应。 • 联网增强: 内置 WebSearch 与复杂工具调用。 #通义实验室 #Qwen #多模态 #音视频 #大模型
00:00 / 06:14
连播
清屏
智能
倍速
点赞1359
00:00 / 00:44
连播
清屏
智能
倍速
点赞22
00:00 / 00:57
连播
清屏
智能
倍速
点赞2
00:00 / 00:40
连播
清屏
智能
倍速
点赞2