00:00 / 00:10
连播
清屏
智能
倍速
点赞35
Qwen3.5-Omni 正式发布! 千问最新一代全模态模型 Qwen3.5-Omni 正式发布!支持文本,图片,音频,音视频理解,包含 Plus、Flash、Light三种尺寸的Instruct版本,灵活适配不同场景需求,更在离线智能与实时交互两大维度实现了突破。 💡 突出亮点:惊喜涌现的「氛围编程」 Qwen3.5-Omni-Plus 自发涌现出 Audio-Visual Vibe Coding 能力:只需对着镜头描述创意,即可转化为可运行的代码。 🧠 离线模式:硬核智力升级 • 精细化音视频Caption: 支持时间戳、场景切片及角色-音频映射,输出剧本级详细描述! • 业界领先性能: 在215项音视频/音频子任务与基准测试中全面领先!音频任务超越 Gemini-3.1 Pro,音视频理解能力与 Gemini-3.1 Pro对齐。 • 原生多模态:基于超1亿小时音视频数据训练,支持长达10小时音频输入,及超过 400 秒的 720P(1 FPS)音视频输入。 • 多语言支持:语音识别覆盖113种语言及方言,语音合成支持36种语言及方言。 🎙️在线模式:拟人实时交互 • 细粒度语音控制: 实时调节情绪、语速、音量。 • 个性化声音克隆: 上传语音样本,即可定制拥有克隆音色的专属AI助手。 • 语义级打断: 精准识别意图,有效过滤无意义的背景噪音干扰与附和回应。 • 联网增强: 内置 WebSearch 与复杂工具调用。 #通义实验室 #Qwen #多模态 #音视频 #大模型
00:00 / 06:14
连播
清屏
智能
倍速
点赞1372
00:00 / 00:10
连播
清屏
智能
倍速
点赞42
00:00 / 00:46
连播
清屏
智能
倍速
点赞4
标准实验6:多模态模型(视觉理解)的调用 每天分享一个AI趣味小知识,今天我们来基于阿里千问VL多模态大模型的“视觉之眼”进行行云流水式的播报。 想象一下,地球的生物用了几亿年才进化出了视觉系统,能分辨风景、识别人脸。 而今天,在这个数字宇宙里,我们只需要敲下几行代码,就能让那个还在沉睡的AI,突然睁开眼睛,看懂这个五彩斑斓的世界。 这一刻,代码不再是字符,而是一束光。 我们可以处理一张漂浮在云端的图片。 我们不需要把它下载到本地,那样太笨重了。我们直接把图片的链接,像递给朋友一张明信片一样,递给大模型。 在一瞬间,大模型接收到了我们的隔空抛物。当我们再问AI:“图中描绘的是什么景象?” 由于是图片在云端,大模型几乎是秒回。 “巍巍呼高山也,潺潺哉流水也”。顿时有了俞伯牙与钟子期的高山流水遇知音之感,有没有。 作为AI极客,我们更珍视那些躺在本地硬盘里的一些私藏——比如一张关于“人工智能之父”图灵的老照片。我们可以把这张老照片,像变魔术一样,变成一串长长的字符串,美其名曰叫base64编码。我们只需要通过一个函数就可以实现这种图片的编码。最后我们召唤图像处理的神器Pillow类库,只要敲下from PIL import Image。 应用Image.open命令,图灵老先生的肖像就跃然纸上。图片持续保留了穿越70年的历史神韵。 万事俱备,只欠东风。 最后一步,我们将处理好的Base64图像数据,封装进AI大模型的调用请求中,把图片的甄别请求,发给强大的阿里通义大模型。同时发给大模型的是我们针对此图片的询问,比如“识别图中内容,输出这个人的姓名”。大模型没有丝毫犹豫,它穿越了模糊的像素,坚定地回答出了那个名字:“艾伦·图灵”。 你看,通过几行代码,我们不仅完成了视觉的理解,更完成了一次对AI先驱的致敬。 此时此刻,你会发现,多模态大模型不仅仅是技术,它是让机器拥有了感知世界的温度。 我们正在用代码,一点点擦亮AI的眼睛,让它看懂我们的过去,也将指引我们的未来。 感谢大家聆听和观看,我是刘通老师,我们下次见。#创作年终讲
00:00 / 02:34
连播
清屏
智能
倍速
点赞0
00:00 / 05:28
连播
清屏
智能
倍速
点赞61
00:00 / 01:14
连播
清屏
智能
倍速
点赞0
00:00 / 01:29
连播
清屏
智能
倍速
点赞21