字节跳动发布用于视频理解和创作的开源AI模型Vidi2 字节跳动Vidi2:视频智能编辑的范式突破 核心创新:时空接地(STG)技术 Vidi2是一款120亿参数的多模态模型,通过像素级边界框跟踪(“管道”机制)实现视频中物体跨帧持续定位,即使对象离开画面后重现仍可识别。这一技术突破传统视频模型“盲目生成像素”的局限,将编辑精度提升至时空双维度可控。 核心能力与性能表现 四大维度理解:支持高度、宽度、时间、语义的四维视频解析,可完成长视频(10秒-1小时)精准片段检索(TR)、开放式视频问答(Video QA)及角色互动跟踪。 性能优势:在自研VUE-STG基准测试中,时空定位准确率(时间IoU)达53.19%,远超Gemini 3 Pro(27.50%)和GPT-5(16.40%)。 视频创作与编辑功能 智能分割:已应用于TikTok,自动识别长视频热门片段并剪辑适配竖屏格式,支持多视角切换与构图优化。 精准操控:无需重生成即可修改特定对象,如移除角色或调整位置,同时保持场景完整性。 叙事驱动编辑:可生成脚本大纲、剪辑指令及转场效果,自动化从素材到成品的全流程创作。 行业影响与开源战略 效率革命:120亿参数轻量化设计适配消费级硬件,降低专业视频编辑门槛,推动从“随机生成”到“精准控制”的工作流转变。 生态竞争:与腾讯混元视频形成差异化——腾讯侧重生成,字节专注理解与操控,开源策略挑战谷歌、OpenAI的封闭模式,加速视频智能编辑技术普惠。
00:00 / 08:12
连播
清屏
智能
倍速
点赞7
00:00 / 01:08
连播
清屏
智能
倍速
点赞17
00:00 / 09:16
连播
清屏
智能
倍速
点赞31
00:00 / 00:55
连播
清屏
智能
倍速
点赞1873
00:00 / 00:44
连播
清屏
智能
倍速
点赞24
00:00 / 03:04
连播
清屏
智能
倍速
点赞8
AI新闻(2025年7月25日) AI新闻,洞悉前沿,把握未来。今天是2025年7月25日: OpenAI 发布 GPT-5 Mini 轻量模型:参数规模仅 70 亿,在移动端推理速度达 35 Token/秒,准确率保持 88%,已登陆 iOS/Android 平台。 Meta 开源 AudioCraft 2.0 音频生成框架:支持 48kHz 高保真音乐生成,单卡 RTX 4090 推理耗时缩短至 8 秒,代码同步至 GitHub。 百度发布文心 4.6 模型:在中文长文本理解基准测试中超越 GPT-5,金融领域合同审查效率提升 3 倍,错误率降至 0.5%。 英伟达推出 Blackwell 架构 GPU 集群方案:搭载 NVLink-C2C 技术,千卡集群训练效率提升 40%,能耗降低 25%。 字节跳动开源 Seed-Edit 视频编辑模型:支持一键修改视频中的文字、物体与背景,处理 10 秒视频仅需 12 秒,精度达 92%。 AI 制药公司 Exscientia 宣布突破:利用生成式 AI 设计的阿尔茨海默病新药进入临床一期,研发周期从 6 年压缩至 22 个月。 农业科技公司 Prospera 被拜耳 12 亿美元收购:其 AI 作物监测系统覆盖 2000 万亩农田,病虫害预警准确率达 91%。 自动驾驶公司 Wayve 获软银 10 亿美元投资:其 LINGO-2 视觉语言模型在伦敦复杂路况测试中零接管里程突破 800 公里。 AI 医疗公司 Zebra Medical Vision 登陆纳斯达克:其医学影像分析系统已部署 4500 家医院,肺癌筛查准确率达 94%,市值突破 38 亿美元。 AI 教育公司 Duolingo 推出 Max 订阅服务:内置 GPT-5 驱动的对话教练,用户口语练习时长提升 65%,付费率突破 25%。 AI 客服公司 Ada 完成 C 轮融资:其多语言支持系统覆盖 100 种语言,客户问题解决率达 92%,获 Insight Partners 1.2 亿美元投资。 AI 设计平台 Figma 发布 AI 工具 Dev Mode:支持一键生成 React/Vue 代码,设计师与开发者协作效率提升 70%,用户突破 800 万。
00:00 / 04:39
连播
清屏
智能
倍速
点赞1
00:00 / 00:43
连播
清屏
智能
倍速
点赞12