00:00 / 00:17
连播
清屏
智能
倍速
点赞NaN
00:00 / 03:56
连播
清屏
智能
倍速
点赞1
00:00 / 01:06
连播
清屏
智能
倍速
点赞189
Qiuming2天前
实时翻译保留情感语调,AI对话迈向“真人化” 谷歌Gemini突破音频交互壁垒:实时翻译保留情感语调,AI对话迈向“真人化” 谷歌近日发布了其Gemini模型的重大更新——Gemini 2.5 Flash Native Audio(原生音频模型)。此次升级不仅强化了文本转语音的控制力,更核心的突破在于实现了无需文本中转的“原生音频”处理能力。这意味着AI可以直接理解并生成音频,保留说话者的语调、节奏和情感,将实时语音交互的自然度提升至新高度。 本次更新的一大亮点是集成于Google翻译App的实时语音翻译功能(目前于美、墨、印Android设备Beta测试)。它支持持续监听与双向自动对话,用户无需手动切换说话模式。更引人注目的是其“风格迁移”能力,翻译不仅能转换语言,还能还原源语言中的情绪色彩,如焦急、欢快或犹豫。 对开发者与企业而言,新模型在复杂函数调用、指令遵循准确率和多轮对话连贯性上均有显著提升。这为构建能听、会说、能办事的下一代语音智能体(如高级客服)降低了门槛。 此外,谷歌实验室同期展示了一款实验性产品“Disco”。它内置基于Gemini 3的“GenTabs”功能,能理解用户复杂的浏览任务(如通过已打开的标签页),并自动生成交互式网络应用辅助完成,无需编程。 谷歌此举标志着AI语音交互正从冰冷的“文本中转”迈向富有情感的“拟人化”实时沟通。该原生音频模型现已通过Vertex AI和Google AI Studio向开发者开放。 https://deepmind.google/blog/ https://x.com/GoogleAI/status/1999560839679082507?s=20 https://blog.google/technology/google-labs/gentabs-gemini-3/
00:00 / 03:08
连播
清屏
智能
倍速
点赞0
00:00 / 00:09
连播
清屏
智能
倍速
点赞1
00:00 / 00:11
连播
清屏
智能
倍速
点赞7
00:00 / 00:19
连播
清屏
智能
倍速
点赞0