一川AI6月前
今日AI新闻2025.09.18 1. 可灵 AI 数字人神器 —— 上传角色图片自动生成 1 分钟高清视频,支持中英日韩多语种配音。该多模态技术通过图片 + 文字 / 音频输入直接输出动态视频,大幅降低教育培训、企业宣传类视频的制作门槛。 2. 腾讯混元团队放大招 ——SRPO 技术让 AI 绘画告别 "塑料感"。联合港中文(深圳)和清华研发的语义相对偏好优化方案,通过正负向词汇引导 + Direct-Align 噪声锚点技术,10 分钟训练即可实现皮肤质感等细节三倍精度提升。 3. IBM 开源 Granite-Docling-258M—— 企业文档智能转换专家。这个 2.58 亿参数视觉模型能完整保留表格 / 公式等复杂排版,输出结构化数据,传统 OCR 错误率降低 60%。 4. Meta 首款带屏 AI 眼镜 Ray-Ban 上市 —— 右镜片内置显示屏支持实时翻译导航,配合神经腕带肌电操控,可完全脱离手机使用微信、Instagram 等应用。 5. DeepSeek R1 论文登顶《Nature》封面 —— 全球首个通过权威同行评审的大模型,其强化学习框架使数学竞赛 AIME 得分从 15.6% 飙升至 71%,推理能力比肩 GPT-4。 6. OpenAI 为 ChatGPT 网页端新增 "Thinking 调节" 功能,用户可自主选择标准 / 扩展等四种思考模式平衡响应速度与质量。 7. 抖音 "AI 求真" 功能上线 —— 集成谣言治理大模型,点击视频页面链接即可调取辟谣信息卡,平台表示将组建专业团队持续优化识别准确率。#今日AI新闻#数字人 #deepseek #openai #IBM
00:00 / 01:43
连播
清屏
智能
倍速
点赞10
00:00 / 48:46
连播
清屏
智能
倍速
点赞0
00:00 / 01:46
连播
清屏
智能
倍速
点赞41
【AI教程】可灵 2.6 动作控制,如何实现动作迁移 Freepik 分享了通过可灵 2.6 的动作控制功能,把一个真人的视频动作,直接 “套” 到完全不同角色身上的完整流程,大大降低动捕的成本! 先说一下基本原理,可灵的动作控制不是重新生成动作,而是把视频里的真实动作提取出来,再迁移到一张角色图像上。简单说,动作来自视频,外观来自图片,两者被组合成一个新的动态画面。 比如用一段拳击手打空拳的视频作为动作参考,再准备一张角色图像。这个角色可以是人物、卡通角色,甚至是一尊雕像。把图片放进起始图像,把视频作为动作参考,可灵会从视频中解析身体动作,然后驱动图像里的角色去完成同样的动作。 这里有个很关键的小技巧。写提示词时不要再描述动作本身。动作已经完全由参考视频提供,如果再写 “出拳”、“打拳”,反而可能干扰动作迁移。提示词更适合用来控制其他部分,比如环境氛围、镜头语言或者光线。 例如可以设定一个中近景构图,从大腿以上开始取景,镜头略微仰拍,围绕角色做稳定的环绕运动。这样生成的视频既保留了动作的真实感,又带有明显电影镜头的风格。 在参数上也有一些需要注意的地方。动作控制目前支持的分辨率在 720p-1080p,不支持更高分辨率。还有一个 “场景来源” 的设置,如果视频和图片的画幅不同,它会决定最终画面的比例是跟随视频还是图像。 如果想换环境,通常更好的办法不是直接在动作控制里改背景,而是先用图像模型(例如 Nano Banana Pro)处理角色图片。比如把角色背景改成夜间拳击擂台,再把这张新图重新作为起始图像导入动作控制。动作仍然来自同一段视频,但视觉环境已经完全不同。 当你把动作、角色外观和环境这三件事分开处理之后,玩法就会一下子变多。同一段表演可以给不同角色使用,也可以放进完全不同的场景里。动作成为一种可以复用的素材,而不是一次性的拍摄结果。 #AI视频 #AI动捕 #AI教程 #可灵
00:00 / 04:53
连播
清屏
智能
倍速
点赞16
00:00 / 00:30
连播
清屏
智能
倍速
点赞11
00:00 / 02:02
连播
清屏
智能
倍速
点赞2
00:00 / 01:14
连播
清屏
智能
倍速
点赞34