00:00 / 01:40
连播
清屏
智能
倍速
点赞64
00:00 / 06:15
连播
清屏
智能
倍速
点赞78
00:00 / 01:53
连播
清屏
智能
倍速
点赞7
什么是多模态 #多模态 #comfyui #aigc三明治 多模态: 拆解文字简单来说就是多种模型生态。 包括但不限于,生成文字的模型,生图模型,生成视频的模型,生成代码的模型,生成语音的模型,生成音乐的模型等。 市面上主要的开源与闭源模型功能:t2t,t2i,t2v,i2v,tts,i2t,i2i。 t:text,文本 i:image,图像 v:video,视频 s:sound,音频 好的,现在来给大家介绍两大多模态软件:豆包和Gemini。 豆包:可以对话,即t2t, 可以生成图片,即t2i, 可以p图,编辑图片,即i2i, 可以生成视频,即t2v,i2v, 可以生成代码,即t2t, 可以反推提示词,即i2t。 豆包的主要模型是seedllm2.0(LLM 是 Large Language Model 的缩写,比较出圈的就是deepseek),对话模型。 seedream5.0,生图编辑图片模型。 seedance2.0,生成视频模型。 当然这些都是闭源的,不过大家可以在豆包app内体验和使用。 另外还有一家多模态软件就是谷歌的Gemini, 他的底层模型主要有Gemini3.1pro,对话模型, nano banana 2,图片生成与编辑模型, veo3.1,视频生成模型。 这两家软件的多模态都能处理包括文本,图像,视频,音频,代码,文档,表格,这些不同格式数据文件的输入与输出。 这些模型各有作用各有特点,希望大家可以学会合理使用这些工具。 点关注,不迷路!
00:00 / 01:42
连播
清屏
智能
倍速
点赞0
00:00 / 03:10
连播
清屏
智能
倍速
点赞18