粉丝634获赞8659
Ella是腾讯QQ的Ylab实验室开发的文本到图像增强项目,目前已移植到ComfyUI中使用。其核心优势在于显著提升文本到图像模型对长而复杂提示词的理解能力,解决传统模型(如Stable Diffusion 1.5)常忽略或混淆提示词细节的问题,是文本到图像生成领域的一项重要突破。
Ella的核心功能是增强文本到图像模型对复杂提示词的解析与还原能力,尤其擅长处理包含多个物体属性、空间关系和场景氛围的详细描述。传统模型(如jinjika 1.5)在面对长提示词时,常出现颜色错误、物体遗漏或场景混淆,而Ella通过优化文本编码机制,能更准确地将文字描述转化为视觉元素。
摩托车场景案例
提示词:“一位年轻的金发女士欢快地骑着一辆海绿色的摩托车,穿着鲜艳的红色裙子,背景是托斯卡纳村庄鹅卵石街道和历史悠久的石建筑”。
超现实面包场景案例
提示词:“一位女士眼睛因惊讶而瞪得很大,一根金色顶部是圆面包的法棍面包从胸前突出,背景是梦幻般色彩融合的城市景观”。
ComfyUI_ella(来自exponentialML,可在ComfyUI Manager中搜索“ella”安装)。Ella-1模型
ComfyUI/Models/ella(目录会自动创建)。 Flan-T5-XL模型
ComfyUI/models/t5_model。 Ella通过多个测试案例展现了对复杂提示词的精准理解,主要优势体现在以下方面:
对于包含超现实元素或特定氛围的提示词(如“水晶结构从地面喷涌而出,电蓝色天空,孤独人影穿破旧黑斗篷”),Ella能更好地捕捉场景基调,生成符合“超凡脱俗”“梦幻色彩”的背景,而传统模型背景往往单调或偏离风格。
目前Ella仍处于早期开发阶段,存在部分不完美之处:偶尔出现细节遗漏(如未生成“红叶子老树”)或属性偏差(如“蓝色条纹靠垫”生成绿色条纹),但整体匹配度远高于传统模型。
Ella通过引入大语言模型适配器,在不训练UNet或LLM的情况下,有效增强了文本到图像模型对复杂提示词的理解能力,显著提升了生成图像与提示词的匹配度、颜色准确性和构图合理性。未来,随着SDXL模型支持的加入及与ControlNet等节点的结合,Ella有望在AI图像生成的细节控制和创意实现上发挥更大潜力,为用户创作更精准、复杂的视觉内容提供有力工具。