Ideogram 发布 4.0 开源文生图模型:9.3B 参数,强化文字排版与版式生成能力

AI 初创公司 Ideogram 发布开放权重文生图模型 Ideogram 4.0,模型规模约 9.3B 参数,采用单流扩散 Transformer(DiT)架构,将文本与图像 tokens 融合于同一自注意力序列。模型结合 Qwen3-VL-8B-Instruct 文本编码器与 Euler 流匹配采样器,并在训练中引入对象与文本边界框及结构化 JSON 字幕数据,以提升空间关系理解与版式控制能力。官方称该模型在生成海报、封面等含长文本图像时可实现更准确的文字拼写与排版。在 DesignArena 人类盲测榜单中,Ideogram 4.0 排名全球第四。

上一篇:

下一篇:

发表回复

登录后才能评论