豆包正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型

来源:豆包

豆包正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型

2025年4月16 日,豆包大模型团队正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强:支持原生 2K 分辨率输出;响应速度更快;小字更准,文本排版效果增强;美感&结构提升,保真度和细节表现较好,在多项评估中排名领先。

技术创新

相较于 Seedream 2.0 ,我们依靠了多项创新性技术来应对现有的挑战,包括:生成图像分辨率受限、复杂属性生成困难、精细文字渲染不准、视觉美观及保真度不足等方面的问题。

主要表现为以下四个方面:

• 在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。

• 在预训练阶段,我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐:i) 混合分辨率训练;ii) 跨模态旋转位置编码(RoPE);iii) 表征对齐损失;iv) 分辨率感知的时间步采样。

• 在后训练阶段,我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。

• 在模型加速阶段,我们采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。

模型性能迭代

相较于 Seedream 2.0,Seedream 3.0 在多个维度实现显著突破:

• 原生高分辨率:原生支持 2K 分辨率输出,无需后期处理,还兼容更高分辨率并适配各种宽高比。

• 综合能力提升:在文本与图像对齐、构图结构设计、美学质量和文本渲染能力等方面有显著提升。

• 文本渲染性能大幅增强:在小字体生成、汉字准确性和高审美长文本排版方面表现突出。模型挑战了小文本生成和长文本布局的业界难题,平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力,可轻松实现设计师级海报创作,融合多样字体、风格与版式。

• 美学改进:图像美学质量有显著提升,在电影级场景呈现较好表现,人像生成更具真实质感。

• 极速生成体验:通过多项创新加速技术,推理成本大幅降低,1K 分辨率端到端生成耗时仅需 3 秒。

附:技术报告 https://arxiv.org/pdf/2504.11346

本文转载自豆包,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 2025年4月17日 上午10:01
下一篇 2025年4月17日 上午10:29

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信