豆包正式推出 Seedream 3.0，一款原生高分辨率的中英双语图像生成基础模型

Athena • 文章来源: 豆包 • 2025年4月17日上午10:09 • AI热点要闻 • 阅读 794

来源：豆包

2025年4月16 日，豆包大模型团队正式推出 Seedream 3.0，一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强：支持原生 2K 分辨率输出；响应速度更快；小字更准，文本排版效果增强；美感&结构提升，保真度和细节表现较好，在多项评估中排名领先。

技术创新

相较于 Seedream 2.0 ，我们依靠了多项创新性技术来应对现有的挑战，包括：生成图像分辨率受限、复杂属性生成困难、精细文字渲染不准、视觉美观及保真度不足等方面的问题。

主要表现为以下四个方面：

• 在数据层面，通过一种新型的视觉语义二维协同的采样策略（基于图像聚类分布与文本语义连贯性两个正交维度），将数据集规模扩展了约 100%。

• 在预训练阶段，我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐：i) 混合分辨率训练；ii) 跨模态旋转位置编码（RoPE）；iii) 表征对齐损失；iv) 分辨率感知的时间步采样。

• 在后训练阶段，我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型，进一步提升模型的综合能力。

• 在模型加速阶段，我们采用一致噪声期望来提升采样过程的平稳性，在保证生成质量无损的条件下大幅减少采样步数。

模型性能迭代

相较于 Seedream 2.0，Seedream 3.0 在多个维度实现显著突破：

• 原生高分辨率：原生支持 2K 分辨率输出，无需后期处理，还兼容更高分辨率并适配各种宽高比。

• 综合能力提升：在文本与图像对齐、构图结构设计、美学质量和文本渲染能力等方面有显著提升。

• 文本渲染性能大幅增强：在小字体生成、汉字准确性和高审美长文本排版方面表现突出。模型挑战了小文本生成和长文本布局的业界难题，平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力，可轻松实现设计师级海报创作，融合多样字体、风格与版式。

• 美学改进：图像美学质量有显著提升，在电影级场景呈现较好表现，人像生成更具真实质感。

• 极速生成体验：通过多项创新加速技术，推理成本大幅降低，1K 分辨率端到端生成耗时仅需 3 秒。

本文转载自豆包，本文观点不代表雅典娜AI助手YadiannaAI立场。

豆包正式推出 Seedream 3.0，一款原生高分辨率的中英双语图像生成基础模型