来源:豆包

2025年4月16 日,豆包大模型团队正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强:支持原生 2K 分辨率输出;响应速度更快;小字更准,文本排版效果增强;美感&结构提升,保真度和细节表现较好,在多项评估中排名领先。
技术创新
相较于 Seedream 2.0 ,我们依靠了多项创新性技术来应对现有的挑战,包括:生成图像分辨率受限、复杂属性生成困难、精细文字渲染不准、视觉美观及保真度不足等方面的问题。
主要表现为以下四个方面:
• 在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。
• 在预训练阶段,我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐:i) 混合分辨率训练;ii) 跨模态旋转位置编码(RoPE);iii) 表征对齐损失;iv) 分辨率感知的时间步采样。
• 在后训练阶段,我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。
• 在模型加速阶段,我们采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。
模型性能迭代
相较于 Seedream 2.0,Seedream 3.0 在多个维度实现显著突破:
• 原生高分辨率:原生支持 2K 分辨率输出,无需后期处理,还兼容更高分辨率并适配各种宽高比。
• 综合能力提升:在文本与图像对齐、构图结构设计、美学质量和文本渲染能力等方面有显著提升。
• 文本渲染性能大幅增强:在小字体生成、汉字准确性和高审美长文本排版方面表现突出。模型挑战了小文本生成和长文本布局的业界难题,平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力,可轻松实现设计师级海报创作,融合多样字体、风格与版式。
• 美学改进:图像美学质量有显著提升,在电影级场景呈现较好表现,人像生成更具真实质感。
• 极速生成体验:通过多项创新加速技术,推理成本大幅降低,1K 分辨率端到端生成耗时仅需 3 秒。
附:技术报告 https://arxiv.org/pdf/2504.11346
本文转载自豆包,本文观点不代表雅典娜AI助手YadiannaAI立场。