据爱范儿消息,5 月 15 日,MiniMax 稀宇科技宣布,其基于 AR Transformer 模型研发的高质量 TTS 系统「MiniMax Speech 02」正式公布。
据悉,MiniMax Speech 02 具有足够强的泛化能力,能够轻松驾驭 32 语种、不同口音、不同情绪的人声。
在性能表现上,MiniMax Speech 02 在两项全球权威语音基准测评榜单(Artificial Analysis Speech Arena 和 Hugging Face TTS Arena)中,超越 OpenAI、ElevenLabs 等全球性能优异的模型,双双位列第一。
另外,根据 Arena 榜单的 ELO 评分结果显示,从用户体验上, MiniMax Speech 02 的听感更加优异。同时该模型系统还做到了价格更低,分别是 ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。
目前,MiniMax Speech 02 已上架 MiniMax Audio,并且公布了技术细节、实验对比数据、开源的多语言测试集,以及技术报告。