微软开源VibeVoice-1.5B音频模型 支持90分钟长语音合成与多发言人切换

  • 2025年08月26日 09:37
微软研究院开源了突破性音频模型VibeVoice-1.5B,该模型能一次性合成90分钟超长语音,支持四位发言人切换,并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构(声学+语义)解决了音色漂移问题,通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆,相关资源已在Hugging Face平台开放。
您有什么出海需求
专业顾问为您解答
扫码加微信咨询

官方社群 & 卖家交流群