微软开源VibeVoice-1.5B音频模型支持90分钟长语音合成与多发言人切换

2025年08月26日 09:37

微软研究院开源了突破性音频模型VibeVoice-1.5B，该模型能一次性合成90分钟超长语音，支持四位发言人切换，并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构（声学+语义）解决了音色漂移问题，通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆，相关资源已在Hugging Face平台开放。

2025-08-26上一篇
Google NotebookLM升级支持80种语言新增多语言视频音频功能
2025-08-26下一篇
乌拉圭实施LED灯和白炽灯能效认证新规强化节能标签体系

您有什么出海需求
专业顾问为您解答

扫码加微信咨询

官方社群 & 卖家交流群

加入
添加微信，邀您入群

亚马逊交流群
加入
添加微信，邀您入群

Tik Tok交流群
加入
添加微信，邀您入群

Temu交流群
加入
添加微信，邀您入群

Shein交流群
加入
添加微信，邀您入群

Shopee/Lazada交流群
加入
添加微信，邀您入群

新兴平台交流群
加入
添加微信，邀您入群

产业带/供应链交流群
加入
添加微信，邀您入群

线下活动群

关于我们: 关于跨境知道

跨境知识: 行业洞查; 研究报告; 出海百问; 跨境百科; K圈论坛

行业资源: 跨境活动; 资源工具; 跨境导航

官方微信公众号

友情链接：

客服

跨境知道网客服

加我微信你可以得到行业资源服务、运营干货、前沿资讯、数据报告以及加入精准卖家交流圈。有小雨，跨境出海不迷路
公众号

跨境知道网公众号

微信扫一扫关注「跨境知道网」公众号，及时了解最新跨境前沿资讯，运营干货和行业趋势，平台政策，陪伴跨境卖家快速学习成长！
返回顶部

微软开源VibeVoice-1.5B音频模型 支持90分钟长语音合成与多发言人切换

官方社群 & 卖家交流群

微软开源VibeVoice-1.5B音频模型支持90分钟长语音合成与多发言人切换