Bilibili 开源 IndexTTS 2:情感表达与时长可控的自回归零样本文本转语音技术的重大突破
近日,Bilibili Index团队宣布正式开源其新一代文本转语音系统IndexTTS-2.0。该系统为自回归零样本TTS模型,具备情感丰富与语音时长可控的特点。
IndexTTS-2.0提出了一种通用型“时间编码”机制,有效解决了传统自回归模型在语音时长控制上的难题。同时,该系统采用音色与情感解耦建模方法,支持通过单音频参考、情感参考音频、情感向量或文本描述等多种方式调节合成语音的情感表达,提升了生成语音的表现力和应用灵活性。
该技术可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多个场景,被认为对推动零样本TTS技术实用化具有积极意义。
目前,项目相关论文、完整代码、模型权重及在线演示页面均已公开。团队表示将继续优化模型性能,并逐步开放更多资源与工具,以促进开发者社区的共建与合作。
宣传片|Github|Arxiv|Demo
🍀在花频道 🍵茶馆 📮投稿
近日,Bilibili Index团队宣布正式开源其新一代文本转语音系统IndexTTS-2.0。该系统为自回归零样本TTS模型,具备情感丰富与语音时长可控的特点。
IndexTTS-2.0提出了一种通用型“时间编码”机制,有效解决了传统自回归模型在语音时长控制上的难题。同时,该系统采用音色与情感解耦建模方法,支持通过单音频参考、情感参考音频、情感向量或文本描述等多种方式调节合成语音的情感表达,提升了生成语音的表现力和应用灵活性。
该技术可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多个场景,被认为对推动零样本TTS技术实用化具有积极意义。
目前,项目相关论文、完整代码、模型权重及在线演示页面均已公开。团队表示将继续优化模型性能,并逐步开放更多资源与工具,以促进开发者社区的共建与合作。
宣传片|Github|Arxiv|Demo
🍀在花频道 🍵茶馆 📮投稿
来自频道: @zaihuapd
⚠️ 评论区加载失败
可能原因:
- 浏览器广告拦截器阻止了 Telegram widget
- 网络连接问题
解决方法: