科技圈🎗在花频道📮
B站技术团队介绍原声外语配音细节:基于自研 IndexTTS2 模型 B站 BILIBILI Index 团队近日推出“原声风格”视频外语配音功能,可在保留创作者原有音色、语气、节奏与情绪的同时,实现自然流畅的跨语言翻译,让观众仿佛听到本人用外语说话。 该能力基于自研 BILIBILI IndexTTS2 模型,通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化…
Bilibili 开源 IndexTTS 2:情感表达与时长可控的自回归零样本文本转语音技术的重大突破

近日,Bilibili Index团队宣布正式开源其新一代文本转语音系统IndexTTS-2.0。该系统为自回归零样本TTS模型,具备情感丰富与语音时长可控的特点。

IndexTTS-2.0提出了一种通用型“时间编码”机制,有效解决了传统自回归模型在语音时长控制上的难题。同时,该系统采用音色与情感解耦建模方法,支持通过单音频参考、情感参考音频、情感向量或文本描述等多种方式调节合成语音的情感表达,提升了生成语音的表现力和应用灵活性。

该技术可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多个场景,被认为对推动零样本TTS技术实用化具有积极意义。

目前,项目相关论文、完整代码、模型权重及在线演示页面均已公开。团队表示将继续优化模型性能,并逐步开放更多资源与工具,以促进开发者社区的共建与合作。

宣传片GithubArxivDemo

🍀在花频道 🍵茶馆 📮投稿
来自频道: @zaihuapd
Loading comments...