哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源

2025-12-03 09:24 作者: 来源: 本站 浏览: 我要评论哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源已关闭评论 字号:

摘要: IT之家 9 月 9 日消息,B站(Bilibili)昨日(9 月 8 日)发布公告,宣布正式开源其自研语音生成大模型 IndexTTS-2.0,是首个支持精确时长控制(Duration Control)的自回归(Autoregressive)零样本文本转语音...

IT之家 9 月 9 日消息,B站(Bilibili)昨日(9 月 8 日)发布公告,宣布正式开源其自研语音生成大模型 IndexTTS-2.0,是首个支持精确时长控制(Duration Control)的自回归(Autoregressive)零样本文本转语音(TTS)系统。

IT之家援引 GitHub 页面介绍,相比较传统逐 token 生成的 TTS 系统,IndexTTS-2.0 首次在自回归架构中实现了精准时长控制,特别适合视频配音等需严格音画同步的应用场景。

在声音表达上,IndexTTS2 实现了情感特征与说话人音色的解耦(Emotion-Speaker Disentanglement):分离说话人音色与情绪特征,分别控制。

这意味着用户可以独立指定音色来源和情绪来源,例如用一段音频保留音色,再用另一段不同情感的音频或文本描述赋予情绪,在零样本条件下,模型能精准还原目标音色并完全重现指定情绪。

为提升高情感表达下的语音清晰度,团队引入了 GPT 潜在表示,并设计三阶段训练策略增强生成稳定性。此外,他们基于 Qwen3 微调实现了“软指令”机制,允许用户通过自然语言描述来直观控制情绪方向,降低使用门槛。

在技术性能上,多数据集实验表明,IndexTTS2 在词错率、说话人相似度和情绪保真度上均超越当前最先进零样本 TTS 模型。其方法具备良好扩展性,可应用于其他大型自回归 TTS 系统。团队表示,将公开代码和预训练权重,推动学术研究与产业落地。

哔哩哔哩大会员2.68元/月,6.88元/3个月,请点本站上边链接购买

2025年12月03日 09:23:31

 

随机账号机器密码:
84RI455r TK74dx665Vt
12YK04 AK98xw4
60FW046ck RO23yj9
95DN535vzP LE70u
49AJ823n LE04cx457Tph
25XQ410juN43m JP73ho58
56EH117sg SO21
92UP711qrV LW02ng804Jgka
56SI683stN06 EP84
46QJ133qhK31m IR23m
79UT035iiC LG84
78U HP5

Comments are closed.

会员登录关闭

记住我 忘记密码

注册会员关闭

小提示: 您的密码会通过填写的"电子邮箱"发送给您.