哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源

2025-12-03 09:24 作者: kuliu 来源: 本站浏览: 我要评论已关闭评论字号: 大中小

摘要: IT之家 9 月 9 日消息，B站（Bilibili）昨日（9 月 8 日）发布公告，宣布正式开源其自研语音生成大模型 IndexTTS-2.0，是首个支持精确时长控制（Duration Control）的自回归（Autoregressive）零样本文本转语音...

IT之家 9 月 9 日消息，B站（Bilibili）昨日（9 月 8 日）发布公告，宣布正式开源其自研语音生成大模型 IndexTTS-2.0，是首个支持精确时长控制（Duration Control）的自回归（Autoregressive）零样本文本转语音（TTS）系统。

IT之家援引 GitHub 页面介绍，相比较传统逐 token 生成的 TTS 系统，IndexTTS-2.0 首次在自回归架构中实现了精准时长控制，特别适合视频配音等需严格音画同步的应用场景。

在声音表达上，IndexTTS2 实现了情感特征与说话人音色的解耦（Emotion-Speaker Disentanglement）：分离说话人音色与情绪特征，分别控制。

这意味着用户可以独立指定音色来源和情绪来源，例如用一段音频保留音色，再用另一段不同情感的音频或文本描述赋予情绪，在零样本条件下，模型能精准还原目标音色并完全重现指定情绪。

为提升高情感表达下的语音清晰度，团队引入了 GPT 潜在表示，并设计三阶段训练策略增强生成稳定性。此外，他们基于 Qwen3 微调实现了“软指令”机制，允许用户通过自然语言描述来直观控制情绪方向，降低使用门槛。

在技术性能上，多数据集实验表明，IndexTTS2 在词错率、说话人相似度和情绪保真度上均超越当前最先进零样本 TTS 模型。其方法具备良好扩展性，可应用于其他大型自回归 TTS 系统。团队表示，将公开代码和预训练权重，推动学术研究与产业落地。

哔哩哔哩大会员2.68元/月，6.88元/3个月，请点本站上边链接购买

2025年12月03日 09:23:31

随机账号机器密码：
84RI455r TK74dx665Vt
12YK04 AK98xw4
60FW046ck RO23yj9
95DN535vzP LE70u
49AJ823n LE04cx457Tph
25XQ410juN43m JP73ho58
56EH117sg SO21
92UP711qrV LW02ng804Jgka
56SI683stN06 EP84
46QJ133qhK31m IR23m
79UT035iiC LG84
78U HP5

标签: 哔哩哔哩
本文链接: 哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源
版权所有: 非特殊声明均为本站原创文章，转载请注明出处：酷流网
订阅更新: 您可以通过RSS订阅我们的内容更新

随机推荐

打印复制链接

上一篇: 转码要多长时间最新手机排行

下一篇: 港股异动丨手游股普涨哔哩哔哩涨超4% 网易涨超2%创历史新高

Comments are closed.


百度云加速下载3个月/9.8元	10000T资料库3.9元	迅雷会员1.58元/天（新）	优酷会员5.3元/月

哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源

随机推荐

会员登录关闭

注册会员关闭

最多关注全部本月本周

最新文章

推荐阅读

标签云

哔哩哔哩自研语音生成大模型IndexTTS-20 正式开源

相关阅读

随机推荐

会员登录关闭

注册会员关闭

最多关注全部本月本周

最新文章

推荐阅读

标签云