B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2


哔哩哔哩语音团队近日发布并开源了其最新研发的零样本语音合成模型indextts2。

B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2

相关研究论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已发表于arXiv,同时代码与预训练模型权重已在GitHub和Hugging Face平台全面开放。

https://www.php.cn/link/7b905b5bd19b35cf3f9d762aa6acaa45

https://www.php.cn/link/ef9ffa986fa98b2485fe6b57ac0c6b1b

该模型首次在自回归结构中引入“时间编码”机制,支持通过设定目标token数量实现毫秒级精确时长控制,同时也可自然生成保持原始语调与节奏的语音输出。

IndexTTS2由三大核心组件构成:Text-to-Semantic(T2S)、Semantic-to-Mel(S2M)以及升级版声码器BigVGANv2。首先,T2S模块接收输入文本、风格提示、音色参考以及可选的目标语义token数量,生成对应的语义表示序列;随后,S2M模块结合语义token与音色信息,预测出梅尔频谱图;最终,BigVGANv2将频谱图转化为高保真语音波形,完成端到端语音合成。

CA.LA CA.LA

第一款时尚产品在线设计平台,服装设计系统

CA.LA 94 查看详情 CA.LA

B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2

IndexTTS2整体架构示意图

模型训练融合了高达55,000小时的中英文双语语音数据及135小时的情感标注语音。在LibriSpeech-test-clean、SeedTTS test-zh/en、AISHELL-1等多个权威测试集上,IndexTTS2在词错率与说话人相似度指标方面均达到当前最优水平。主观MOS评分结果显示,情感表现自然度达4.22分,情感匹配度为0.887,时长控制精度误差小于0.07%。

项目现已提供WebUI界面与Python API接口,支持标准零样本语音合成与情绪引导合成模式,适用于AI配音、有声书制作、视频翻译、播客生产等多种应用场景。官方同步推出了“原声视频翻译”功能的内测版本,用户可直观体验定长时间对齐的语音合成效果。

以上就是B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2的详细内容,更多请关注其它相关文章!


# 百度网  # 湘潭网站优化电池充电  # 开封网站推广需要多少钱  # 喀什网站排名优化  # 陕西网站建设模板制作  # 网站建设分为展示型  # 成华区什么是网站优化  # 晋中网站推广优化建设  # 建设网站 无法显示图片  # 营销智慧大脑推广策略  # 上海建设委员会网站  # 首次  # 盘发  # python  # 定长  # 声码  # 时长  # 最受欢迎  # 美国政府  # 语音合成  # 开源  # 哔哩哔哩  # ai  # b站  # github  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  人工智能在重症监护室的未来  定义人工智能的十个关键术语  WHEE上线时间介绍  OpenAI 向所有付费 API 用户开放 GPT-4  苹果2万5的AR遭遇砍单95%:不及预期  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  游族AI创新院揭牌成立 推进AI赋能游戏业务  人工智能在服务优化方面优缺点有哪些  “长沙造”无人机,领先的不止植保  测试框架-安全和自动驾驶  如何成功实施人工智能?  视觉中国推出付费AI绘图功能:无版权可用  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  《爱康未来之夜嘉宾官宣,携手共赴AI未来》  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  实现MySQL数据锁定策略:解决并发冲突的J*a解决方案  Moka AI产品后观察:HR SaaS迈进AGI时代  亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态  首届全国体育人工智能大会在首都体育学院召开  IBM CEO克里希纳:人工智能潜在创新无法被监管  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  AI无法对传统文化符号进行解构和创新  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平  智能公司为何纷纷投身机器人领域?  OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%  优傲机器人的人机协作技术 助力中小企发展  腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  AI生成新闻网站数量激增,正在疯狂赚取广告收入  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?  AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行 

 2025-09-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.