喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新
近日,2025年国际顶级语音会议ASRU(IEEE Automatic Speech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛(M2MeT2.0)圆满结束,喜马拉雅珠峰实验室取得了卓越成绩,荣获冠军殊荣。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。M2MeT2.0挑战赛是ASRU 2025年的一项关键赛事,其目标是解决离线会议室语音重叠的转录问题。会议场景作为典型的多人自由交谈的"鸡尾酒会场景"一直是语音识别领域的难点和关注焦点,对于开发会议场景的语音人工智能和探索相关问题的工业级解决方案具有重要意义。
值得注意的是,喜马拉雅不是第一次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,并且取得了仅有4.05%的日志错误率。在首届挑战赛中,评估使用字符错误率(CER)作为指标,仅将音频转录为文本,而不考虑说话人标签。基于首届的成功,M2MeT2.0挑战赛将着重于说话人相关的评估,推动多说话人语音识别系统的实用化,并设立了限定数据和不限定数据两个子赛道。
为了应对这一挑战,喜马拉雅珠峰实验室从语音识别基础框架出发,展开了混叠语音检测技术和说话人日志技术等方面的技术探索。喜马拉雅在M2MeT2.0挑战赛的限定数据集和开放数据集两个子赛道上均获得了优异的第一名成绩。
今年的M2MeT2.0挑战赛数据集包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及各种室内噪音。这些交错重叠的声音,如人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等,为比赛增加了难度。通过同时使用麦克风阵列记录远距离声音和耳机麦克风记录近距离声音,确保了对应说话者的语音准确转录。这一数据集对于多说话人语音识别和语音重叠问题的研究具有重要的学术意义,并为寻找工业级解决方案提供了真实且多样化的数据资源。

ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
M2MeT2.0挑战赛数据集中所有说话人的母语均为汉语,喜马拉雅通过产学研相结合的方式积极参与其中,致力于为中国本土语音识别技术的发展作出贡献。在M2MeT2.0挑战赛中,喜马拉雅展示了出色的说话人和语音识别技术(ASR)展现出了卓越的性能,其珠峰实验室团队通过自研的说话人识别、语音增强和语音识别等模块的优化和经验,在语音重叠和多说话人环境下取得了显著突破。通过结合深度学习和神经网络模型,喜马拉雅珠峰实验室能够实时转录并精准识别分离多个说话人的语音。
喜马拉雅相关技术不仅在ASRU 2025年M2MeT2.0挑战赛中得到验证,还已应用赋能于喜马拉雅AIGC内容生产中。目前,喜马拉雅自动语音识别(ASR)技术已广泛应用到了喜马拉雅App的AI文稿功能,对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,喜马拉雅的AI文稿功能通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。

除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。据报道,喜马拉雅上线了逾100张由单田芳AI合成音合成的专辑,累计播放量已超过1亿次。
多年来,喜马拉雅一直在AI语音技术领域进行深入研究,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2025年M2MeT2.0挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。
作为备受用户喜爱的在线音频平台,喜马拉雅一直秉持着以科技赋能文化的理念,不断将技术与创作者、用户相结合,提升内容生产效率并提供卓越的内容体验。喜马拉雅也将持续通过科技赋能和产学研相结合的方式,将先进而智能的语音技术与声音相结合,为用户提供卓越的语音技术产品和服务。
以上就是喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新的详细内容,更多请关注其它相关文章!
# 的是
# 大城网站seo优化报价
# 优化网站公司有哪些优势
# 宁波本地网站优化排名
# 裕华公司网站建设招标公告
# 什么网站建设规划最重要
# 宜昌seo推荐
# 广州网站制作网站建设品牌
# 网站推广广告营销方案
# 沈阳大东网站建设推广
# 无锡百度快照seo
# peech
# 取得了
# 这一
# 人日
# 多说
# 珠峰
# 转录
# 语音识别
# 赛中
# 喜马拉雅
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
360发布数字安全和人工智能的强大结合:360安全大模型
加州用AI监测野火:1032个摄像头联网扫描森林异常
人工智能进入绿植界,智能庭院市场初具规模
机器人技能大比拼
重塑未来生活的五项技术趋势
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态
科普:什么是AI大模型
热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…
本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!
苹果推出全新沉浸式 AR 体验应用“Deep Field”
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同
陈根:AI工具为游戏软件实时3D内容助力
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测
京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作
洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!
华为昇腾AI原生支持30多种基础大模型,包括GPT
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
超级智能到底是什么?
AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
苹果式 AI 哲学:不着一字,处处落子
人工智能赋能广西自然资源领域监测监管
上新7款产品,美图继续“蹭”AI
中国最强AI研究院的大模型为何迟到了
AI大模型,将为智慧城市带来哪些新变化?
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
全媒封面丨⑤商汤科技:原创AI算法“发电厂”
解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
OpenAI夺冠:人工智能为云计算带来新变革
美图公司:Wink国内首发AI画面拓展功能
大模型的“黄金搭档”来了!腾讯云正式发布AI原生向量数据库,提供10亿级向量检索能力
最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”
即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%
磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
苹果头显降临,AI虚拟人的救星还是流星?
MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障
谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型
2023-07-07
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。