大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。
语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。
最近,谷歌发布了一个统一的语音-文本模型AudioPaLM,将文本和音频的token合并为一个多模态联合词汇表,再结合不同任务描述标记,可以实现在任意语音和文本的混合任务上训练decoder-only模型,包括语音识别(ASR)、文本到语音合成、自动语音翻译(AST)和语音到语音翻译(S2ST)等,将传统上由异质模型解决的任务统一到一个架构和训练流程中。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
论文链接:https://arxiv.org/pdf/2306.12925.pdf
示例链接:https://google-research.github.io/seanet/audiopalm/examples/
此外,由于AudioPaLM的底层架构是一个大型的Transformer模型,可以用对文本进行预训练的大型语言模型的权重来初始化,可以从PaLM等模型的语言学知识中受益。
从实现效果来看,AudioPaLM在AST和S2ST基准上取得了最先进的结果,并且在ASR基准上的性能也和其他模型不相上下。
通过利用AudioLM的音频提示,AudioPaLM模型能够对新的说话人语音迁移来执行S2ST,在语音质量和语音保存方面超过了现有的方法。
AudioPaLM模型也具有zero-shot的能力,可以对训练中未见过的语音输入/目标语言组合执行AST任务。
研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模,其中文本和音频在输入到模型之间已经进行分词,所以输入只是一个整数序列,在输出端再进行反分词(detokenized)操作返回给用户。
图片
音频embedding及分词
将音频的原始波形转换为token的过程中,包括从现有的语音表征模型中抽取为嵌入(embedding),并将嵌入离散为一组有限的音频token
之前的工作中从w2v-BERT模型中提取嵌入,并通过k-means将其量化,而这篇论文中,研究人员试验了三种方案:
w2v-BERT:使用在多语言数据上训练的w2v-BERT模型,而非纯英语;并且在进行k-means聚类之前没有进行归一化处理,否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token,词表大小为1024
USM-v1:使用性能更强的、20亿参数的通用语音模型(USM)编码器执行类似的操作,并从中间层提取嵌入;
USM-v2:用辅助ASR损失来训练,并进一步微调以支持多语言。
修改text-only解码器
在Transfomrer解码器结构中,除了输入和最后的softmax输出层外,都不涉及到建模token的数量,并且在PaLM架构中,输入和输出矩阵的权重变量时共享的,即互为转置。
所以只需要将嵌入矩阵的大小从(t × m)扩展到(t+a)×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型,其中t是文本词表的大小,a是音频词表的大小,m是嵌入维度。
为了利用预训练的文本模型,研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。
具体的实现为,前t个token对应于SentencePiece文本标记,后面a个token代表音频标记,虽然文本嵌入式复用的预训练权重,但音频嵌入是全新初始化的,必须进行训练。
实验结果显示,与从头重新训练相比,基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。
音频token解码为原生音频
为了从音频token中合成音频波形,研究人员试验了两种不同的方法:
1. 类似AudioLM模型的自回归解码
2. 类似SoundStorm模型的非自回归解码
这两种方法都需要先生成SoundStream token,再用卷积解码器将其转换为音频波形。
研究人员在Multilingual LibriSpeech上进行训练,语音条件为3秒长的语音样本,同时表示为音频token 和SoundStream token
通过提供部分原始输入语音作为语音条件,模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音,当原始音频短于3秒时,通过重复播放来填充空白时间。
训练任务
使用到的训练数据集均为speech-text数据:
1. 音频Audio:源语言的语音(speech)
2. 转录Transcript:音频数据中语音的转录
3. 翻译音频Translated Audio:音频中语音的口语翻译
4. 翻译转录Translated Transcript:音频中语音的书面翻译
组件任务包括:
1. ASR(自动语音识别):转录音频以获得转录文本
2. AST(自动语音翻译):翻译音频以获得翻译后的转录文本
3. S2ST(语音到语音翻译):翻译音频以获得翻译后的音频
4. TTS(文本到语音):读出转录的内容,以获得音频。
5. MT(文本到文本的机器翻译):翻译转录以获得翻译后的转录文本
一个数据集可能会用于多个任务,所以研究人员选择向模型发出信号,告诉模型应该对给定的输入执行哪项任务,具体方法为:在输入前加上一个标签,指定任务和输入语言的英文名称,输出语言也可以选择。
例如,想要模型对法语语料进行ASR时,分词后的音频输入前面要加上标
签[ASR French];要在英语中执行TTS任务,文本前面需要加上[TTS English];要执行从英语到法语的S2ST任务,分词后的英语音频会在前面加上[S2ST English French]
训练混合
研究人员使用SeqIO库对训练数据进行混合,对较大的数据集进行权重降低。
图片
图片
AudioPaLM在AST和S2ST任务上超过了其他基线模型,在ASR上性能虽然不是最优,但效果也非常好。
除了评估语音内容的翻译质量外,研究人员还评估了AudioPaLM生成的语言是否质量足够高,并且在翻译成不同语言时能否保留说话人的声音。
客观指标
使用类似于无参考MOS估计器,给定一个音频样本,在1到5的范围内提供一个感知音频质量估计。
为了测量跨语言的语音迁移质量,研究人员使用的现成的说话人验证模型,并计算源(用SoundStream编码/解码)和翻译语音的嵌入之间的余弦相似度;还衡量了从源音频到目标音频的声学特性(录音条件、背景噪音)。
主观评估
研究人员进行了两项独立研究来评估生成的语音质量和语音相似度,两项研究中都使用相同的样本集合。
由于语料的质量参差不齐,有些含有响亮的重叠语音(例如,背景中播放的电视节目或歌曲)或极强的噪音(例如,衣服与麦克风摩擦),类似的失真效果使得人类评分员的工作变得复杂,因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。
评分以5级量表提供,从1(质量差或完全不同的声音)到5(质量好,相同的声音)。
图片
从结果中可以观察到AudioPaLM在客观和主观测量中,在音频质量和语音相似度方面都明显优于基线Translatotron 2系统,并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度,在大多数指标上有比较大提升。
研究人员还对比了高资源组和低资源组(法语、德语、西班牙语和加泰罗尼亚语与其他语言)的系统,发现这些组之间的指标没有明显差异。
以上就是谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型的详细内容,更多请关注其它相关文章!
# 多语言
# 论坛网站建设搭建公司
# 小营酒店网站建设
# 关键词第三方排名统计
# 做视频排名关键词
# seo长线的好处及特点
# 商城网站建设广告
# 开州网站建设技术
# 石龙网站建设报价
# 北京起名网站建设游戏
# 北京seo哪个最好
# 将其
# 模型
# 丰田
# 中国科学院
# 模态
# 英语
# 法语
# 还能
# 两种
# 转录
# peech
# udio
# 谷歌
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
华为小艺AI助手将实现强大的大模型能力
华为即将推出HarmonyOS 4,再度领先行业的AI技术
V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中
印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
阿里达摩院向公众免费开放100项AI专利许可
AI智能室内效果图设计软件效果,确实惊到我了!
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能
RoboNeo操作教程
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模
赋能选题探索:AI助手在经济学专业中的应用指南
首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工
AI无法对传统文化符号进行解构和创新
深剖Apple Vision Pro中暗藏的“AI”
创新科学家成功研发FAST激光靶标维护机器人
6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI
人工智能如何帮助制造业?
“痴迷”元宇宙,魔珐科技想做什么?
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
提升工作效率的智能工具:Zapier 让工作变得更简单!
烟台大学学生首次在全国大学生无人机航拍竞赛中获奖
麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管
复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐
马斯克“揭秘”人工智能真面目
网易加速行业AI大模型应用,将覆盖100多个应用场景
有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
让AI助手带您轻松愉快地享受写作之旅
大型无人机FH-98国内首次夜航转场成功
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
《自然》杂志拒绝刊登人工智能生成的图片和视频
联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络
京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作
绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器
上天下海登极,青岛与昇腾AI握手一起探索星辰大海
水路两栖艇、消防灭火机器人……这个展览“黑科技”抢眼
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
Vision Pro头显重磅发布;苹果收购AR厂商Mira
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
AI会帮我们把活干完吗?
工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链
标小智LOGO推出AI公司起名生成器“Name.GPT”
日本演员工会提出AI立法建议 要求建立“声音肖像权”
优化系统韧性:故障恢复与监控在RabbitMQ中的应用
第二届光合组织AI解决方案大赛赛果揭晓
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态
深圳人工智能企业超1900家
2023-06-30
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。