OmniAudio— 阿里通义推出的空间音频生成模型


OmniAudio是什么

omniaudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(foa)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。omniaudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监督学习;以及基于双分支视频表示的有监督微调,强化模型对声源方向的表征能力。

拾贝 拾贝

一键同步微信读书所有笔记和划线,并在新标签页回顾

拾贝 186 查看详情 拾贝

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OmniAudio— 阿里通义推出的空间音频生成模型

OmniAudio的主要功能

  • 生成空间音频:能直接从360°视频生成FOA音频,这种音频是一种标准的3D空间音频格式,能捕捉声音的方向性,实现真实的3D音频再现。采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。在头部旋转时,可以确保声音定位的准确性得以保持。
  • 提升沉浸式体验:为虚拟现实和沉浸式娱乐带来了全新的可能性。可以解决传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求的问题。

OmniAudio的技术原理

  • 自监督的 coarse-to-fine 流匹配预训练
    • 数据处理:由于真实FOA数据稀缺,研究团队利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),将立体声转换为“伪FOA”格式。具体来说,W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。
    • 模型训练:将转换后的“伪FOA”音频送入四通道VAE编码器获得潜在表示,然后以一定概率进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。
  • 基于双分支视频表示的有监督微调
    • 数据利用:仅使用真实的FOA音频数据,继续沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。
    • 模型强化:通过对真实FOA潜在序列进行更高概率的掩码,强化了对声源方向(W/X/Y/Z四通道之间的互补关系)的表征能力,在解码端提升了对高保真空间音频细节的重建效果。
    • 双分支结合:完成自监督预训练后,将模型与双分支视频编码器结合。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件,局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。
    • 微调与输出:在保持预训练初始化参数大致走向的前提下,高效微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的项目地址

  • 项目官网:http://omniaudio-360v2sa.github.io/
  • Github仓库:http://github.com/liuhuadai/OmniAudio
  • arXiv技术论文:http://arxiv.org/pdf/2504.14906

OmniAudio的应用场景

  • 虚拟现实(VR)和沉浸式体验:OmniAudio 能为 VR 内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感。
  • 360°视频配乐:为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。
  • 智能语音助手:集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。
  • 机器人和自动驾驶领域:OmniAudio 可以应用于机器人和自动驾驶领域,为这些系统提供更准确的声音定位和环境感知。

以上就是OmniAudio— 阿里通义推出的空间音频生成模型的详细内容,更多请关注其它相关文章!


# 只需  # seo引流是什么意思  # 铁岭抖音seo排名公司  # 企业网站优化推广怎么做  # SEO大牛美食推荐火锅  # 网站方案优化工作内容  # 美图的营销推广措施分析  # 网站基本建设重做  # 嘉定seo优化多少费用  # 大沥狮山网站建设  # 原创软件_营销推广方式  # 阿里巴巴  # git  # 就能  # 道为  # 是一种  # 这一  # 安装包  # 一键  # 拾贝  # 掩码  # udio  # omniaudio  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 深圳人工智能企业超1900家  AI数字人业务频频获点赞,谦寻积极引领示范作用  人工智能快速发展 打开就业新空间  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!  中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平  十个AI算法常用库J*a版  IBM CEO克里希纳:人工智能潜在创新无法被监管  用AI技术点亮老照片:Deep Nostalgia带给照片新生动感  智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  Dubbo负载均衡策略之 一致性哈希  人工智能时代 数字文明对话向“尼”走来  OpenAI 向所有付费 API 用户开放 GPT-4  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  SnapFusion技术大幅提升AI图像生成速度  特斯拉人形机器人将亮相 预计售价不超过15万元  脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  谷歌在人工智能领域没有“护城河”?  消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像  无人机自主巡检为高海拔输电线路运维添“新彩”  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  Midjourney创始人:AI应该成为人类思想的延伸  阿里云连续两年进入Gartner云AI开发者“挑战者象限”  华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能  纪录片 《寻找人工智能》全集1080P超清  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  人工智能驱动艺术,打开达利的超现实想象  0代码微调大模型火了,只需5步,成本低至150块  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  智能公司为何纷纷投身机器人领域?  美图公司影像节或发布AI设计新品  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  AI时代,企业需要什么样的员工?  如何用AI重塑你的工作流(一)  生成式AI对云运维的3大挑战  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  田渊栋团队新研究:微调  机智云AI离线语音识别模组,让家电变得更加智能便捷  原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人  GPT-4不能在麻省理工学院获得计算机科学学位  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  华为发布两款AI存储新品 

 2025-06-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.