mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

mini-gpt4o来了? 能看、能听、会说，还情感丰富的多模态全能助手emova

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv

专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生，黄润辉为香港大学在读博士生，谭达新为诺亚方舟实验室研究员。

随着 OpenAI GPT-4o 的发布，大语言模型已经不再局限于文本处理，而是向着全模态智能助手的方向发展。这篇论文提出了 EMOVA（EMotionally Omni-present Voice Assistant），一个能够同时处理图像、文本和语音模态，能看、能听、会说的多模态全能助手，并通过情感控制，拥有更加人性化的交流能力。以下，我们将深入了解 EMOVA 的研究背景、模型架构和实验效果。

[详细内容](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936793&idx=3&sn=55e737d060d80fed7c3f69797403dcf3&chksm=84e7d1a7b39058b1f1f0f53fd73dbefef7b63c31599e5260f58487bc87c9614be1f8c1179c9d&token=554618254&lang=zh_CN#rd)

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

论文题目：EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion论文地址：https://arxiv.org/abs/2409.18042项目网页：https://emova-ollm.github.io/研究背景：全模态交互的挑战近年来，多模态大模型得到广泛关注，尤其是可以同时处理视觉和语言信息的模型，如 LLaVA [1] 和 Intern-VL [2]，或者语音文本交互的模型，如 Mini-Omni [3]。然而，当前的研究多偏向于双模态组合，要让大语言模型在 “看、听、说” 三个方面同时具备优越表现依然充满挑战。传统的解决方案往往依赖外部语音生成工具，无法实现真正的端到端语音对话。而 EMOVA 的出现填补了这个空白，在保持图文理解性能不下降的前提下，让模型具备情感丰富的语音交流能力，实现了一个全能型、情感丰富、能看能听会说的智能助手。模型架构：情感对话与多模态理解的有效结合EMOVA 的架构如图一所示，它结合了连续的视觉编码器和离散的语音分词器，能够将输入的图像、文本和语音信息进行高效处理，并端到端生成文本和带情感的语音输出。以下是其架构的几个关键点：1. 视觉编码器：采用连续的视觉编码器，捕捉图像的精细视觉特征，保证领先的视觉语言理解性能；2. 语音分词器：采用了语义声学分离的语音分词器，将输入的语音分解为语义内容（语音所表达的意思）和声学风格（语音的情感、音调等）。这种设计将语音输入转化为 “新的语言”，不仅降低了语音模态的合入难度，更为后续个性化语音生成以及情感注入提供了灵活度；3. 情感控制模块：引入了一个轻量级的风格模块，支持对语音情感（如开心、悲伤等）、说话人特征（如性别）、语速、音调的控制，在保持语义不变的情况下，根据对话上下文动态调节语音输出的风格，使人机交互更加自然。

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

对齐方法：开源双模态数据实现全模态对齐

EMOVA 提出了数据高效的全模态对齐，以文本模态作为媒介，通过公开可用的图像文本和语音文本数据进行全模态训练，而不依赖稀缺的图像 - 文本 - 语音三模态数据。实验发现：

模态间的相互促进：在解耦语义和声学特征的基础上，语音文本数据和图像文本不仅不会相互冲突，反而能够互相促进，同时提升模型在视觉语言和语音语言任务中的表现；
同时对齐优于顺序对齐：联合对齐图像文本和语音文本数据的效果明显优于顺序对齐（先图像文本对齐，再语音文本对齐，或反之），有效避免“灾难性遗忘”；
全模态能力激发：少量多样化的全模态指令微调数据，可以有效激发模型面对图像、文本和语音组合指令的响应能力和遵从性。

这种双模态对齐方法利用了文本作为桥梁，避免了全模态图文音训练数据的匮乏问题，并通过联合优化，进一步增强了模型的跨模态能力。

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

Remover

几秒钟去除图中不需要的元素

304 查看详情 Remover

图二：全模态同时对齐提升模型在视觉语言和语音语言任务中的表现

实验效果：性能领先，情感丰富

在多个图像文本、语音文本的基准测试中，EMOVA 展现了优越的性能：

视觉理解任务：EMOVA 在多个数据集上达到了当前的最佳水平，特别是在复杂的图像理解任务中表现尤为突出，如在 SEED-Image、OCR Bench 等榜单的性能甚至超过了 GPT-4o；
语音任务：EMOVA 不仅在语音识别任务上取得最佳性能，还能生成情感丰富、自然流畅的语音，展示了其语义声学分离技术和情感控制模块的有效性；

总的来说，EMOVA 是首个能够在保持视觉文本和语音文本性能领先的同时，支持带有情感的语音对话的模型。这使得它不仅可以在多模态理解场景表现出色，还能够根据用户的需求调整情感风格，提升交互体验。

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

图 3 EMOVA 在视觉文本和语音文本任务上的性能测试

总结：为 AI 情感交互提供新思路

EMOVA 作为全模态的情感语音助手，可实现端到端的语音、图像、文本处理。通过创新的语义声学分离和轻量化的情感控制模块，展现出优越的性能。EMOVA 在实际应用和研究前沿都具有巨大潜力，为未来 AI 提供了更加人性化的情感表达新思路。

参考文献：

[1] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2025). Visual instruction tuning. In NeurIPS.
[2] Chen, Z., Wu, J., et al. (2025). InternVL: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. In CVPR.
[3] Xie, Z., & Wu, C. (2025). Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming. arXiv preprint arXiv:2408.16725.

以上就是mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA的详细内容，更多请关注其它相关文章！

# 双模 # 宁波Seo每日 # 郑州社群网站建设 # seo优化tkd # 名优关键词排名大全 # 云南网站优化哪家负责做 # 商业网站建设学费 # 网上书店的网络营销推广 # 安阳新站seo关键词排名优化 # 魏都区网站的优化代理商 # 网站推广营销模板图片 # 端到 # 产业 # 多个 # 开源 # 诺亚方舟 # 多模 # 能看 # 会说 # 来了 # 模态 # git # emova

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-10-05

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。