NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频


NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2025 会议接收为 Oral Presentation (64/15671=0.4%) 。本文主要作者来自同济大学苗夺谦,张奇团队,其余作者来自俄亥俄州州立大学、悉尼科技大学、中科院自动化所、北京安定医院。其中,第一作者龚子璇就读于同济大学计算机学院,研究方向涉及 fMRI 解码和多模态学习。

从大脑信号还原视觉刺激一直是神经科学和计算机科学研究人员们津津乐道的话题。然而,基于非侵入式大脑活动 fMRI(功能性磁共振成像)到视频的重建研究仍然有限,因为解码连续视觉刺激的时空感知是一项艰巨的挑战。为此,本文提出了一种名为 NeuroClips 的创新框架,用于从 fMRI 数据中解码高保真和流畅的视频。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
  • 论文题目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
  • 论文链接:https://arxiv.org/abs/2410.19452
  • 项目主页:https://github.com/gongzix/NeuroClips

从 fMRI 重建视频具有哪些挑战?

1.fMRI 的低时间分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 脑电信号而言,具有极高的空间分辨率,可以对全脑进行细致的扫描。但是由于全脑扫描更加耗时,fMRI 拥有较低的时间分辨率,通常 2s 才能完成一次采样,帧率只有 0.5。然而,需要重建视频的时间分辨率是极高的,通常达到 30~60 的帧率。因此 fMRI 的低时间分辨率(0.5fps)和真实视频采样的高时间分辨率(30fps)之间存在严重冲突。

2. 重建视频的低级视觉感知缺乏控制。以往的研究对于视频重建,已经实现了较为精准的语义重建。例如,当采集被试看见一个男人的 fMRI 信号并用于重建,可以获得一段男人的视频。然而,视频更难的点在于物体形状变化,人物动作以及场景的变化。因此过往的研究缺乏对重建视频的低级视觉感知的控制。

为了解决上述挑战,我们主张利用关键帧图像作为过渡视频重建的锚点,与大脑的认知机制相吻合。此外,fMRI 到视频重建考虑低级感知特征,从大脑活动解码低级感知流,如运动和动态场景,以补充关键帧,从而增强高保真帧的重建,生成平滑的视频。我们提出了一种新颖的 fMRI-to-video 重建框架 NeuroClips,引入了两个可训练的组件 —— 感知重建器(Perception Reconstructor)和语义重建器(Semantics Reconstructor),分别用于重建低级感知流和语义关键帧。而在推理过程中,采用一个预先训练好的 T2V 扩散模型,注入关键帧和低级感知流,以实现高保真度、平滑度和一致性的视频重建。该模型不仅在各项指标上实现了 SOTA 性能,还通过使用多 fMRI 融合,开创了长达 6 秒、8 帧率视频重建的探索。

研究方法

NeuroClips 的整体框架如下图所示:
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                  图 1:NeuroClips 的整体框架。红色的线代表推理过程。

NeuroClips 包括三个关键组件:感知重建器(PR)从感知层面生成模糊但连续的粗略视频,同时确保其连续帧之间的一致性;语义重建器(SR)从语义层面重建高质量的关键帧图像;推理过程是 fMRI 到视频的重建过程,它使用 T2V 扩散模型,并结合 PR 和 SR 的重建结果,以高保真度、平滑度和一致性重建最终的保真视频。

1、感知重建器(Perception Reconstructor,PR)

将视频按两秒间隔分割成多个片段(即 fMRI 的时间分辨率)。通过在 Stable Diffusion 的 VAE 解码器中添加时间注意力层,获得对齐的 fMRI 模糊嵌入,这些嵌入可以用于生成模糊视频,其缺乏语义内容,但能感知场景的通用动作信息,在位置、形状、场景等感知指标上表现出最先进的水平。

2、语义重建器(Semantics Reconstructor , SR)

语义重构器(SR)的核心目标是重建高质量的关键帧图像,以解决视觉刺激和 fMRI 信号之间的帧率不匹配的问题,从而提高最终视频的保真度。现有愈发成熟的 fMRI 到图像重建研究促进了我们的目标,包括将 fMRI 进行低维处理、关键帧图像与 fMRI 的对齐、重建嵌入生成以及文本模态的重建增强。受到对比学习的启发,我们在NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频之间进行对比学习,通过额外的文本模态来增强重建嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。对比损失作为这一过程的训练损失NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。我们设置混合系数NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频来平衡多个损失。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
其中,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是关键帧图像和 fMRI 对齐采用的结合了 MixCo 和对比损失的双向损失,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是重建时与 DALLE・2 相同的扩散先验损失。

3、推理过程(Inference Process)

我们结合模糊的粗略视频(PR 输出)、高质量的关键帧图像(模糊视频第一帧嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频和 fMRI 嵌入输入到 SR 中的 SDXL unCLIP 生成)和额外的文本模态分别作为NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频Guidance 来重建具有高保真度、平滑度和一致性的最终视频。我们采用 text-to-video(T2V)的扩散模型来帮助重建视频,而由于嵌入的语义仅来自文本模态。我们还需要通过增强来自视频和图像模态的语义来创建 “综合语义” 嵌入,以帮助实现 T2V 扩散模型的可控生成。

4、多 fMRI 融合(Multi-fMRI Fusion)

如何从 fMRI 中重建更长的视频呢?在推理过程中,我们考虑来自两个相邻的 fMRI 样本的两个重建关键帧的语义相似性,如果语义相似,我们就用前一个 fMRI 重建视频的尾帧替换后一个 fMRI 的关键帧,该帧将作为后一个 fMRI 的第一帧来生成视频。如图 2 所示,通过这一策略,我们首次实现了长达 6 秒的连续视频重建。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                   图 2:多 fMRI 融合的可视化。

实验结果

本文使用开源的 fMRI-video 数据集(cc2017 数据集)进行了 fMRI-to-video 的重建实验,通过基于帧的和基于视频的指标进行了定量评估,并进行了全面分析。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
从 fMRI 重建视频的 Demos

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

neurips 2024 oral | 还原所见!揭秘从脑信号重建高保真流畅视频

神笔马良 神笔马良

神笔马良 - AI让剧本一键成片。

神笔马良 320 查看详情 神笔马良
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                      表 1:NeuroClips 重建性能与其他方法的定量比较。

结果如上表所示,NeuroClips 在 7 个指标中的 5 个上显著优于先前的方法,SSIM 性能大幅提升,表明其补充了像素级控制的不足。语义层面的指标也总体上优于先前的方法,证明了 NeuroClips 更好的语义对齐范式。在评估视频平滑度的 ST 级指标上,由于我们引入的模糊的粗略视频( Guidance),NeuroClips 远超 MinD-Video,重建视频更加流畅。

神经科学解释性

此外,为了探究神经层面的可解释性,本文在脑平面上可视化了体素级别的权重以观察整个大脑的关注度。可以观察到,任何任务视觉皮层都占据着重要的位置,以及 SR 和 PR 的不同权重。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
结论

本文创新性地提出了 NeuroClips,这是一种用于 fMRI-to-video 重建的新颖框架。通过感知重建和语义重建两条路径实现了体素级和语义级的 fMRI 视觉学习。我们可以在不进行额外训练的情况下将它们配置到最新的视频扩散模型中,以生成更高质量、更高帧率和更长的视频。NeuroClips 能够在语义级精度和像素级匹配程度上恢复视频,从而在该领域建立了新的最佳水平,我们还可视化了 NeuroClips 的神经科学可解释性。

以上就是NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频的详细内容,更多请关注其它相关文章!


# 这一  # 高端网站建设价钱  # 搜索引擎seo教材  # 武汉怎么推广网站赚钱的  # 万山特区营销推广  # 江苏建筑网站建设  # SEO系统原理  # 网站建设提成比例  # 黄骅网城网站建设宣传  # 济宁推广平台网站有哪些  # 金华网站建设批发  # 多个  # 进行了  # 工程  # 实现了  # 高质量  # 所示  # 模态  # 同济大学  # 提出了  # 所见  # type  # stable diffusion  # 邮箱  # ai  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  世界水下机器人大赛:9国青年携手逐梦深蓝  7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  从数据中心到发电站:人工智能对能源使用的影响  MiracleVision视觉大模型上线时间  机器人技能大比拼  此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处  PHP和OpenCV库:如何实现人脸识别  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  30+大模型齐聚,大模型成世界人工智能大会“顶流”  从谷歌到亚马逊,科技巨头们的AI痴迷  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  2025VR&AR显示技术峰会展示歌尔光学最新一代光学模组  社区里,孩子们体验“机器人竞技”  自动驾驶汽车避障、路径规划和控制技术详解  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  大疆 Air 3 无人机售价和实物照片曝光  报道称亚马逊正在测试AI生成产品评价摘要  优傲机器人的人机协作技术 助力中小企发展  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  黄仁勋:5年前,我们对AI抱有巨大期望  微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语  外科医生的智能助手,“机器人手术”得到补充商业医保覆盖  令人震惊的特斯拉机器人  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  丰田汽车研究院推出生成式人工智能汽车设计工具  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  机器人加速!稀土永磁也被带火,持续性如何?  谷歌内部正在测试代号为Genesis的AI新闻写作产品  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  自然语言生成在智能家居设备中的应用  Zoom远程会议应用:AI培训需经用户授权  小艺主导智慧交互升级,借助AI大模型增强能力  谷歌新安卓机器人logo曝光:头更大了  人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  田渊栋团队新研究:微调  2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  十个AI算法常用库J*a版  微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价  国家发改委组织工业机器人产业高质量发展现场会  美图发布国内首个“懂美学的”AI视觉大模型MiracleVision  张勇对话多位诺奖得主 人工智能将无处不在  中国最强AI研究院的大模型为何迟到了  CharacterAI - 也许会成为会话人工智能的未来 

 2024-11-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.