涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3d医学多模态大模型

作者 | 香港中文大学白帆

编辑 | ScienceAI

近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。

(2)M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决文本(疾病诊断、图像检索、视觉问答、报告生成等),定位(目标检测、视觉定位等)和分割(语义分割、指代分割、推理分割等)三类医学分析任务。

(3)M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。

我们最早于 2025 年 4 月发布了数据集、模型和代码。

近期,我们提供了更小和更强的 M3D-LaMed-Phi-3-4B 模型,并增加了线上 demo 供大家体验!

最新进展请关注 GitHub 库的更新 ,如果有任何疑问和建议可以及时联系,欢迎大家讨论和支持我们的工作。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

  • 论文链接:https://arxiv.org/abs/2404.00578
  • 代码:https://github.com/BAAI-DCAI/M3D
  • 模型:https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 数据集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 线上 Demo:https://baai.rpailab.xyz/

我们能为医学图像相关研究者提供什么?

  1. M3D-Data, 最大的 3D 医学多模态数据集;
  2. M3D-Seg,整合了几乎所有开源 3D 医学分割数据集,共计 25 个;
  3. M3D-LaMed, 支持文本、定位和分割的最多功能的 3D 医学多模态大模型,提供了简洁清晰的代码框架,研究者可以轻易魔改每个模块的设置;
  4. M3D-CLIP,基于 M3D-Cap 3D 图文对,我们训练了一个图文对比学习的 M3D-CLIP 模型,共提供其中的视觉预训练权重 3DViT;
  5. M3D-Bench,全面和清晰的测评方案和代码。
  6. 本文涉及的所有资源全部开放,希望能帮助研究者共同推进 3D 医学图像分析的发展。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

线上Demo视频。

医学图像分析对临床诊断和治疗至关重要,多模态大语言模型 (MLLM) 对此的支持日益增多。然而,先前的研究主要集中在 2D 医学图像上,尽管 3D 图像具有更丰富的空间信息,但对其的研究和探索还不够。

本文旨在利用 MLLM 推进 3D 医学图像分析。为此,我们提出了一个大规模 3D 多模态医学数据集 M3D-Data,其中包含 120K 个图像-文本对和 662K 个指令-响应对,专门针对各种 3D 医学任务量身定制,例如图文检索、报告生成、视觉问答、定位和分割。

此外,我们提出了 M3D-LaMed,这是一种用于 3D 医学图像分析的多功能多模态大语言模型。

我们还引入了一个新的 3D 多模态医学基准 M3D-Bench,它有助于在八个任务中进行自动评估。通过综合评估,我们的方法被证明是一种稳健的 3D 医学图像分析模型,其表现优于现有解决方案。所有代码、数据和模型均可在以下网址公开获取。

数据集

M3D-Data 共包括4个子数据集,分别为M3D-Cap(图文对), M3D-VQA(视觉问答对), M3D-RefSeg(推理分割)和 M3D-Seg(整合 25 个 3D 分割数据集)。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

数据集统计情况。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-VQA 数据集分布。其中问题类型主要包括平面、期相、器官、异常和定位五类常见的3D图像问题。

我们整合了几乎所有开源的 3D 医学分割数据集,组成了 M3D-Seg,共计 25 个。数据集可以被用来做语义分割、推理分割、指代分割和相应的检测定位任务。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-Seg。

模型

M3D-LaMed 模型结构如下图所示。(a)3D 图像编码器通过跨模态对比学习损失由图文数据进行预训练,可直接应用于图文检索任务。(b)在 M3D-LaMed 模型中,3D 医学图像被输入到预先训练的 3D 图像编码器和高效的 3D 空间池化感知器中,并将视觉 token 插入 LLM,输出的 [SEG] 作为 prompt 驱动分割模块。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-LaMed 模型结构。

实验

图文检索

在 3D 图文检索中,模型旨在根据相似性从数据集中匹配图像和文本,通常涉及两个任务:文本到图像检索 (TR) 和图像到文本检索 (IR)。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

由于缺乏合适的方法,我们将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索中,我们发现由于缺乏空间信息,几乎无法和 3D 图文检索模型对比。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

报告生成

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

在报告生成中,该模型根据从 3D 医学图像中提取的信息生成文本报告。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

封闭式视觉问答

在封闭式视觉问答中,需要为模型提供封闭的答案候选,例如 A,B,C,D,要求模型从候选中选出正确答案。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

我们发现在医学领域 M3D-LaMed 超过通用的 GPT-4V。

开放式视觉问答

在开放式视觉问答中,模型生成开放式的答案,不存在任何答案提示和候选。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

我们发现在医学领域 M3D-LaMed 超过通用的 GPT-4V。不过需注意目前GPT-4V 限制了医疗相关问题的回答。

定位

定位在视觉语言任务中至关重要,尤其是涉及输入和输出框的任务。在输出框的任务,如指代表达理解 (REC) ,旨在根据指代表达在图像中定位目标对象。相比之下,在输入框的任务,如指代表达生成 (REG) ,要求模型根据图像和位置框生成特定区域的描述。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

分割

分割任务在 3D 医学图像分析中至关重要,因为它具有识别和定位功能。为了解决各种文本提示,分割分为语义分割和指代表达分割。对于语义分割,该模型根据语义标签生成分割掩码。指代表达分割需要根据自然语言表达描述进行目标分割,需要模型具有一定的理解和推理的能力。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

分布外 (OOD) 问题的案例研究

我们在 OOD 对话中测试了 M3D-LaMed 模型,这意味着所有问题都与我们的训练数据不相关。我们发现 M3D-LaMed 具有很强的泛化能力,可以对 OOD 问题产生合理的答案,而不是胡言乱语。在每组对话中,左侧的头像和问题来自用户,右侧的头像和答案来自 M3D-LaMed。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

模型具有很强的推理能力和泛化能力。

我们最新训练的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表现,欢迎大家使用!GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

报告生成测评结果

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

封闭式 VQA 测评结果

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

在 TotalSegmentator 上测评的语义分割 Dice 结果

总结

我们 M3D 系列研究促进了使用 MLLM 进行 3D 医学图像分析。具体来说,我们构建了一个大规模 3D 多模态医学数据集 M3D-Data,其中包含 120K 3D 图像文本对和 662K 指令响应对,专为 3D 医学任务量身定制。此外,我们提出了 M3D-LaMed,这是一个通用模型,可处理图像文本检索、报告生成、视觉问答、定位和分割。此外,我们引入了一个综合基准 M3D-Bench,它是为八个任务精心设计的。

我们的方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。我们的数据、代码和模型将促进未来研究中对 3D 医学 MLLM 的进一步探索和应用。希望我们的工作能够为领域研究者带来帮助,欢迎大家使用和讨论。

以上就是涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型的详细内容,更多请关注其它相关文章!


# git  # 理论  # 线上  # 提出了  # 智源  # 多模  # 首个  # 多功能  # type  # fig  # hugging face  # seo材质用于什么  # 银川装饰网站建设  # 海东地区网站优化  # 日料居酒屋营销推广策略  # 新车型推广营销方案策划  # 网站推广外链  # 丽水关键词排名优化获客  # 在你的眼中seo是什么  # 赣州网站建设方式  # 巩义网站seo优化公司  # 语言表达  # 丰田  # 至关重要  # 欢迎大家 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 一文看懂基础模型的定义和工作原理  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  网易加速行业AI大模型应用,将覆盖100多个应用场景  人工智能快速发展 打开就业新空间  AIGC浪潮下,联想集团再加码计算与人工智能  学界业界大咖探讨:AI对数字艺术创新的推动力  AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能  Midjourney创始人:AI应该成为人类思想的延伸  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  微幼科技晨检机器人:幼儿园健康保障的新伙伴  AI智能室内效果图设计软件效果,确实惊到我了!  周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业  Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  当TS遇上AI,会发生什么?  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  亚马逊CEO:人工智能将成为公司未来战略的重中之重  1000万张照片训练AI模型 科学家找到水下定位新方法  视觉中国推出付费AI绘图功能:无版权可用  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  OpenAI首席执行官表态支持欧盟AI监管  AI大模型,将为智慧城市带来哪些新变化?  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  生成式AI对云运维的3大挑战  美图秀秀发布7款AI产品:支持用户创作、商业创作  微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  当一切设备都受到人工智能的控制  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  创新科学家成功研发FAST激光靶标维护机器人  谷歌新安卓机器人logo曝光:头更大了  干货满满,2025昆山元宇宙国际装备展等你来打卡!  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  智能化解决方案:保障数据安全阻击泄露和丢失  选对AI智能写作软件,让创作游刃有余!  大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  “痴迷”元宇宙,魔珐科技想做什么?  人工智能产业协同创新中心:全产业链资源在这里汇聚  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元 

 2024-06-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.