178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离


上海交大&上海ai lab发布178页gpt-4v医疗案例测评,首次全面揭秘gpt-4v医疗领域视觉性能。在大型基础模型的推动下,人工智能的发展近来取得了巨大进步,尤其是 openai 的 gpt-4,其在问答、知识方面展现出的强大能力点亮了 ai 领域的尤里卡时刻,引起了公众的普遍关注。gpt-4v (ision) 是 openai 最新的多模态基础模型。相较于 gpt-4,它增加了图像与语音的输入能力。该研究则旨在通过案例分析评估 gpt-4v (ision) 在多模态医疗诊断领域的性能,一共展现并分析共计了 128(92 个放射学评估案例,20 个病理学评估案例以及 16 个定位案例)个案例共计 277 张图像的 gpt-4v 问答实例(注:本文不会涉及案例展示,请参阅原论文查看具体的案例展示与分析)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

178页,128个案例,gpt-4v医疗领域全面测评,离临床应用与实际决策尚有距离

GPT-4V 医学图像评估

ArXiv 链接:https://arxiv.org/abs/2310.09909

百度云下载地址:https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2

Google Drive 下载地址:https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

评估能力:

  1. 图像模态和成像位置识别:识别 X 射线、CT、核磁共振成像、超声波和病理图像,以及定位成像位置。
  2. 解剖结构定位:精确定位图像中的特定解剖结构。
  3. 异常检测和定位:检测和定位肿瘤、骨折或感染等异常。
  4. 多图像综合诊断:结合不同成像模态或视图的信息进行诊断。
  5. 医疗报告撰写:描述异常情况和相关的正常结果。
  6. 患者病史整合:在图像解读中考虑患者的基本信息和病史。
  7. 多轮交互中的一致性和记忆性:保持对数据认知的连续性。

评估系统:

  • 中枢神经系统
  • 头颈部
  • 心脏
  • 胸部
  • 血液
  • 肝胆
  • 肛肠
  • 泌尿
  • 妇科
  • 产科
  • 乳腺科
  • 肌肉骨骼科
  • 脊柱科
  • 血管科
  • 肿瘤科
  • 创伤科
  • 儿科

图像模态:

  • X 光
  • 计算机断层扫描 (CT)
  • 磁共振成像 (MRI)
  • 正电子发射断层扫描 (PET)
  • 数字减影血管造影 (DSA)
  • 乳房 X 射线照相术
  • 超声波检查
  • 病理学检查

    178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离

    码上飞 码上飞

    码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

    码上飞 430 查看详情 码上飞 测试案例挑选

原论文的放射学问答来自于 Radiopaedia,图像直接从网页下载,定位案例来自于多个医学公开分割数据集,病理图像则来自于 PathologyOutlines 。在挑选案例时作者们全面的考虑了如下方面:

  1. 公布时间:考虑到 GPT-4V 的训练数据极有可能异常庞大,为了避免所选到的测试案例出现在训练集中,作者只选用了 2025 年发布的最新案例。
  2. 标注可信度:医疗诊断本身具有争议和模糊性,作者根据 Radiopaedia 提供的案例完成度,尽量选用完成度大于 90% 的案例来保证标注或诊断的可信程度。
  3. 图像模态多样性:在选取案例时,作者尽可能地展示 GPT-4V 对于多种成像模态的响应情况。

在图像处理时作者也做了如下规范化以保证输入图像的质量:

  1. 多图选择:考虑到 GPT-4V 支持的最大图像输入上限为 4,但部分案例会有超过 4 张的相关图像,首先作者在选取案例时会尽可能避免这种情况,其次在不可避免地遇到这种案例时,作者会根据 Radiopaedia 提供的案例注释挑选最相关的图像。
  2. 截面选择:大量的放射图像数据为 3D(连续多帧二维图像)形式,无法直接输入 GPT-4V,必须挑选一个最有代表性的截面代替完整的 3D 图像输入 GPT-4V。根据 Radiopaedia 的案例上传规范,放射医生在上传 3D 图像时被要求选择一个最相关的截面。作者们利用了这一点,选用了 Radiopaedia 推荐的轴截面替代 3D 数据进行输入。
  3. 图像标准化:医疗图像的标准化设计窗宽窗位的选择,不同的视窗会突出不同的组织,作者们使用的 Radiopaedio 案例上传时放射专家所选择的窗宽窗位输入图像。对于分割数据集而言,原论文则采用了 [-300,300] 的视窗,并作 0-1 的案例级的归一化。

原论文的测试均使用了 GPT-4V 的网页版,第一轮问答用户会输入图像,然后展开多轮的问答。为了避免上下文的互相影响,对于每次新的案例,都会新建一个问答窗口进行问答。

178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离

GPT-4V 问答案例,图中红色代表错误,黄色代表不确定,绿色代表正确,Reference 中的颜色则代表对应判断的依据,未标记颜色的句子需要读者自行判断正确性,更多案例以及案例分析请参考原论文
在病理评估中,所有图像都会进行两轮对话。
  1. 第一轮询问能否仅根据输入图像生成报告。
  2. 这一轮的目的是评估 GPT-4V 能否在不提供任何相关医疗提示的情况下识别图像模态和组织来源。
  3. 在第二轮中,用户会提供正确的组织来源,并询问 GPT-4V 是否能根据病理图像及其组织来源信息做出诊断,希望 GPT-4V 能修改报告并提供明确的诊断结果。

    178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离

    病理图像案例展示

定位评估

  1. 目标识别: 确定图像中是否存在目标。
  2. 边界框生成: 为目标生成边界框坐标,其中左上角为 (0, 0),右下角为 (w, h)。
  3. IOU 计算: 计算预测边界框与真实边界框之间的交并比 (IOU)。
  4. 上限性能: 选择具有最高 IOU 分数的预测边界框。
  5. 平均性能: 计算平均边界框的 IOU 分数。

    178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离

    测评中的局限性
    当然原作者也提到了一些测评中的不足与限制:
  6. 只能进行定性而非定量的评估
    鉴于 GPT-4V 只提供在线网页界面,只能手动上传测试用例,导致原评估报告在可扩展性方面受到限制,因此只能提供定性评估。
  7. 样本偏差
    所选样本均来自在线网站,可能无法反映日常门诊中的数据分布情况。尤其是大多数评估病例都是异常病例,这可能会给评估带来潜在偏差。
  8. 注释或参考答案并不完整
    从 Radiopaedia 或者 PathologyOutlines 网站上获得的参考描述大多没有结构,也没有标准化的放射学 / 病理学报告格式。特别是,这些报告中的大部分主要侧重于描述异常情况,而不是对病例进行全面描述,并不能直接作为完美的回复简单对比。
  9. 只有二维切片输入
    在实际临床环境中,包括 CT、MRI 扫描在内的放射图像通常采用 3D DICOM 格式。然而,GPT-4V 最多只能支持四张二维图像的输入,所以原文在测评时只能输入二维关键切片或小片段(用于病理学)。
    总之,尽管评估可能并不彻底详尽,但原作者们相信,这一分析仍旧可以为研究人员和医学专业人员提供了宝贵的见解,它揭示了多模态基础模型的当前能力,并可能激励未来建立医学基础模型的工作。
    重要观察结果
    原测评报告根据测评案例,概括了多个观察到的 GPT-4V 的表现特点:
    放射案例部分
    作者们根据 92 个放射学评估案例和 20 个定位案例得出如下观察结果:
  10. GPT-4V 可以辨识出医疗图像的模态以及成像位置
    对于大多数图像内容的模态识别、成像部位判定以及图像平面类别判定等任务,GPT4-V 都表现出了良好的处理能力。例如,作者们指出 GPT-4V 能很容易区分核磁共振、CT、X 光等各种模态;判断图像所描述的人体具体部位;判断出核磁共振图像的轴位、失状位和冠状位等。
  11. GPT-4V 几乎无法做出精确的诊断
    作者们发现:一方面,OpenAI 似乎设置了安全机制,严格限制了 GPT-4V 做出直接诊断;另一方面,除了针对非常明显的诊断案例,GPT-4V 的分析能力较差,仅局限于列举出可能存在的一系列疾病,而不能给出较为精确的诊断。
  12. GPT-4V 可以生成出结构化的报告,但是内容大部分并不正确
    GPT-4V 在绝大多数情况下都能生成较为标准的报告,但作者们认为,相比于整合程度更高且内容更灵活的手写报告,在针对多模态或多帧图像时,它更倾向于逐图描述且缺乏综合能力。因此内容大部分参考价值较小且缺乏准确性。
  13. GPT-4V 可以辨识出医学图像中的标记以及文本注释,但并不能理解其出现在图像中的意义
    GPT-4V 展现出较强的文本识别、标记识别等能力,并且会尝试利用这些标记进行分析。但作者们认为,其局限性在于:其一,GPT-4V 总是会过度利用文本和标记且图像本身成为次要参考对象;其二,它鲁棒性较低,常常会误解图像中的医学注释和引导。
  14. GPT-4V 可以辨识出医疗植入器械以及它们在图像中的位置
    在大多数案例中,GPT4-V 都能正确识别到植入人体的医疗设备,并较为准确地定位它们的位置。并且作者们发现,甚至在一些较为困难的案例中,可能出现诊断错误,但判断医疗设备识别正确的情况。
  15. GPT-4V 面对多图输入时会遇到分析障碍
    作者们发现,在面对同一模态的不同视角下的图像时,GPT-4V 尽管会展现出相比于进输入单张图的更好的分析能力,但仍然倾向于分别对每张视图进行单独的分析;而在面对不同模态的图像混合输入时,GPT-4V 更难得出综合了不同模态信息的合理分析。
  16. GPT-4V 的预测极易受到患者疾病史的引导
    作者们发现是否提供患者疾病史会对 GPT-4V 的回答产生较大影响。在提供疾病史的情况下,GPT-4V 常常会将其作为关键点,对图中的潜在异常做出推断;而在不提供疾病史的情况下,GPT-4V 则会更倾向于将图像作为正常案例进行分析。
  17. GPT-4V 并不能在医学图像中定位到解剖结构和异常
    作者们认为 GPT-4V 定位效果较差主要表现为:其一,GPT-4V 在定位过程中总是会得到远离真实边界的预测框;其二,它在对同一幅图的多轮重复预测中表现出显著的随机性;其三,GPT-4V 显示出了明显的偏置性,例如:脑部 MRI 图像中小脑一定位于底部。
  18. GPT-4V 可以根据用户的多轮交互,改变它的既有回答。
    GPT-4V 可以在一系列的互动中修改其响应,使之正确。例如,在文中所示的例子中,作者们输入了子宫内膜异位症的 MRI 图像。GPT-4V 最初错误地将盆腔 MRI 分类为膝关节 MRI,从而得到了一个不正确的输出。但用户通过与 GPT-4V 的多轮互动对其进行纠正,最终做出了准确的诊断。
  19. GPT-4V 幻觉问题严重,尤其倾向将患者叙述为正常即使异常信号极为显著。
    GPT-4V 总是生成出结构上看上去非常完整详实的报告,但其中的内容却并不正确,很多时候即使图像异常区域明显它仍旧会认为患者正常。
  20. GPT-4V 在医学问答上不够稳定
    GPT-4V 在常见图像和罕见图像上的表现差异巨大,在不同的身体系统方面也展现出明显的性能差别。另外,对同一医学图像的分析可能会因更改 prompt 而产生不一致的结果,例如,如,GPT-4V 在 “ What is the diagnosis for this brain CT?” 的 prompt 下最初判断给定的图像为异常,但后来它生成了一个认为同一图像为正常的报告。这种不一致性强调了 GPT-4V 在临床诊断中的性能可能是不稳定和不可靠的。
  21. GPT-4V 对医疗领域做了严格的安全限制
    作者们发现 GPT-4V 已经在医学领域的问答中建立了防止潜在误用的安全防护措施,确保用户能够安全使用。例如,当 GPT-4V 被要求做出诊断时,"Please provide the diagnosis for this chest X-ray.",它可能会拒绝给出答案,或强调 “我不是专业医学建议的替代品”。在多数情况下,GPT-4V 会倾向于使用包含 “appears to be” 或 “could be” 之类的短语来表示不确定性。
    病理案例部分
    此外,作者们为了探索 GPT-4V 在病理图像的报告生成和医学诊断方面的能力,对来自不同组织的 20 种恶性肿瘤病理图像开展了图像块级别的测试,并得出以下结论:
  22. GPT-4V 能够进行准确的模态识别
    在所有测试案例中,GPT-4V 都可以正确地识别所有病理图像(H&E 染色的组织病理图像)的模态。
  23. GPT-4V 能够生成结构化报告
    给定一个没有任何医学提示的病理图像,GPT-4V 可以生成一个结构化且详细的报告来描述图像特征。在 20 个案例中,有 7 个案例能够使用如 “组织结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核” 等术语明确地列出了其观察结果,甚至可以正确地

以上就是178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离的详细内容,更多请关注其它相关文章!


# 多模  # 学习seo好做吗  # 移动互联网网站建设  # 门窗网站推广联系方式  # 无锡网站制作优化推广  # 怎样学习seo技术  # 给企业做营销推广  # seo网站软文  # 网站注册推广任务  # 山西推广品牌营销  # seo2的状态  # 上传  # 工程  # 多图  # 来自于  # 倾向于  # 情况下  # 出了  # 临床应用  # 尚有  # 模态  # 多模态医疗诊断  # gpt-4v 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI和ML推动联网设备的增长  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  软通动力天枢元宇宙研究院签约落户江宁高新区  脑机接口产业联盟发布十大脑机接口关键技术  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  华为发布大模型时代AI存储新品  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  “上海市民营企业人工智能赋能创新中心”揭牌成立  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  「社交达人」GPT-4!解读表情、揣测心理全都会  VMS的应用:提升多品牌设备管理效能  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  Bing 聊天机器人现支持在桌面端用语音提问  跑不动的元宇宙,虚拟世界比现实更冷酷  热点 | 人工智能黄金时代开启  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  在心理治疗中用VR技术,治疗成效显著提高  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  V社悄悄封禁使用AI生成美术素材的游戏  微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  调研海尔智家:AI名,家电命?  人工智能自己玩自己  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  探索人工智能和物联网的动态融合  2025世界人工智能大会成功召开  世界水下机器人大赛:9国青年携手逐梦深蓝  如何对员工进行再培训以充分利用供应链管理中的人工智能创新  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  让AI助手带您轻松愉快地享受写作之旅  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  字节、网易相继入局,AI之后大厂又找到下一个风口?  生成式AI对云运维的3大挑战  靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  人工智能如何用于家庭安全  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》  智能机器人正在彻底改变客户服务  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异 

 2024-07-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.