178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离
上海交大&上海ai lab发布178页gpt-4v医疗案例测评,首次全面揭秘gpt-4v医疗领域视觉性能。在大型基础模型的推动下,人工智能的发展近来取得了巨大进步,尤其是 openai 的 gpt-4,其在问答、知识方面展现出的强大能力点亮了 ai 领域的尤里卡时刻,引起了公众的普遍关注。gpt-4v (ision) 是 openai 最新的多模态基础模型。相较于 gpt-4,它增加了图像与语音的输入能力。该研究则旨在通过案例分析评估 gpt-4v (ision) 在多模态医疗诊断领域的性能,一共展现并分析共计了 128(92 个放射学评估案例,20 个病理学评估案例以及 16 个定位案例)个案例共计 277 张图像的 gpt-4v 问答实例(注:本文不会涉及案例展示,请参阅原论文查看具体的案例展示与分析)。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4V 医学图像评估
ArXiv 链接:https://arxiv.org/abs/2310.09909
百度云下载地址:https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2
Google Drive 下载地址:https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing
评估能力:
- 图像模态和成像位置识别:识别 X 射线、CT、核磁共振成像、超声波和病理图像,以及定位成像位置。
- 解剖结构定位:精确定位图像中的特定解剖结构。
- 异常检测和定位:检测和定位肿瘤、骨折或感染等异常。
- 多图像综合诊断:结合不同成像模态或视图的信息进行诊断。
- 医疗报告撰写:描述异常情况和相关的正常结果。
- 患者病史整合:在图像解读中考虑患者的基本信息和病史。
- 多轮交互中的一致性和记忆性:保持对数据认知的连续性。
评估系统:
- 中枢神经系统
- 头颈部
- 心脏
- 胸部
- 血液
- 肝胆
- 肛肠
- 泌尿
- 妇科
- 产科
- 乳腺科
- 肌肉骨骼科
- 脊柱科
- 血管科
- 肿瘤科
- 创伤科
- 儿科
图像模态:
原论文的放射学问答来自于 Radiopaedia,图像直接从网页下载,定位案例来自于多个医学公开分割数据集,病理图像则来自于 PathologyOutlines 。在挑选案例时作者们全面的考虑了如下方面:
- 公布时间:考虑到 GPT-4V 的训练数据极有可能异常庞大,为了避免所选到的测试案例出现在训练集中,作者只选用了 2025 年发布的最新案例。
- 标注可信度:医疗诊断本身具有争议和模糊性,作者根据 Radiopaedia 提供的案例完成度,尽量选用完成度大于 90% 的案例来保证标注或诊断的可信程度。
- 图像模态多样性:在选取案例时,作者尽可能地展示 GPT-4V 对于多种成像模态的响应情况。
在图像处理时作者也做了如下规范化以保证输入图像的质量:
- 多图选择:考虑到 GPT-4V 支持的最大图像输入上限为 4,但部分案例会有超过 4 张的相关图像,首先作者在选取案例时会尽可能避免这种情况,其次在不可避免地遇到这种案例时,作者会根据 Radiopaedia 提供的案例注释挑选最相关的图像。
- 截面选择:大量的放射图像数据为 3D(连续多帧二维图像)形式,无法直接输入 GPT-4V,必须挑选一个最有代表性的截面代替完整的 3D 图像输入 GPT-4V。根据 Radiopaedia 的案例上传规范,放射医生在上传 3D 图像时被要求选择一个最相关的截面。作者们利用了这一点,选用了 Radiopaedia 推荐的轴截面替代 3D 数据进行输入。
- 图像标准化:医疗图像的标准化设计窗宽窗位的选择,不同的视窗会突出不同的组织,作者们使用的 Radiopaedio 案例上传时放射专家所选择的窗宽窗位输入图像。对于分割数据集而言,原论文则采用了 [-300,300] 的视窗,并作 0-1 的案例级的归一化。
原论文的测试均使用了 GPT-4V 的网页版,第一轮问答用户会输入图像,然后展开多轮的问答。为了避免上下文的互相影响,对于每次新的案例,都会新建一个问答窗口进行问答。

GPT-4V 问答案例,图中红色代表错误,黄色代表不确定,绿色代表正确,Reference 中的颜色则代表对应判断的依据,未标记颜色的句子需要读者自行判断正确性,更多案例以及案例分析请参考原论文
在病理评估中,所有图像都会进行两轮对话。
- 第一轮询问能否仅根据输入图像生成报告。
- 这一轮的目的是评估 GPT-4V 能否在不提供任何相关医疗提示的情况下识别图像模态和组织来源。
- 在第二轮中,用户会提供正确的组织来源,并询问 GPT-4V 是否能根据病理图像及其组织来源信息做出诊断,希望 GPT-4V 能修改报告并提供明确的诊断结果。

病理图像案例展示
定位评估
-
目标识别: 确定图像中是否存在目标。
-
边界框生成: 为目标生成边界框坐标,其中左上角为 (0, 0),右下角为
(w, h)。
-
IOU 计算: 计算预测边界框与真实边界框之间的交并比 (IOU)。
-
上限性能: 选择具有最高 IOU 分数的预测边界框。
-
平均性能: 计算平均边界框的 IOU 分数。

测评中的局限性
当然原作者也提到了一些测评中的不足与限制:
- 只能进行定性而非定量的评估
鉴于 GPT-4V 只提供在线网页界面,只能手动上传测试用例,导致原评估报告在可扩展性方面受到限制,因此只能提供定性评估。
- 样本偏差
所选样本均来自在线网站,可能无法反映日常门诊中的数据分布情况。尤其是大多数评估病例都是异常病例,这可能会给评估带来潜在偏差。
- 注释或参考答案并不完整
从 Radiopaedia 或者 PathologyOutlines 网站上获得的参考描述大多没有结构,也没有标准化的放射学 / 病理学报告格式。特别是,这些报告中的大部分主要侧重于描述异常情况,而不是对病例进行全面描述,并不能直接作为完美的回复简单对比。
- 只有二维切片输入
在实际临床环境中,包括 CT、MRI 扫描在内的放射图像通常采用 3D DICOM 格式。然而,GPT-4V 最多只能支持四张二维图像的输入,所以原文在测评时只能输入二维关键切片或小片段(用于病理学)。
总之,尽管评估可能并不彻底详尽,但原作者们相信,这一分析仍旧可以为研究人员和医学专业人员提供了宝贵的见解,它揭示了多模态基础模型的当前能力,并可能激励未来建立医学基础模型的工作。
重要观察结果
原测评报告根据测评案例,概括了多个观察到的 GPT-4V 的表现特点:
放射案例部分
作者们根据 92 个放射学评估案例和 20 个定位案例得出如下观察结果:
- GPT-4V 可以辨识出医疗图像的模态以及成像位置
对于大多数图像内容的模态识别、成像部位判定以及图像平面类别判定等任务,GPT4-V 都表现出了良好的处理能力。例如,作者们指出 GPT-4V 能很容易区分核磁共振、CT、X 光等各种模态;判断图像所描述的人体具体部位;判断出核磁共振图像的轴位、失状位和冠状位等。
- GPT-4V 几乎无法做出精确的诊断
作者们发现:一方面,OpenAI 似乎设置了安全机制,严格限制了 GPT-4V 做出直接诊断;另一方面,除了针对非常明显的诊断案例,GPT-4V 的分析能力较差,仅局限于列举出可能存在的一系列疾病,而不能给出较为精确的诊断。
- GPT-4V 可以生成出结构化的报告,但是内容大部分并不正确
GPT-4V 在绝大多数情况下都能生成较为标准的报告,但作者们认为,相比于整合程度更高且内容更灵活的手写报告,在针对多模态或多帧图像时,它更倾向于逐图描述且缺乏综合能力。因此内容大部分参考价值较小且缺乏准确性。
- GPT-4V 可以辨识出医学图像中的标记以及文本注释,但并不能理解其出现在图像中的意义
GPT-4V 展现出较强的文本识别、标记识别等能力,并且会尝试利用这些标记进行分析。但作者们认为,其局限性在于:其一,GPT-4V 总是会过度利用文本和标记且图像本身成为次要参考对象;其二,它鲁棒性较低,常常会误解图像中的医学注释和引导。
- GPT-4V 可以辨识出医疗植入器械以及它们在图像中的位置
在大多数案例中,GPT4-V 都能正确识别到植入人体的医疗设备,并较为准确地定位它们的位置。并且作者们发现,甚至在一些较为困难的案例中,可能出现诊断错误,但判断医疗设备识别正确的情况。
- GPT-4V 面对多图输入时会遇到分析障碍
作者们发现,在面对同一模态的不同视角下的图像时,GPT-4V 尽管会展现出相比于进输入单张图的更好的分析能力,但仍然倾向于分别对每张视图进行单独的分析;而在面对不同模态的图像混合输入时,GPT-4V 更难得出综合了不同模态信息的合理分析。
- GPT-4V 的预测极易受到患者疾病史的引导
作者们发现是否提供患者疾病史会对 GPT-4V 的回答产生较大影响。在提供疾病史的情况下,GPT-4V 常常会将其作为关键点,对图中的潜在异常做出推断;而在不提供疾病史的情况下,GPT-4V 则会更倾向于将图像作为正常案例进行分析。
- GPT-4V 并不能在医学图像中定位到解剖结构和异常
作者们认为 GPT-4V 定位效果较差主要表现为:其一,GPT-4V 在定位过程中总是会得到远离真实边界的预测框;其二,它在对同一幅图的多轮重复预测中表现出显著的随机性;其三,GPT-4V 显示出了明显的偏置性,例如:脑部 MRI 图像中小脑一定位于底部。
- GPT-4V 可以根据用户的多轮交互,改变它的既有回答。
GPT-4V 可以在一系列的互动中修改其响应,使之正确。例如,在文中所示的例子中,作者们输入了子宫内膜异位症的 MRI 图像。GPT-4V 最初错误地将盆腔 MRI 分类为膝关节 MRI,从而得到了一个不正确的输出。但用户通过与 GPT-4V 的多轮互动对其进行纠正,最终做出了准确的诊断。
- GPT-4V 幻觉问题严重,尤其倾向将患者叙述为正常即使异常信号极为显著。
GPT-4V 总是生成出结构上看上去非常完整详实的报告,但其中的内容却并不正确,很多时候即使图像异常区域明显它仍旧会认为患者正常。
- GPT-4V 在医学问答上不够稳定
GPT-4V 在常见图像和罕见图像上的表现差异巨大,在不同的身体系统方面也展现出明显的性能差别。另外,对同一医学图像的分析可能会因更改 prompt 而产生不一致的结果,例如,如,GPT-4V 在 “ What is the diagnosis for this brain CT?” 的 prompt 下最初判断给定的图像为异常,但后来它生成了一个认为同一图像为正常的报告。这种不一致性强调了 GPT-4V 在临床诊断中的性能可能是不稳定和不可靠的。
- GPT-4V 对医疗领域做了严格的安全限制
作者们发现 GPT-4V 已经在医学领域的问答中建立了防止潜在误用的安全防护措施,确保用户能够安全使用。例如,当 GPT-4V 被要求做出诊断时,"Please provide the diagnosis for this chest X-ray.",它可能会拒绝给出答案,或强调 “我不是专业医学建议的替代品”。在多数情况下,GPT-4V 会倾向于使用包含 “appears to be” 或 “could be” 之类的短语来表示不确定性。
病理案例部分
此外,作者们为了探索 GPT-4V 在病理图像的报告生成和医学诊断方面的能力,对来自不同组织的 20 种恶性肿瘤病理图像开展了图像块级别的测试,并得出以下结论:
- GPT-4V 能够进行准确的模态识别
在所有测试案例中,GPT-4V 都可以正确地识别所有病理图像(H&E 染色的组织病理图像)的模态。
- GPT-4V 能够生成结构化报告
给定一个没有任何医学提示的病理图像,GPT-4V 可以生成一个结构化且详细的报告来描述图像特征。在 20 个案例中,有 7 个案例能够使用如 “组织结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核” 等术语明确地列出了其观察结果,甚至可以正确地
以上就是178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离的详细内容,更多请关注其它相关文章!
# 多模
# 学习seo好做吗
# 移动互联网网站建设
# 门窗网站推广联系方式
# 无锡网站制作优化推广
# 怎样学习seo技术
# 给企业做营销推广
# seo网站软文
# 网站注册推广任务
# 山西推广品牌营销
# seo2的状态
# 上传
# 工程
# 多图
# 来自于
# 倾向于
# 情况下
# 出了
# 临床应用
# 尚有
# 模态
# 多模态医疗诊断
# gpt-4v
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
AI和ML推动联网设备的增长
讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点
软通动力天枢元宇宙研究院签约落户江宁高新区
脑机接口产业联盟发布十大脑机接口关键技术
普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景
PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图
华为发布大模型时代AI存储新品
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会
“上海市民营企业人工智能赋能创新中心”揭牌成立
腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能
「社交达人」GPT-4!解读表情、揣测心理全都会
VMS的应用:提升多品牌设备管理效能
Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光
Bing 聊天机器人现支持在桌面端用语音提问
跑不动的元宇宙,虚拟世界比现实更冷酷
热点 | 人工智能黄金时代开启
AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!
在心理治疗中用VR技术,治疗成效显著提高
人工智能大胆预测:银河系至少有2万个地球,36种外星文明
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
V社悄悄封禁使用AI生成美术素材的游戏
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
调研海尔智家:AI名,家电命?
人工智能自己玩自己
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系
鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代
探索人工智能和物联网的动态融合
2025世界人工智能大会成功召开
世界水下机器人大赛:9国青年携手逐梦深蓝
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行
让AI助手带您轻松愉快地享受写作之旅
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
字节、网易相继入局,AI之后大厂又找到下一个风口?
生成式AI对云运维的3大挑战
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
人工智能如何用于家庭安全
以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%
第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》
智能机器人正在彻底改变客户服务
谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
2024-07-11