OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试


分布外(OOD)检测对于开放世界智能系统的可靠运行至关重要,但目前面向对象的检测方法存在「评估不一致」(evaluation inconsistencies)的问题。

之前的工作OpenOOD v1统一了OOD检测的评估,但在可扩展性和可用性方面仍然存在限制。

最近开发团队再次提出OpenOOD v1.5,相比上一版本,新的OOD检测方法评估在确保准确、标准化和用户友好等方面得到显著提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试图片

paper: https://arxiv.org/abs/2306.09301

OpenOOD Codebase: https://github.com/Jingkang50/OpenOOD

OpenOOD Leaderboard: https://zjysteven.github.io/OpenOOD/

值得注意的是,OpenOOD v1.5将其评估功能扩展到ImageNet等大规模数据集,研究了重要但尚未开发的全谱OOD检测,并引入了新功能,包括在线排行榜和易于使用的评估器。

这项工作也有助于深入的分析和见解来自全面的实验结果,从而丰富了知识库的OOD检测方法。

通过这些增强,OpenOOD v1.5旨在推动OOD研究的进展,并为OOD检测研究提供更强大和更全面的评估基准。

研究背景

对于训练好的图像分类器,能让其可靠地在开放世界中工作的一个关键能力便是检测未知的、分布外的(out-of-distribution, OOD)样本。

例如我们利用一组猫狗照片训练出了一个猫狗分类器。对于分布内的(in-distribution, ID)样本,也就是这里的猫、狗图片,我们自然期待分类器能够准确地将它们识别到相应的类别中去。

而对于分布外的OOD样本,也就是除了猫狗之外的任何图片(例如飞机、水果等等),我们希望模型能够检测出它们是未知的、新颖的物体/概念,因而无法将它们判别到分布内的猫或狗任何一类中。

这个问题便是分布外检测(OOD detection),其近年来吸引了广泛的关注,新工作层出不穷。然而领域快速扩张的同时,追踪、衡量领域的发展现状却由于种种原因成了一件难事。

原因1:不一致的测试OOD数据集。

深度学习各个任务的快速发展都离不开统一的测试数据集(就像图像分类有CIFAR,ImageNet,物体检测有PASCAL VOC,COCO)。

然而不幸的是OOD检测领域一直以来都缺乏统一的、被广泛采用的OOD数据集。这就造成了在上图中,当我们回看已有工作的实验设定时,会发现所用的OOD数据十分不一致(例如对于CIFAR-10是ID数据的情况,有些工作使用MNIST,SVHN作为OOD,有些工作使用CIFAR-100,Tiny ImageNet作为OOD)。在这样的情况下,直接公平地比较全部方法面临巨大困难。

原因2:令人困惑的术语。

除了OOD检测外,另外一些术语比如“开集识别”(Open-Set Recognition, OSR),“新类检测”(Novelty Detection)也常常出现在文献中。

它们本质上都在关注同一个问题,仅在一些实验设定的细节上有着微小差别。然而不同的术语会导致方法之间形成不必要的分支,例如OOD检测和OSR就曾经被当作是两个独立的任务,而不同分支之间的方法(尽管在解决同一个问题)也很少被放在一起比较。

原因3:错误的操作。

在许多工作中,研究者们往往直接使用OOD测试集中的样本来调参甚至训练模型。这样的操作会对方法的OOD检测能力做出高估。

以上的问题显然是对领域的有序发展不利的,我们迫切需要一个统一的基准和平台来测试评估现有以及未来的OOD检测方法。

OpenOOD 在这样的挑战下应运而生。其第一版迈出了重要的一步,然而有着规模小、可用性有待提升的问题。

因此在OpenOOD全新版本v1.5中,我们进一步做了加强和升级,试图打造一个全面、准确、易用的测试平台供广大研究者使用。

总结来看,OpenOOD有着如下重要的特性和贡献:

1. 庞大、模块化的代码库。

该代码库将模型结构、数据预处理、后处理器、训练、测试等等进行了解藕及模块化,方便复用以及开发。目前OpenOOD实现了近40种最先进的针对图像分类任务的OOD检测方法。

OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试图片

2. 可一键测试的评估器。

如上图所示,仅用几行代码,OpenOOD的评估器就可以在指定的ID数据集上给出所提供的分类器、后处理器的OOD检测测试结果。

相应的OOD数据是由评估器内部所确定并提供的,这保证了测试的一致性和公平性。该评估器也同时支持标准OOD检测(standard OOD detection)和全谱OOD检测(full-spectrum OOD detection)两种场景(后文会有更多介绍)。

3. 在线排行榜。

利用OpenOOD,我们在CIFAR-10,CIFAR-100, ImageNet-200,ImageNet-1K四个ID数据集上比较了近40种OOD检测方法的性能,并将结果制作成了公开排行榜。希望能够帮助大家随时了解领域内最有效、最有潜力的方法。

4. 实验结果中的新发现。

根据OpenOOD全面的实验结果,我们在论文中提供了许多新发现。例如,尽管看起来与OOD检测关系不大,但数据增强(data augmentation)实际上能有效提升OOD检测的性能,且这方面提升与具体OOD检测手段带来的提升是正交、互补的。

另外,我们发现已有方法在全谱OOD检测上的表现并不尽如人意,这也将是未来领域内一个重要的待解决问题。

问题描述

这一部分会简略、通俗地描述标准与全谱OOD检测的目标。对于更详细、正式的描述,欢迎大家阅读我们的论文。

OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试图片

首先讨论一些背景。在我们所考虑的图像分类场景下,分布内(ID)数据是由相应的分类任务所定义的。例如对于CIFAR-10分类,ID分布就对应着它的10个语义类别。

OOD的概念是相对于ID形成的:ID语义类别之外的、与ID类别不同的任何语义类别所对应的图片都是分布外OOD图片。与此同时,我们需要讨论如下两种类型的分布偏移(distributional shift)。

Semantic Shift:深层语义层面上的分布变化,对应上图横轴。例如训练时语义类别是猫、狗,测试时语义类别是飞机、水果。

Covariate Shift:表层统计层面上的分布变化(而语义不变),对应上图纵轴。例如训练时是猫、狗的干净自然照片,测试时是加了噪声或手绘的猫、狗图片。

有了上述背景,再结合上图就可以很好理解标准以及全谱OOD检测。

标准OOD检测

目标(1):在ID分布上训练一个分类器,使其能够准确对ID数据进行分类。这里假设测试ID数据与训练ID数据不存在covariate shift。

目标(2):基于训练好的分类器,设计OOD检测方法使其能够对任意样本进行ID/OOD的二分类区分。在上图中对应的是将(a)和(c) + (d)区分开来。

全谱OOD检测

目标(1):与标准OOD检测类似,但区别在于考虑了covariate shift,也就是无论测试ID图片相比训练图片是否有covariate shift,分类器都需要精准分类到相应的ID类别中(例如猫狗分类器不仅应该准确分类“干净”猫狗图片,还应当能泛化到带噪、模糊的猫狗图片上)。

目标(2):同样考虑covariate-shifted ID样本,需要将其与正常(没有covariate shift)的ID样本一同与OOD样本判别开来。对应上图中区分(a) + (b)和(c) + (d)。

为什么全谱OOD检测很重要?

熟悉的小伙伴可能已经发现,全谱OOD检测中的目标(1)实际上对应着另一个很重要的研究课题——分布外泛化(OOD generalization)。

需要澄清一下,OOD泛化中的OOD指的是存在covariate shift的样本,而OOD检测中的OOD指的是存在semantic shift的样本。

这两种偏移(shift)都是现实世界中十分常见的,然而现有的OOD 泛化和标准OOD检测都仅仅只考虑了其中一种而忽略了另一种。

与之相反,全谱OOD检测在同一场景下将两种偏移自然地考虑在了一起,更准确地反映了我们对于一个理想分类器在开放世界中表现的预期。

实验结果及新发现

在1.5版本中,OpenOOD对近40种方法在6个基准(benchmark)数据集(4个针对标准OOD检测,2个针对全谱OOD检测)上做了统一、全面的测试。

论文中对所实现的方法及数据集都进行了描述,欢迎大家查阅。全部实验也都可以在OpenOOD的代码库中复现。这里我们直接讨论从对比结果中得到的发现。

OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试图片

发现1:没有赢家通吃(no single winner)。

在上表中,不难发现并没有任何一个方法能够在全部基准数据集上持续地给出突出表现。

例如后处理的方法(post-hoc inference methods)ReAct和ASH在大数据集ImageNet上表现优异,但在CIFAR上相比其他方法并没有优势。

与之相反,一些在训练中加入约束的方法(training methods),例如RotPred和LogitNorm,在小数据集上要优于后处理方法,但在ImageNet上并不突出。

发现2:数据增强有效(data augmentations help)。

如上表所示,尽管数据增强并不是专门为OOD检测所设计的,但它们却能有效提升OOD检测的表现。更令人惊喜的是,数据增强带来的提升与具体OOD后处理方法带来的提升是互相放大的。

这里以AugMix为例,当它与最简单的MSP后处理器结合时,在ImageNet-1K near-OOD检测率上达到了77.49%,仅比不适用数据增强的交叉熵损失(corss-entropy loss)训练的检测率77.38%高1.47%。

然而当AugMix与更先进的ASH后处理器结合时,相应的检测率比交叉熵基线高了3.99%,并达到了我们测试中最高的82.16%。这样的结果显示了数据增强与后处理器的结合对于未来进一步提升OOD检测能力是非常有潜力的。

发现3:全谱OOD检测对现有方法提出了挑战(full-spectrum detection poses challenge for current detectors)。

从上图中可以清晰的看出,当场景从标准OOD检测切换为全谱OOD检测时(也即在测试ID数据中加入了covariate-shifted ID图片),绝大多数方法的性能都表现出了显著的退化(大于10%的检测率的下降)。

这代表着当前方法倾向于将实际语义未发生变化的covariate-shifted ID图片标记为OOD。

该行为与人类的感知(同时也是全谱OOD检测的目标)是相悖的:假设一个人类标记员在标记猫狗图片,此时给他/她出示带噪、模糊的猫狗图片,他/她应当仍会识别出那是猫/狗,是分布内ID数据而不是未知的分布外OOD数据。

总的来看,目前方法无法有效地解决全谱OOD检测,而我们相信这将是未来领域内的一大重要问题。

此外还有许多发现没有列在这里,例如数据增强对于全谱OOD检测仍旧有效等等。再次欢迎大家阅读我们的论文。

展望

我们希望OpenOOD的代码库、测试器、排行榜、基准数据集以及详实的测试结果能够汇集各路研究人员的力量一起来推动领域发展。十分期待大家使用OpenOOD进行OOD检测的开发、测试。

我们也欢迎任意形式的对OpenOOD的贡献,包括但不限于提出反馈,将最新的方法添加到OpenOOD代码库和排行榜中,扩展未来版本OpenOOD等等。

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

参考资料:https://arxiv.org/abs/2306.09301

以上就是OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试的详细内容,更多请关注其它相关文章!


# 欢迎大家  # 蚌埠外贸seo推广  # 湖北网站推广商城电话  # 优化网站需要满足的条件  # 永城招商网站建设  # 明城响应式网站建设  # 上海关键词网站优化技巧  # 优化网站排名直播怎么做  # 安徽网站建设分析平台  # 宁夏营销型网站推广  # 丹东网站建设信息网  # 都是  # 性能  # 未来  # 但在  # 开源  # 图中  # 检测方法  # 猫狗  # 一键  # 的是  # OpenOOD  # 数量 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 人形机器人概念大热!这些产业链标的或受提振  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  人工智能即将进入Windows:企业准备好安全策略设置了吗?  田渊栋团队新研究:微调  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  微软大牛加入ZOOM,AI人才大战打响  12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  微软Xbox称VR和AR还需要时间 先玩大的  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  阿里达摩院向公众免费开放100项AI专利许可  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  用AI升级会议体验!思必驰多款会议产品亮相全球智博会!  DeepMind推惊世排序算法,C++库忙更新!  午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  2025年深圳举办的SUSECON 创新峰会开始接受报名  城市在采用人工智能方面进展如何?  调查显示:实际上没有那么多人在用 ChatGPT  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  如何用AI重塑你的工作流(一)  ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够  海南省公安机关警用无人机培训班结业并举行警航比武演练  Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型  联合国秘书长称支持建立全球人工智能监管机构  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  意大利警察拟用AI预测犯罪 该算法被指种族歧视严重  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  PHP和OpenCV库:如何实现人脸识别  B站内测 AI 搜索功能,输入“?”即可体验  AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  360发布数字安全和人工智能的强大结合:360安全大模型  国产工业机器人领域“暗潮涌动”,即将迎来新一轮复苏  吉林首例!机器人辅助下搭桥手术成功实施  一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了  映宇宙集团执行总编辑:元宇宙还是要以人为媒介  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  如何用AI开创智慧能源新时代?固德威正让能源“通人性”!  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱 

 2023-07-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.