如何探索和可视化用于图像中物体检测的 ML 数据


近年来,人们对深入理解机器学习数据(ml-data)的重要性有了更深刻的认识。然而,由于检测大型数据集通常需要大量的人力和物力投入,因此在计算机视觉领域的广泛应用仍然需要进一步的开发。

通常,在物体检测(Object Detection,属于计算机视觉的一个子集)中,通过定义边界框,来定位图像中的物体,不仅可以识别物体,还能够了解物体的上下文、大小、以及与场景中其他元素的关系。同时,针对类的分布、物体大小的多样性、以及类出现的常见环境进行全面了解,也有助于在评估和调试中发现训练模型中的错误模式,从而更有针对性地选择额外的训练数据。

在实践中,我往往会采取如下方法:

  • 利用预训练的模型或基础模型的增强功能,为数据添加结构。例如:创建各种图像嵌入,并采用 t-SNE 或 UMAP 等降维技术。这些都可以生成相似性的地图,从而方便数据的浏览。此外,使用预先训练的模型进行检测,也可以方便提取上下文。
  • 使用能够将此类结构与原始数据的统计和审查功能整合在一起的可视化工具。

下面,我将介绍如何使用Renumics Spotlight,来创建交互式的对象检测可视化。作为示例,我将试着:

  • 为图像中的人物探测器建立可视化。
  • 可视化包括相似性地图、筛选器和统计数据,以便浏览数据。
  • 通过地面实况(Ground Truth)和 Ultralytics YOLOv8 的检测详细,查看每一张图像。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如何探索和可视化用于图像中物体检测的 ML 数据

在Renumics Spotlight上的目标可视化。资料来源:作者创建

下载COCO数据集中的人物图像

首先,通过如下命令安装所需的软件包:

!pip install fiftyone ultralytics renumics-spotlight

利用FiftyOne的可恢复性下载功能,您可以从COCO 数据集处下载各种图像。通过简单的参数设置,我们即可下载包含一到多个人物的 1,000 幅图像。具体代码如下:

importpandasaspdimportnumpyasnpimportfiftyone.zooasfoz# 从 COCO 数据集中下载 1000 张带人的图像dataset = foz.load_zoo_dataset( "coco-2017"、split="validation"、label_types=[ "detections"、],classes=["person"]、 max_samples=1000、dataset_name="coco-2017-person-1k-validations"、)

接着,您可以使用如下代码:

def xywh_too_xyxyn(bbox): "" convert from xywh to xyxyn format """ return[bbox[0], bbox[1], bbox[0] + bbox[2], bbox[1] + bbox[3]].行 = []fori, samplein enumerate(dataset):labels = [detection.labelfordetectioninsample.ground_truth.detections] bboxs = [...bboxs = [xywh_too_xyxyn(detection.bounding_box) fordetectioninsample.ground_truth.detections]bboxs_persons = [bboxforbbox, labelin zip(bboxs, labels)iflabel =="person"] 行。row.append([sample.filepath, labels, bboxs, bboxs_persons])df = pd.DataFrame(row, columns=["filepath","categories", "bboxs", "bboxs_persons"])df["major_category"] = df["categories"].apply( lambdax:max(set(x) -set(["person"]), key=x.count) if len(set(x)) >1 else "only person"。)

将数据准备为 Pandas DataFrame,其中的列包括有:文件路径、边框盒(bounding boxe)类别、边框盒、边框盒包含的人物、以及主要类别(尽管有人物),以指定图像中人物的上下文:

如何探索和可视化用于图像中物体检测的 ML 数据

然后,您可以通过 Spotlight 将其可视化:

From renumics import spotlightspotlight.show(df)

您可以使用检查器视图中的添加视图按钮,并在边框视图中选择bboxs_persons和filepath,以显示带有图像的相应边框:

如何探索和可视化用于图像中物体检测的 ML 数据

嵌入丰富的数据

要使得数据具有结构性,我们可以采用各种基础模型的图像嵌入(即:密集向量表示)。为此,您可以使用 UMAP 或 t-SNE 等进一步降维技术,将整个图像的Vision Transformer(ViT)嵌入应用到数据集的结构化,从而提供图像的二维相似性图。此外,您还可以使用预训练对象检测器的输出结果,按照包含对象的大小或数量,对数据进行分类,进而构建数据。由于 COCO 数据集已经提供了此方面的信息,因此我们完全可以直接使用它。

由于Spotlight 集成了对google/vit-base-patch16-224-in21k(ViT)模型和UMAP 的支持,因此当您使用文件路径创建各种嵌入时,它将会被自动应用:

spotlight.show(df, embed=["filepath"])

通过上述代码,Spotlight 将各种嵌入进行计算,并应用 UMAP 在相似性地图中显示结果。其中,不同的颜色代表了主要的类别。据此,您可以使用相似性地图来浏览数据:

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

如何探索和可视化用于图像中物体检测的 ML 数据

预训练YOLOv8的结果

可用于快速识别物体的Ultralytics YOLOv8,是一套先进的物体检测模型。它专为快速图像处理而设计,适用于各种实时检测任务,特别是在被应用于大量数据时,用户无需浪费太多的等待时间。

为此,您可以首先加载预训练模型:

From ultralytics import YOLOdetection_model = YOLO("yolov8n.pt")

并执行各种检测:

detections = []forfilepathindf["filepath"].tolist():detection = detection_model(filepath)[0]detections.append({ "yolo_bboxs":[np.array(box.xyxyn.tolist())[0]forboxindetection.boxes]、 "yolo_conf_persons": np.mean([np.array(box.conf.tolist())[0]. forboxindetection.boxes ifdetection.names[int(box.cls)] =="person"]), np.mean(]), "yolo_bboxs_persons":[np.array(box.xyxyn.tolist())[0] forboxindetection.boxes ifdetection.names[int(box.cls)] =="person],"yolo_categories": np.array([np.array(detection.names[int(box.cls)])forboxindetection.boxes], "yolo_categories": np.array(),})df_yolo = pd.DataFrame(detections)

在12gb的GeForce RTX 4070 Ti上,上述过程在不到20秒的时间内便可完成。接着,您可以将结果包含在DataFrame中,并使用Spotlight将其可视化。请参考如下代码:

df_merged = pd.concat([df, df_yolo], axis=1)spotlight.show(df_merged, embed=["filepath"])

下一步,Spotlight将再次计算各种嵌入,并应用UMAP到相似度图中显示结果。不过这一次,您可以为检测到的对象选择模型的置信度,并使用相似度图在置信度较低的集群中导航检索。毕竟,鉴于这些图像的模型是不确定的,因此它们通常有一定的相似度。

如何探索和可视化用于图像中物体检测的 ML 数据

当然,上述简短的分析也表明了,此类模型在如下场景中会遇到系统性的问题:

  • 由于列车体积庞大,站在车厢外的人显得非常渺小
  • 对于巴士和其他大型车辆而言,车内的人员几乎看不到
  • 有人站在飞机的外面
  • 食物的特写图片上有人的手或手指

您可以判断这些问题是否真的会影响您的人员检测目标,如果是的话,则应考虑使用额外的训练数据,来增强数据集,以优化模型在这些特定场景中的性能。

小结

综上所述,预训练模型和 Spotlight 等工具的使用,可以让我们的对象检测可视化过程变得更加容易,进而增强数据科学的工作流程。您可以使用自己的数据去尝试和体验上述代码。

译者介绍

陈峻(Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验。

原文标题:How to Explore and Visualize ML-Data for Object Detection in Images,作者:Markus Stoll

链接:https://itnext.io/how-to-explore-and-visualize-ml-data-for-object-detection-in-images-88e074f46361。

以上就是如何探索和可视化用于图像中物体检测的 ML 数据的详细内容,更多请关注其它相关文章!


# 预训练模型  # ml-data  # follow  # type  # 您可以  # 官网  # 站在  # 机器学习  # 衡水快手推广营销公司  # 江苏响应式网站建设应用  # 三水网站seo  # 如何建成网站建设  # 跨境网站优化建站方案  # s网站建设  # 井研移动网站建设  # 上海百度seo系统  # 沧州建设网站公司  # 惠水网站优化推广价格  # 开源  # 图中  # 一幅  # 此类  # 微软  # 将其  # 多个 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 加州用AI监测野火:1032个摄像头联网扫描森林异常  美图设计室2.0什么时候上线  6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI  机构:边缘AI或是当前预期差最大的AI方向  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批  软通动力天枢元宇宙研究院签约落户江宁高新区  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  为AI而服务设计:构建以人为本的AI创新方法  0代码微调大模型火了,只需5步,成本低至150块  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利  静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  “上海市民营企业人工智能赋能创新中心”揭牌成立  “三夏”农忙保障用电,无人机高空巡视高压线  特斯拉人形机器人将亮相 预计售价不超过15万元  能走、能飞、能游泳,科学家打造全能 M4 机器人  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  英国前首相:AI可能被用来制造“生物恐怖武器”  ChatGPT 可以设计机器人吗?  探索人工智能在居家养老方面的应用  麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管  人工智能在重症监护室的未来  探索人工智能和物联网的动态融合  跑不动的元宇宙,虚拟世界比现实更冷酷  V社谈AI制作游戏被ban:为确保开发者有素材所有权  RoboNeo什么时候上线  借助ChatGPT快速上手ElasticSearch dsl  天翼云在国际AI顶会大模型挑战赛中获得冠军  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  十个AI算法常用库J*a版  助力人工智能产业高质量发展 龙岗区算法训练基地正式启用  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  一公司推出喷火机器狗,可喷出 9 米长火焰  无人机在电力巡检中的应用:全面解析高效巡检流程  OpenAI首席执行官表态支持欧盟AI监管  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  华为将于 7 月发布面向 AI 大模型的新款存储产品  Meta发布音频AI模型,仅需2秒片段模拟真人语音  对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型 

 2024-02-16

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.