内镜检测内窥镜影像标注数据集-2021-debeshjha1
数据来源:互联网公开数据
标签:内镜检测,医学影像,图像标注,视频标注,内窥镜,医学数据,病理识别
数据概述:
本数据集包含内镜检测过程中收集的大量标注和非标注医学影像数据,适用于内镜影像分析和病理诊断的研究。数据集分为标注图像、非标注图像、分割图像和标注视频四个部分,涵盖了丰富的解剖标志和病理及正常发现。
具体来说,标注图像部分包含10,662张JPEG格式的标注图像,这些图像根据所属类别存储在不同的文件夹中(例如,“polyp”文件夹包含所有息肉图像,“barretts”文件夹包含所有巴雷特食管图像等)。每个类别的图像数量不平衡,反映了医学领域中某些发现比其他发现更常见的现实情况,这为研究人员带来了额外的挑战,需要从少量训练数据中学习。
非标注图像部分包含99,417张未标注的JPEG格式图像,存储在“unlabeled”文件夹中,该文件夹是“images”文件夹的子文件夹。此外,还提供了这些非标注图像的全局特征提取结果和聚类分配,以Attribute-Relation File Format (ARFF)文件形式存储在Hyper-Kvasir GitHub仓库中。这些ARFF文件可以使用如WEKA等机器学习库打开和处理,也可以轻松转换为逗号分隔值(CSV)文件。
分割图像部分包含1,000张息肉类别的原始图像、分割掩码和边界框。在分割掩码中,息肉组织(感兴趣区域)的像素被前景(白色掩码)表示,背景(黑色)不包含息肉像素。边界框定义为发现息肉的最外层像素。这些分割图像和掩码分别存储在“segmented images”文件夹中的“images”和“masks”文件夹中,每个文件夹包含1,000张JPEG格式的图像。对应的边界框信息存储在JavaScript Object Notation (JSON)文件中,图像及其对应掩码具有相同的文件名。
标注视频部分包含373个视频,总时长约为11.62小时,包含1,059,519帧,可以转换为图像格式使用。每个视频由胃肠病学领域的医疗专业人员手动评估,共标注了171个发现。
开发数据集:
开发数据集包含四个部分:标注图像数据、非标注图像数据、分割图像数据和标注视频数据。该数据集总计包含110,079张图像和373个视频,涵盖了解剖标志和病理及正常发现,总计超过1.1百万张图像和视频帧。
测试数据集:
测试数据集分为两个部分:分类数据集和分割数据集。分类数据集用于执行检测和速度任务,分割数据集用于执行分割任务。
更多详细信息可访问:
https://endotect.com/