Cdiscount商品图像分类训练集元数据分割数据集
数据来源:互联网公开数据
标签:Cdiscount,商品图像,分类,元数据,训练集,测试集,图像识别,数据集
数据概述:
本数据集包含两个CSV文件,用于辅助Cdiscount商品图像分类比赛的数据处理。数据集提供了关于Cdiscount图像分类任务中商品图像的关键元数据信息,方便研究者进行数据管理和分析。
train_metadata.csv:该文件包含7,069,896行,5列数据。每行代表训练集中一个商品的元数据信息。列包括:
pid:商品ID
start:该商品记录在BSON文件中的起始位置(以字节为单位)
length:该商品记录的长度(以字节为单位)
n_imgs:该商品包含的图像数量
category_id:商品所属的类别ID
test_metadata.csv:该文件包含1,768,182行,4列数据。与train_metadata.csv类似,但针对测试集,并且不包含category_id列。
数据用途概述:
该数据集主要用于Cdiscount商品图像分类比赛的数据预处理和分析,以及图像分类模型的训练和评估。通过使用这些元数据,研究人员可以更有效地访问和处理大型BSON格式的图像数据,实现数据分割、图像读取等操作,从而提升模型训练效率和性能。此外,该数据可用于研究商品图像特征,分析不同类别商品的图像分布,并为图像分类模型的优化提供参考。