亚马逊2024机器学习竞赛图像特征提取数据集
数据来源:互联网公开数据
标签:图像处理,机器学习,特征提取,实体识别,电子商务,医疗,内容审核
数据概述:
本数据集用于亚马逊2024机器学习竞赛,目标是从产品图像中提取实体值。数据集包含训练集和测试集,每条记录包含图像链接、产品类别代码、实体名称和实体值(训练集中提供)。图像中包含产品的重要信息,如重量、体积、电压、功率、尺寸等,这些信息在数字市场中非常重要。
数据用途概述:
该数据集适用于图像处理、特征提取、实体识别等多种场景。研究人员可以利用此数据集训练机器学习模型,以提高从图像中提取关键信息的能力;电子商务平台可以利用这些信息优化产品描述和展示;医疗和内容审核领域也可以从中获益,实现更精准的产品信息提取。
举例:
训练集(train.csv)包含以下字段:
- index: 数据样本的唯一标识符。
- image_link: 图像的公共URL。
- group_id: 产品类别代码。
- entity_name: 产品实体名称,例如“item_weight”。
- entity_value: 产品实体值,例如“34 gram”。
测试集(test.csv)包含以下字段:
- index: 数据样本的唯一标识符。
- image_link: 图像的公共URL。
- group_id: 产品类别代码。
- entity_name: 产品实体名称。
输出格式:
- index: 数据样本的唯一标识符。
- prediction: 预测的实体值,格式为“x unit”,其中x为浮点数,unit为允许的单位,例如“2 gram”,“12.5 centimetre”,“2.56 ounce”。
示例:
训练集(train.csv):
index,image_link,group_id,entity_name,entity_value
1,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_weight,34 gram
2,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_volume,1200 cubic centimetre
测试集(test.csv):
index,image_link,group_id,entity_name
1,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_weight
2,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_volume
输出文件(test_out.csv)示例:
index,prediction
1,34 gram
2,1200 cubic centimetre
约束条件:
- 输出文件必须与sample_test_out.csv的格式完全一致。
- 使用src/sanity.py检查文件格式是否正确。
- 使用src/utils.py中的download_images函数下载图像。
- 使用src/constants.py中定义的允许单位。
评估标准:
- 提交结果将根据F1分数进行评估,F1分数是分类和提取问题的标准预测准确性度量。
- F1分数计算公式:2 * Precision * Recall / (Precision + Recall)
- Precision = True Positives / (True Positives + False Positives)
- Recall = True Positives / (True Positives + False Negatives)
提交文件:
- 上传一个与sample_test_out.csv格式完全一致的test_out.csv文件。