亚马逊2024机器学习竞赛图像特征提取数据集

亚马逊2024机器学习竞赛图像特征提取数据集 数据来源:互联网公开数据 标签:图像处理,机器学习,特征提取,实体识别,电子商务,医疗,内容审核

数据概述: 本数据集用于亚马逊2024机器学习竞赛,目标是从产品图像中提取实体值。数据集包含训练集和测试集,每条记录包含图像链接、产品类别代码、实体名称和实体值(训练集中提供)。图像中包含产品的重要信息,如重量、体积、电压、功率、尺寸等,这些信息在数字市场中非常重要。

数据用途概述: 该数据集适用于图像处理、特征提取、实体识别等多种场景。研究人员可以利用此数据集训练机器学习模型,以提高从图像中提取关键信息的能力;电子商务平台可以利用这些信息优化产品描述和展示;医疗和内容审核领域也可以从中获益,实现更精准的产品信息提取。

举例: 训练集(train.csv)包含以下字段: - index: 数据样本的唯一标识符。 - image_link: 图像的公共URL。 - group_id: 产品类别代码。 - entity_name: 产品实体名称,例如“item_weight”。 - entity_value: 产品实体值,例如“34 gram”。

测试集(test.csv)包含以下字段: - index: 数据样本的唯一标识符。 - image_link: 图像的公共URL。 - group_id: 产品类别代码。 - entity_name: 产品实体名称。

输出格式: - index: 数据样本的唯一标识符。 - prediction: 预测的实体值,格式为“x unit”,其中x为浮点数,unit为允许的单位,例如“2 gram”,“12.5 centimetre”,“2.56 ounce”。

示例: 训练集(train.csv): index,image_link,group_id,entity_name,entity_value 1,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_weight,34 gram 2,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_volume,1200 cubic centimetre

测试集(test.csv): index,image_link,group_id,entity_name 1,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_weight 2,https://m.media-amazon.com/images/I/71XfHPR36-L.jpg,100,item_volume

输出文件(test_out.csv)示例: index,prediction 1,34 gram 2,1200 cubic centimetre

约束条件: - 输出文件必须与sample_test_out.csv的格式完全一致。 - 使用src/sanity.py检查文件格式是否正确。 - 使用src/utils.py中的download_images函数下载图像。 - 使用src/constants.py中定义的允许单位。

评估标准: - 提交结果将根据F1分数进行评估,F1分数是分类和提取问题的标准预测准确性度量。 - F1分数计算公式:2 * Precision * Recall / (Precision + Recall) - Precision = True Positives / (True Positives + False Positives) - Recall = True Positives / (True Positives + False Negatives)

提交文件: - 上传一个与sample_test_out.csv格式完全一致的test_out.csv文件。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.94 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。