亚马逊机器学习挑战赛2024黑客松图像特征提取数据集
数据来源:互联网公开数据
标签:图像特征提取,机器学习,产品信息,电子商务,健康医疗,内容审核
数据概述:
本数据集用于亚马逊机器学习挑战赛2024黑客松,旨在创建一个能够从图像中提取实体值的机器学习模型。数据集包含产品图像的链接、产品类别代码、产品实体名称及其对应的实体值,适用于医疗健康、电子商务和内容审核等领域,其中实体值包括产品重量、体积、电压、功率、尺寸等关键信息。
数据用途概述:
该数据集适用于机器学习模型的训练和评估,可以用于开发能够从图像中提取关键产品信息的算法。这有助于提高数字市场中产品的详细描述,为用户提供更准确的产品信息。此外,该数据集也适用于学术研究和教育培训,帮助研究人员和学习者理解图像特征提取技术的应用和重要性。
举例:
数据集中包含以下字段:
1. index: 数据样本的唯一标识符。
2. image_link: 产品图像的公共URL链接。
3. group_id: 产品的类别代码。
4. entity_name: 产品实体名称,例如“item_weight”。
5. entity_value: 产品实体值,例如“34 gram”。
输出格式要求:
输出文件应为CSV格式,包含以下两列:
1. index: 数据样本的唯一标识符,需与测试记录的索引匹配。
2. prediction: 预测字符串,格式为“x unit”,其中x为浮点数,unit为允许的单位之一(单位列表见附录)。例如:“2 gram”,“12.5 centimetre”,“2.56 ounce”。
文件描述:
- dataset/train.csv: 训练文件,包含标签(entity_value)。
- dataset/test.csv: 测试文件,不包含标签(entity_value),需生成预测结果并格式化输出文件,使其与sample_test_out.csv一致。
- dataset/sample_test.csv: 样本测试输入文件。
- dataset/sample_test_out.csv: 样本测试输出文件,输出格式需与之完全一致。
- src/sanity.py: 用于确保最终输出文件通过所有格式检查的sanity checker脚本。
- src/utils.py: 包含用于从image_link下载图像的辅助函数。
- src/constants.py: 包含每种实体类型的允许单位列表。
- sample_code.py: 可选的示例代码,用于生成符合格式的输出文件。