亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch
数据来源:互联网公开数据
标签:亚马逊,机器学习,挑战赛,实体识别,产品数据,图像处理,预测分析
数据概述:
本数据集来自亚马逊机器学习挑战赛2024,包含用于产品实体识别的训练和测试数据。数据集主要包含产品图像链接、产品类别、产品实体名称及其对应的值。具体字段定义如下:
对于test.csv文件,不会包含entity_value列,因为该列为预测的目标变量。
数据集文件描述:
- src/sanity.py:用于确保最终输出文件格式正确的检查脚本。注意,该脚本不会检查预测数量是否与test.csv文件中的数量一致。
- src/utils.py:包含用于从image_link下载图像的辅助函数。
- src/constants.py:包含每种实体类型允许的单位。
- sample_code.py:一个示例代码,可以生成符合格式的输出文件。使用该文件是可选的。
数据集文件:
- dataset/train.csv:包含标签(entity_value)的训练文件。
- dataset/test.csv:不包含输出标签(entity_value)的测试文件。需使用模型或解决方案对文件中的数据进行预测,并将输出文件格式化为sample_test_out.csv所示格式。
- dataset/sample_test.csv:示例测试输入文件。
- dataset/sample_test_out.csv:sample_test.csv的示例输出。test.csv的输出必须以相同格式生成。
注意:示例文件中的预测结果可能不正确。