亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch

亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch 数据来源:互联网公开数据 标签:亚马逊,机器学习,挑战赛,实体识别,产品数据,图像处理,预测分析

数据概述: 本数据集来自亚马逊机器学习挑战赛2024,包含用于产品实体识别的训练和测试数据。数据集主要包含产品图像链接、产品类别、产品实体名称及其对应的值。具体字段定义如下:

  • index:数据样本的唯一标识符(ID)。
  • image_link:产品图像的公开下载链接。例如:https://m.media-amazon.com/images/I/71XfHPR36-L.jpg。可通过src/utils.py中的download_images函数下载图像。
  • group_id:产品的类别代码。
  • entity_name:产品实体名称,例如“item_weight”。
  • entity_value:产品实体的对应值,例如“34 gram”。

对于test.csv文件,不会包含entity_value列,因为该列为预测的目标变量。

数据集文件描述: - src/sanity.py:用于确保最终输出文件格式正确的检查脚本。注意,该脚本不会检查预测数量是否与test.csv文件中的数量一致。 - src/utils.py:包含用于从image_link下载图像的辅助函数。 - src/constants.py:包含每种实体类型允许的单位。 - sample_code.py:一个示例代码,可以生成符合格式的输出文件。使用该文件是可选的。

数据集文件: - dataset/train.csv:包含标签(entity_value)的训练文件。 - dataset/test.csv:不包含输出标签(entity_value)的测试文件。需使用模型或解决方案对文件中的数据进行预测,并将输出文件格式化为sample_test_out.csv所示格式。 - dataset/sample_test.csv:示例测试输入文件。 - dataset/sample_test_out.csv:sample_test.csv的示例输出。test.csv的输出必须以相同格式生成。

注意:示例文件中的预测结果可能不正确。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 21, 2025, 18:28 (UTC)
创建于 四月 21, 2025, 18:27 (UTC)