数据集

亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch

亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch 数据来源：互联网公开数据标签：亚马逊,机器学习,挑战赛,实体识别,产品数据,图像处理,预测分析

数据概述：本数据集来自亚马逊机器学习挑战赛2024，包含用于产品实体识别的训练和测试数据。数据集主要包含产品图像链接、产品类别、产品实体名称及其对应的值。具体字段定义如下：

index：数据样本的唯一标识符（ID）。
image_link：产品图像的公开下载链接。例如：https://m.media-amazon.com/images/I/71XfHPR36-L.jpg。可通过src/utils.py中的download_images函数下载图像。
group_id：产品的类别代码。
entity_name：产品实体名称，例如“item_weight”。
entity_value：产品实体的对应值，例如“34 gram”。

对于test.csv文件，不会包含entity_value列，因为该列为预测的目标变量。

数据集文件描述： - src/sanity.py：用于确保最终输出文件格式正确的检查脚本。注意，该脚本不会检查预测数量是否与test.csv文件中的数量一致。 - src/utils.py：包含用于从image_link下载图像的辅助函数。 - src/constants.py：包含每种实体类型允许的单位。 - sample_code.py：一个示例代码，可以生成符合格式的输出文件。使用该文件是可选的。

数据集文件： - dataset/train.csv：包含标签（entity_value）的训练文件。 - dataset/test.csv：不包含输出标签（entity_value）的测试文件。需使用模型或解决方案对文件中的数据进行预测，并将输出文件格式化为sample_test_out.csv所示格式。 - dataset/sample_test.csv：示例测试输入文件。 - dataset/sample_test_out.csv：sample_test.csv的示例输出。test.csv的输出必须以相同格式生成。

注意：示例文件中的预测结果可能不正确。

数据与资源

versions_20250412030753.zipZIP
4.94 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	4.94 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

亚马逊机器学习挑战赛2024产品实体识别数据集-krishnakantch

数据与资源

附加信息

注册成功！