数据集

亚马逊机器学习挑战赛2024图像特征提取数据集

亚马逊机器学习挑战赛2024图像特征提取数据集数据来源：互联网公开数据标签：亚马逊挑战赛,图像特征提取,机器学习,产品信息,电子商务,健康医疗,内容审核数据概述：本数据集用于2024年亚马逊机器学习挑战赛，旨在创建一个从图像中提取实体值的机器学习模型。数据集包含产品图像的URL链接、产品类别代码、实体名称及其对应的实体值。训练集提供完整的标签信息，用于模型训练；测试集则缺少实体值，作为模型预测的目标变量。数据用途概述：该数据集适用于需要从图像中自动提取关键产品信息的场景，如电子商务平台的产品信息补充、健康医疗领域的图像分析以及内容审核等。通过分析图像中的尺寸、重量、电压、功率等信息，可以提高信息提取的效率和准确性。举例：数据集包含以下字段： index：数据样本的唯一标识符。 image_link：产品图像的公开URL链接。 group_id：产品的类别代码。 entity_name：产品的实体名称，例如“item_weight”。 entity_value：产品的实体值，例如“34 gram”。（测试集中不包含此字段，作为目标变量）

输出格式：输出文件应为CSV格式，包含两列： index：数据样本的唯一标识符，需与测试记录的索引一致。 prediction：预测结果，格式为“x unit”，其中x为浮点数，unit为允许的单位之一。例如，“2 gram”，“12.5 centimetre”，“2.56 ounce”。

文件描述：源文件包含以下内容： src/sanity.py：用于确保最终输出文件通过所有格式检查的脚本。 src/utils.py：包含用于从image_link下载图像的辅助函数。 src/constants.py：包含每种实体允许的单位。 sample_code.py：提供一个示例代码，用于生成指定格式的输出文件，使用可选。

数据集文件包含： train.csv：带标签的训练文件。 test.csv：无标签的测试文件，用于生成预测结果。 sample_test.csv：测试输入示例文件。 sample_test_out.csv：sample_test.csv的示例输出文件，用于参考输出格式。

约束条件：输出文件需严格匹配sample_test_out.csv的格式，并通过sanity.py脚本的格式检查。预测结果必须使用constants.py中列出的允许单位，否则预测结果将被视为无效。

评估标准：提交结果将基于F1分数进行评估，F1分数是分类和提取问题的标准预测准确度度量。通过比较预测值（OUT）和真实值（GT），将预测结果分类为真阳性、假阳性、假阴性和真阴性，进而计算Precision和Recall，最终得出F1分数。

提交文件：在Portal中上传格式与sample_test_out.csv完全一致的test_out.csv文件。

数据与资源

亚马逊机器学习挑战赛2024图像特征提取数据集.zipZIP
5.75 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.75 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。