亚马逊机器学习挑战赛2024图像特征提取数据集
数据来源:互联网公开数据
标签:亚马逊挑战赛,图像特征提取,机器学习,产品信息,电子商务,健康医疗,内容审核
数据概述:
本数据集用于2024年亚马逊机器学习挑战赛,旨在创建一个从图像中提取实体值的机器学习模型。数据集包含产品图像的URL链接、产品类别代码、实体名称及其对应的实体值。训练集提供完整的标签信息,用于模型训练;测试集则缺少实体值,作为模型预测的目标变量。
数据用途概述:
该数据集适用于需要从图像中自动提取关键产品信息的场景,如电子商务平台的产品信息补充、健康医疗领域的图像分析以及内容审核等。通过分析图像中的尺寸、重量、电压、功率等信息,可以提高信息提取的效率和准确性。
举例:
数据集包含以下字段:
index:数据样本的唯一标识符。
image_link:产品图像的公开URL链接。
group_id:产品的类别代码。
entity_name:产品的实体名称,例如“item_weight”。
entity_value:产品的实体值,例如“34 gram”。(测试集中不包含此字段,作为目标变量)
输出格式:
输出文件应为CSV格式,包含两列:
index:数据样本的唯一标识符,需与测试记录的索引一致。
prediction:预测结果,格式为“x unit”,其中x为浮点数,unit为允许的单位之一。例如,“2 gram”,“12.5 centimetre”,“2.56 ounce”。
文件描述:
源文件包含以下内容:
src/sanity.py:用于确保最终输出文件通过所有格式检查的脚本。
src/utils.py:包含用于从image_link下载图像的辅助函数。
src/constants.py:包含每种实体允许的单位。
sample_code.py:提供一个示例代码,用于生成指定格式的输出文件,使用可选。
数据集文件包含:
train.csv:带标签的训练文件。
test.csv:无标签的测试文件,用于生成预测结果。
sample_test.csv:测试输入示例文件。
sample_test_out.csv:sample_test.csv的示例输出文件,用于参考输出格式。
约束条件:
输出文件需严格匹配sample_test_out.csv的格式,并通过sanity.py脚本的格式检查。
预测结果必须使用constants.py中列出的允许单位,否则预测结果将被视为无效。
评估标准:
提交结果将基于F1分数进行评估,F1分数是分类和提取问题的标准预测准确度度量。
通过比较预测值(OUT)和真实值(GT),将预测结果分类为真阳性、假阳性、假阴性和真阴性,进而计算Precision和Recall,最终得出F1分数。
提交文件:
在Portal中上传格式与sample_test_out.csv完全一致的test_out.csv文件。