亚马逊商品图像结构信息抽取图像中商品属性数据集

数据概述: 本数据集用于图像信息抽取任务,目标是训练一个机器学习模型,从商品图像中提取关键属性值(如重量、电压、体积、尺寸等)。该能力广泛应用于医疗、电商和内容审核等场景,尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值,并输出标准格式的预测结果。

字段说明:

训练数据(train.csv)包含以下字段:

index:样本唯一标识符

image_link:商品图像的公网下载链接

group_id:商品的类别编码

entity_name:需识别的实体名称,如“item_weight”

entity_value:对应的实体值,如“34 gram”

测试数据(test.csv)与训练数据结构一致,但不包含 entity_value 列。模型需基于其他信息预测该字段。

输出格式要求(用于提交预测结果):

输出文件需为CSV格式,包含以下列:

index:对应测试集中的索引值

prediction:预测结果,格式需为“x unit”,如“2 gram”“12.5 centimetre”“3.2 volt”。必须使用指定的标准单位,若未检测到值,则返回空字符串 ""。

注意事项:

所有预测值必须严格使用提供的标准单位,详见下方“单位映射”。

输出样本数量必须与test.csv一致。

最终输出需通过主办方提供的 sanity.py 脚本校验,验证格式无误后方可提交。

单位映射(entity_unit_map): 每类实体允许的预测单位如下:

width / depth / height:centimetre, foot, millimetre, metre, inch, yard

item_weight / maximum_weight_recommendation:milligram, kilogram, microgram, gram, ounce, ton, pound

voltage:millivolt, kilovolt, volt

wattage:kilowatt, watt

item_volume:cubic foot, microlitre, cup, fluid ounce, centilitre, imperial gallon, pint, decilitre, litre, millilitre, quart, cubic inch, gallon

数据格式: CSV 文件格式,字段结构标准化,适合用于深度学习模型训练与评估。

时间范围: 无特定时间标注,为一次性提供的图像型实体识别训练数据。

更新频率: 静态数据集,适用于单次模型开发与比赛评估。

适用场景:

图像中的结构化信息提取

商品图像识别与属性预测

电商产品目录自动补全

实体识别与视觉理解模型训练

多模态机器学习应用开发

数据与资源

附加信息

字段
最后更新 五月 19, 2025, 01:14 (UTC)
创建于 五月 19, 2025, 01:12 (UTC)