亚马逊商品图像结构信息抽取图像中商品属性数据集

数据概述：本数据集用于图像信息抽取任务，目标是训练一个机器学习模型，从商品图像中提取关键属性值（如重量、电压、体积、尺寸等）。该能力广泛应用于医疗、电商和内容审核等场景，尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值，并输出标准格式的预测结果。

字段说明：

训练数据（train.csv）包含以下字段：

index：样本唯一标识符

image_link：商品图像的公网下载链接

group_id：商品的类别编码

entity_name：需识别的实体名称，如“item_weight”

entity_value：对应的实体值，如“34 gram”

测试数据（test.csv）与训练数据结构一致，但不包含 entity_value 列。模型需基于其他信息预测该字段。

输出格式要求（用于提交预测结果）：

输出文件需为CSV格式，包含以下列：

index：对应测试集中的索引值

prediction：预测结果，格式需为“x unit”，如“2 gram”“12.5 centimetre”“3.2 volt”。必须使用指定的标准单位，若未检测到值，则返回空字符串 ""。

注意事项：

所有预测值必须严格使用提供的标准单位，详见下方“单位映射”。

输出样本数量必须与test.csv一致。

最终输出需通过主办方提供的 sanity.py 脚本校验，验证格式无误后方可提交。

单位映射（entity_unit_map）：每类实体允许的预测单位如下：

width / depth / height：centimetre, foot, millimetre, metre, inch, yard

item_weight / maximum_weight_recommendation：milligram, kilogram, microgram, gram, ounce, ton, pound

voltage：millivolt, kilovolt, volt

wattage：kilowatt, watt

item_volume：cubic foot, microlitre, cup, fluid ounce, centilitre, imperial gallon, pint, decilitre, litre, millilitre, quart, cubic inch, gallon

数据格式： CSV 文件格式，字段结构标准化，适合用于深度学习模型训练与评估。

时间范围：无特定时间标注，为一次性提供的图像型实体识别训练数据。

更新频率：静态数据集，适用于单次模型开发与比赛评估。

适用场景：

图像中的结构化信息提取

商品图像识别与属性预测

电商产品目录自动补全

实体识别与视觉理解模型训练

多模态机器学习应用开发

数据与资源

字段	值
数据集大小	4.95 MiB
最后更新	2025年5月19日
创建于	2025年5月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。