数据概述:
本数据集用于图像信息抽取任务,目标是训练一个机器学习模型,从商品图像中提取关键属性值(如重量、电压、体积、尺寸等)。该能力广泛应用于医疗、电商和内容审核等场景,尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值,并输出标准格式的预测结果。
字段说明:
训练数据(train.csv)包含以下字段:
index:样本唯一标识符
image_link:商品图像的公网下载链接
group_id:商品的类别编码
entity_name:需识别的实体名称,如“item_weight”
entity_value:对应的实体值,如“34 gram”
测试数据(test.csv)与训练数据结构一致,但不包含 entity_value 列。模型需基于其他信息预测该字段。
输出格式要求(用于提交预测结果):
输出文件需为CSV格式,包含以下列:
index:对应测试集中的索引值
prediction:预测结果,格式需为“x unit”,如“2 gram”“12.5 centimetre”“3.2 volt”。必须使用指定的标准单位,若未检测到值,则返回空字符串 ""。
注意事项:
所有预测值必须严格使用提供的标准单位,详见下方“单位映射”。
输出样本数量必须与test.csv一致。
最终输出需通过主办方提供的 sanity.py 脚本校验,验证格式无误后方可提交。
单位映射(entity_unit_map):
每类实体允许的预测单位如下:
width / depth / height:centimetre, foot, millimetre, metre, inch, yard
item_weight / maximum_weight_recommendation:milligram, kilogram, microgram, gram, ounce, ton, pound
voltage:millivolt, kilovolt, volt
wattage:kilowatt, watt
item_volume:cubic foot, microlitre, cup, fluid ounce, centilitre, imperial gallon, pint, decilitre, litre, millilitre, quart, cubic inch, gallon
数据格式:
CSV 文件格式,字段结构标准化,适合用于深度学习模型训练与评估。
时间范围:
无特定时间标注,为一次性提供的图像型实体识别训练数据。
更新频率:
静态数据集,适用于单次模型开发与比赛评估。
适用场景:
图像中的结构化信息提取
商品图像识别与属性预测
电商产品目录自动补全
实体识别与视觉理解模型训练
多模态机器学习应用开发