产品属性提取任务数据集
数据来源:互联网公开数据
标签:产品属性提取,自然语言处理,机器学习,电子商务,产品推荐,属性值对,文本分析
数据概述:
本数据集旨在将非结构化的产品描述转换为结构化、可搜索的数据。数据集包含20,000个产品条目的训练集和100个隐藏的产品描述测试集。每个产品条目包括产品ID、产品名称、详细描述和品牌名称。该数据集的目标是从文本描述中自动提取关键产品属性,如颜色、尺寸、材质、重量、价格、品牌、特性和规格等,以提高电子商务搜索体验和产品推荐的准确性。
数据用途概述:
该数据集适用于自然语言处理和机器学习的研究人员,用于开发自动化的产品属性提取系统。通过分析和处理这些数据,可以提高提取关键属性的准确性,优化电子商务平台的搜索功能和产品推荐效果。此外,该数据集也可用于评估不同方法在产品属性提取任务中的表现。
举例:
数据集中的一个产品条目示例如下:
{
"product_id": "P1234",
"product_name": "Premium Athletic Running Shoes",
"description": "Experience ultimate comfort with these premium running shoes. Features breathable mesh upper and responsive cushioning. Available in midnight blue color. Size: UK 8, US 9. Material: Synthetic mesh with rubber sole. Weight: 280g per shoe. Ideal for: Professional runners, Price: Rs. 3499",
"brand_name": "SportFlex"
}
预期输出格式如下:
{
"color": "midnight blue",
"size": {
"uk": "8",
"us": "9"
},
"material": ["synthetic mesh", "rubber"],
"weight": {
"value": 280,
"unit": "g"
},
"price": {
"currency": "Rs",
"value": 3499
},
"target_audience": "professional runners",
"category": "running shoes"
}
评估指标包括:
1. 主要指标
- 属性提取准确性:精确率、召回率、F1分数
- 值规范化:单位标准化、值格式一致性
- 次要指标
- 覆盖度分数:关键属性提取的百分比、处理缺失或隐含属性的能力
- 处理效率:处理测试集所需的时间、资源利用率
提交指南:
- 提交代码的GitHub链接
- 包含说明研究方法的文档
- 提供requirements.txt或environment.yml文件