产品属性提取任务数据集

产品属性提取任务数据集 数据来源:互联网公开数据 标签:产品属性提取,自然语言处理,机器学习,电子商务,产品推荐,属性值对,文本分析

数据概述: 本数据集旨在将非结构化的产品描述转换为结构化、可搜索的数据。数据集包含20,000个产品条目的训练集和100个隐藏的产品描述测试集。每个产品条目包括产品ID、产品名称、详细描述和品牌名称。该数据集的目标是从文本描述中自动提取关键产品属性,如颜色、尺寸、材质、重量、价格、品牌、特性和规格等,以提高电子商务搜索体验和产品推荐的准确性。

数据用途概述: 该数据集适用于自然语言处理和机器学习的研究人员,用于开发自动化的产品属性提取系统。通过分析和处理这些数据,可以提高提取关键属性的准确性,优化电子商务平台的搜索功能和产品推荐效果。此外,该数据集也可用于评估不同方法在产品属性提取任务中的表现。

举例: 数据集中的一个产品条目示例如下: { "product_id": "P1234", "product_name": "Premium Athletic Running Shoes", "description": "Experience ultimate comfort with these premium running shoes. Features breathable mesh upper and responsive cushioning. Available in midnight blue color. Size: UK 8, US 9. Material: Synthetic mesh with rubber sole. Weight: 280g per shoe. Ideal for: Professional runners, Price: Rs. 3499", "brand_name": "SportFlex" }

预期输出格式如下: { "color": "midnight blue", "size": { "uk": "8", "us": "9" }, "material": ["synthetic mesh", "rubber"], "weight": { "value": 280, "unit": "g" }, "price": { "currency": "Rs", "value": 3499 }, "target_audience": "professional runners", "category": "running shoes" }

评估指标包括: 1. 主要指标 - 属性提取准确性:精确率、召回率、F1分数 - 值规范化:单位标准化、值格式一致性

  1. 次要指标
  2. 覆盖度分数:关键属性提取的百分比、处理缺失或隐含属性的能力
  3. 处理效率:处理测试集所需的时间、资源利用率

提交指南: - 提交代码的GitHub链接 - 包含说明研究方法的文档 - 提供requirements.txt或environment.yml文件

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.38 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。