数据集

产品属性提取任务数据集

产品属性提取任务数据集数据来源：互联网公开数据标签：产品属性提取,自然语言处理,机器学习,电子商务,产品推荐,属性值对,文本分析

数据概述：本数据集旨在将非结构化的产品描述转换为结构化、可搜索的数据。数据集包含20,000个产品条目的训练集和100个隐藏的产品描述测试集。每个产品条目包括产品ID、产品名称、详细描述和品牌名称。该数据集的目标是从文本描述中自动提取关键产品属性，如颜色、尺寸、材质、重量、价格、品牌、特性和规格等，以提高电子商务搜索体验和产品推荐的准确性。

数据用途概述：该数据集适用于自然语言处理和机器学习的研究人员，用于开发自动化的产品属性提取系统。通过分析和处理这些数据，可以提高提取关键属性的准确性，优化电子商务平台的搜索功能和产品推荐效果。此外，该数据集也可用于评估不同方法在产品属性提取任务中的表现。

举例：数据集中的一个产品条目示例如下： { "product_id": "P1234", "product_name": "Premium Athletic Running Shoes", "description": "Experience ultimate comfort with these premium running shoes. Features breathable mesh upper and responsive cushioning. Available in midnight blue color. Size: UK 8, US 9. Material: Synthetic mesh with rubber sole. Weight: 280g per shoe. Ideal for: Professional runners, Price: Rs. 3499", "brand_name": "SportFlex" }

预期输出格式如下： { "color": "midnight blue", "size": { "uk": "8", "us": "9" }, "material": ["synthetic mesh", "rubber"], "weight": { "value": 280, "unit": "g" }, "price": { "currency": "Rs", "value": 3499 }, "target_audience": "professional runners", "category": "running shoes" }

评估指标包括： 1. 主要指标 - 属性提取准确性：精确率、召回率、F1分数 - 值规范化：单位标准化、值格式一致性

次要指标
覆盖度分数：关键属性提取的百分比、处理缺失或隐含属性的能力
处理效率：处理测试集所需的时间、资源利用率

提交指南： - 提交代码的GitHub链接 - 包含说明研究方法的文档 - 提供requirements.txt或environment.yml文件

数据与资源

产品属性提取任务数据集.zipZIP
1.38 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.38 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

产品属性提取任务数据集

数据与资源

附加信息

注册成功！