产品聚类-匹配与分类数据集

产品聚类-匹配与分类数据集

数据来源:互联网公开数据

标签:产品聚类,产品分类,产品匹配,电子商务,数据挖掘,机器学习应用,商品信息检索,算法评估

数据概述:

本数据集为电子商务领域中产品信息的聚类、分类与匹配研究提供支持。数据来源于两家在线产品比较平台:PriceRunner 和 Skroutz。通过部分爬取上述平台的数据,构建了 18 个真实世界的产品数据集,涵盖多个产品类别。每个数据集分别对应特定的产品类别,并附有相应的基准(ground truth)文件,用于算法的评估和验证。

数据集以标准的 CSV 和 XML 格式提供,每个条目包含以下关键信息: - Product ID:产品的唯一标识符。 - Product Title:产品在相应平台上的标题(以小写形式,去除标点符号)。 - Vendor ID:销售该产品的电子商店的标识符,可用于细化分析(例如,验证算法)。 - Cluster ID:产品所属的聚类标识符,用于实体匹配和聚类任务。 - Cluster Label:上述聚类的标题。 - Category ID:产品所属类别的标识符,主要用于包含多个类别的综合数据集,适用于分类和类别分析任务。 - Category Label:上述类别的标题。

此外,数据集的设计考虑了以下两个关键目标: 1. 研究相同算法在不同供应商提供的类似产品上的性能差异。 2. 评估算法在不同类别产品上的有效性。

为此,数据集不仅包含了同类产品,还涵盖了多种不同类别的产品。此外,每个平台还提供了一个综合数据集,包含了来自所有 8 个类别的产品,适用于异构数据集的性能分析。

数据用途概述:

该数据集适用于以下多个应用场景: 1. 产品聚类与分类研究:研究人员可以使用这些数据集验证和优化聚类、分类算法的性能,特别是在处理电子商务产品信息时。 2. 产品匹配算法开发:数据集中的基准信息可用于评估匹配算法的准确性,特别是在处理产品标题相似度和实体匹配问题时。 3. 电子商务产品信息检索:通过分析产品类别、供应商和聚类信息,提升产品检索和推荐系统的效率。 4. 算法评估与基准测试:数据集的基准文件为算法开发提供了标准化的评估依据,便于不同算法之间的对比。 5. 学术研究与论文发表:研究人员可以利用这些数据集开展相关研究,并参考提供的参考文献进行学术交流。

数据格式与使用说明: - 数据格式:CSV 和 XML。 - 数据规模:包含 18 个数据集,分为多个产品类别,以及两个平台的综合数据集。 - 数据字段:包含产品标识、标题、供应商标识、聚类标识、类别标识等关键信息。

版权声明: 该数据集采用通用公共许可协议(GPL 2.0)发布,允许任何人使用。如果用于研究目的,研究人员应将以下参考文献列入发表论文的参考文献列表中: 1. L. Akritidis, A. Fevgas, P. Bozanis, C. Makris, "A Self-Verifying Clustering Approach to Unsupervised Matching of Product Titles", Artificial Intelligence Review (Springer), pp. 1-44, 2020. 2. L. Akritidis, P. Bozanis, "Effective Unsupervised Matching of Product Titles with k-Combinations and Permutations", In Proceedings of the 14th IEEE International Conference on Innovations in Intelligent Systems and Applications (INISTA), pp. 1-10, 2018. 3. L. Akritidis, A. Fevgas, P. Bozanis, "Effective Product Categorization with Importance Scores and Morphological Analysis of the Titles", In Proceedings of the 30th IEEE International Conference on Tools with Artificial Intelligence (ICTAI), pp. 213-220, 2018.

通过上述数据集,研究人员和开发者可以深入探索产品信息的组织与检索问题,为电子商务领域的算法优化和应用创新提供有力支持。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 20, 2025, 01:55 (UTC)
创建于 四月 20, 2025, 01:54 (UTC)