电商平台商品分类与聚类分析数据集-adilashrafi

电商平台商品分类与聚类分析数据集-adilashrafi 数据来源:互联网公开数据 标签:电商,商品,分类,聚类,文本挖掘,价格比较,产品,机器学习 数据概述: 本数据集来源于知名商品比价平台PriceRunner,包含了35311个商品报价,涵盖10个商品类别,由306个不同的商家提供。该数据集为评估分类、聚类和实体匹配算法提供了理想的测试环境。尽管数据主要涉及商品信息,但其应用范围可扩展至任何涉及文本/短文本挖掘的场景。

数据字段说明:

字段名称 | 角色 | 数据类型 | 描述 | 单位 | 缺失值 ||||| 商品ID | 特征 | 整数 | 唯一标识商品的ID | 无 | 否 商品标题 | 特征 | 类别 | 商品的标题描述 | 无 | 否 商家ID | 特征 | 整数 | 唯一标识商家的ID | 无 | 否 聚类ID | 特征 | 整数 | 商品所属聚类的ID | 无 | 否 聚类标签 | 特征 | 类别 | 商品所属聚类的标签描述 | 无 | 否 类别ID | 特征 | 整数 | 商品所属类别的ID | 无 | 否 类别标签 | 特征 | 类别 | 商品所属类别的标签描述 | 无 | 否

数据用途概述: 该数据集适用于商品分类、商品聚类、文本相似度计算、商家行为分析、产品推荐系统构建等多种场景。研究人员可以利用该数据评估不同分类算法的性能;企业可以利用该数据进行市场分析和竞品分析;开发者可以利用该数据训练和测试机器学习模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.6 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。