马尔克-试点数据集

马尔克-试点数据集

数据来源:互联网公开数据

标签:产品匹配,实体识别,二进制分类,不平衡数据,机器学习

数据概述: 本数据集为产品匹配研究提供了高质量的数据资源。每个数据点由一对产品及其二进制标签组成,标签指示这两个产品是否指向同一个实体。数据集分为四个子集:Full、L、M、S,分别包含960,532、243,954、66,556和18,973个数据点。各子集的正负样本比例不同,不平衡比率分别为2.3、4.5、9.0和18.1。测试集包含5,000个手动验证的数据点,适用于所有子集。

数据用途概述: 该数据集适用于产品匹配算法的研发、机器学习模型的训练与评估,尤其是处理不平衡数据的场景。研究人员可利用此数据集进行实体识别、商品推荐系统优化以及跨平台产品匹配研究。此外,数据集也适合用于教育培训,帮助学习者理解产品匹配的实际应用和挑战。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 10:31 (UTC)
创建于 五月 31, 2025, 10:29 (UTC)