数据集

马尔克-试点数据集

数据来源：互联网公开数据

标签：产品匹配,实体识别,二进制分类,不平衡数据,机器学习

数据概述：本数据集为产品匹配研究提供了高质量的数据资源。每个数据点由一对产品及其二进制标签组成，标签指示这两个产品是否指向同一个实体。数据集分为四个子集：Full、L、M、S，分别包含960,532、243,954、66,556和18,973个数据点。各子集的正负样本比例不同，不平衡比率分别为2.3、4.5、9.0和18.1。测试集包含5,000个手动验证的数据点，适用于所有子集。

数据用途概述：该数据集适用于产品匹配算法的研发、机器学习模型的训练与评估，尤其是处理不平衡数据的场景。研究人员可利用此数据集进行实体识别、商品推荐系统优化以及跨平台产品匹配研究。此外，数据集也适合用于教育培训，帮助学习者理解产品匹配的实际应用和挑战。

数据与资源

马尔克-试点数据集.zipZIP
609.49 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	609.49 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

马尔克-试点数据集

数据与资源

附加信息

注册成功！