AlleNoise大规模文本分类含真实标签噪声基准数据集

数据集概述

该数据集是用于大规模多类别文本分类任务的基准数据集,包含来自Allegro.com的电商产品标题及对应类别标签,标签噪声源于真实电商平台用户行为,同时提供人工验证的清洁标签和层级分类体系。

文件详解

  • 文件名称: data_sheet.pdf
  • 文件格式: PDF (.pdf)
  • 文件内容: 为数据集的数据说明文档,可能包含数据集结构、标签噪声分布、分类体系、数据收集方法等核心信息

适用场景

  • 文本分类模型鲁棒性研究: 测试模型在真实标签噪声下的分类性能
  • 噪声标签学习算法开发: 用于设计和验证处理标签噪声的机器学习算法
  • 电商文本分类应用: 探索电商产品标题分类任务中的实际挑战与解决方案
  • 层级分类体系研究: 基于数据集中的层级分类结构开展相关算法研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.09 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。