中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai

中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai

数据来源:互联网公开数据

标签:文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习

数据概述:

本数据集包含三个子集,均与中文文本分类任务相关,主要基于RoBERTa模型进行标签生成与处理。

  1. AM-1 (使用180_filtered_rb标记的训练集): 该数据集是基于180_filtered_rb标签进行处理的训练集,其中180_filtered_rb标签是由官方标签训练的RoBERTa模型对每篇训练文本进行标记,并经过清洗后的标签。 AM-1数据集提供了经过RoBERTa模型处理、并经过清洗的文本分类标签,用于训练模型。

  2. AM-unique (180_filtered_rb里与官方标签不重合的unique标签): 该数据集包含了180_filtered_rb标签中,与官方标签不重合的独有标签。 这些标签代表了RoBERTa模型识别出的,但未被官方标签覆盖的文本分类类别,可用于探索新的分类维度,或评估模型在不同标签集上的表现。

  3. lv1-rb-tag (使用RoBERTa标记train的最原始文件): 该数据集是使用RoBERTa模型标记原始训练文本后,未经任何筛选和处理的最原始标签文件。 该数据集提供了RoBERTa模型对训练文本的初步标记结果,可用于模型训练前的预处理,以及模型性能的基线评估。

数据用途概述:

该数据集可用于中文文本分类模型的训练、评估和分析。 AM-1数据集可直接用于训练分类模型,AM-unique数据集可用于探索新的分类类别,评估模型的泛化能力,lv1-rb-tag数据集可用于对比原始标签和清洗后标签的效果,以及进行更深入的分析。 此外,这些数据集也适用于研究RoBERTa模型在中文文本分类任务中的应用,以及不同标签处理方式对模型性能的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 35.38 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。