中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai
数据来源:互联网公开数据
标签:文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习
数据概述:
本数据集包含三个子集,均与中文文本分类任务相关,主要基于RoBERTa模型进行标签生成与处理。
-
AM-1 (使用180_filtered_rb标记的训练集): 该数据集是基于180_filtered_rb标签进行处理的训练集,其中180_filtered_rb标签是由官方标签训练的RoBERTa模型对每篇训练文本进行标记,并经过清洗后的标签。 AM-1数据集提供了经过RoBERTa模型处理、并经过清洗的文本分类标签,用于训练模型。
-
AM-unique (180_filtered_rb里与官方标签不重合的unique标签): 该数据集包含了180_filtered_rb标签中,与官方标签不重合的独有标签。 这些标签代表了RoBERTa模型识别出的,但未被官方标签覆盖的文本分类类别,可用于探索新的分类维度,或评估模型在不同标签集上的表现。
-
lv1-rb-tag (使用RoBERTa标记train的最原始文件): 该数据集是使用RoBERTa模型标记原始训练文本后,未经任何筛选和处理的最原始标签文件。 该数据集提供了RoBERTa模型对训练文本的初步标记结果,可用于模型训练前的预处理,以及模型性能的基线评估。
数据用途概述:
该数据集可用于中文文本分类模型的训练、评估和分析。 AM-1数据集可直接用于训练分类模型,AM-unique数据集可用于探索新的分类类别,评估模型的泛化能力,lv1-rb-tag数据集可用于对比原始标签和清洗后标签的效果,以及进行更深入的分析。 此外,这些数据集也适用于研究RoBERTa模型在中文文本分类任务中的应用,以及不同标签处理方式对模型性能的影响。