数据集

中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai

数据来源：互联网公开数据

标签：文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习

数据概述：

本数据集包含三个子集，均与中文文本分类任务相关，主要基于RoBERTa模型进行标签生成与处理。

AM-1 (使用180_filtered_rb标记的训练集): 该数据集是基于180_filtered_rb标签进行处理的训练集，其中180_filtered_rb标签是由官方标签训练的RoBERTa模型对每篇训练文本进行标记，并经过清洗后的标签。 AM-1数据集提供了经过RoBERTa模型处理、并经过清洗的文本分类标签，用于训练模型。
AM-unique (180_filtered_rb里与官方标签不重合的unique标签): 该数据集包含了180_filtered_rb标签中，与官方标签不重合的独有标签。这些标签代表了RoBERTa模型识别出的，但未被官方标签覆盖的文本分类类别，可用于探索新的分类维度，或评估模型在不同标签集上的表现。
lv1-rb-tag (使用RoBERTa标记train的最原始文件): 该数据集是使用RoBERTa模型标记原始训练文本后，未经任何筛选和处理的最原始标签文件。该数据集提供了RoBERTa模型对训练文本的初步标记结果，可用于模型训练前的预处理，以及模型性能的基线评估。

数据用途概述：

该数据集可用于中文文本分类模型的训练、评估和分析。 AM-1数据集可直接用于训练分类模型，AM-unique数据集可用于探索新的分类类别，评估模型的泛化能力，lv1-rb-tag数据集可用于对比原始标签和清洗后标签的效果，以及进行更深入的分析。此外，这些数据集也适用于研究RoBERTa模型在中文文本分类任务中的应用，以及不同标签处理方式对模型性能的影响。

数据与资源

versions_20250401032034.zipZIP
35.38 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	35.38 MiB
最后更新	2025年4月24日
创建于	2025年4月24日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。