GitHub问题分类预测数据集

GitHub问题分类预测数据集 数据来源:互联网公开数据
标签:GitHub, bug预测, 特性提取, 文本分类, NLP, 机器学习, 预训练模型

数据概述:
本数据集用于GitHub问题分类预测任务,包含训练集、测试集及额外训练数据。数据集主要字段包括GitHub问题的标题、正文及标签。标签分为三类:0代表bug,1代表特性请求,2代表问题咨询。训练集(train.json)包含150,000行数据,测试集(test.json)包含30,000行数据,额外训练集(train_extra.json)包含300,000行数据,可用于模型训练的增强。数据集旨在支持自然语言处理任务,特别是基于文本的分类任务。

数据用途概述:
该数据集适用于文本分类、自然语言处理模型训练及特征提取任务。研究人员和开发者可以利用此数据集训练模型以预测GitHub问题的类别(如bug、特性请求或问题咨询)。数据集特别适合用于探索预训练语言模型(如BERT)的应用,以及优化模型的泛化能力。此外,数据集可用于比赛场景,帮助参与者评估模型性能并提升代码质量。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 97.58 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。