数据集

GitHub问题分类预测数据集

GitHub问题分类预测数据集数据来源：互联网公开数据
标签：GitHub, bug预测, 特性提取, 文本分类, NLP, 机器学习, 预训练模型

数据概述：
本数据集用于GitHub问题分类预测任务，包含训练集、测试集及额外训练数据。数据集主要字段包括GitHub问题的标题、正文及标签。标签分为三类：0代表bug，1代表特性请求，2代表问题咨询。训练集(train.json)包含150,000行数据，测试集(test.json)包含30,000行数据，额外训练集(train_extra.json)包含300,000行数据，可用于模型训练的增强。数据集旨在支持自然语言处理任务，特别是基于文本的分类任务。

数据用途概述：
该数据集适用于文本分类、自然语言处理模型训练及特征提取任务。研究人员和开发者可以利用此数据集训练模型以预测GitHub问题的类别（如bug、特性请求或问题咨询）。数据集特别适合用于探索预训练语言模型（如BERT）的应用，以及优化模型的泛化能力。此外，数据集可用于比赛场景，帮助参与者评估模型性能并提升代码质量。

数据与资源

GitHub问题分类预测数据集.zipZIP
97.58 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	97.58 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

GitHub问题分类预测数据集

数据与资源

附加信息

注册成功！