技术债务类型识别与分类机器学习复现包_ISE23

数据集概述

本数据集是论文《StackOverflow讨论中技术债务类型的机器学习识别与分类》的复现包,包含研究所需的数据集、分析代码及可视化结果,支持相关研究的复现与扩展。

文件详解

  • 数据文件:
  • dataset.csv:CSV格式,提供复现研究用的原始数据集,包含Id、Category、Body字段
  • example_test_balanced.csv:CSV格式,提供模型训练用的示例输入数据集,包含Id、Category、Message字段
  • 代码文件:
  • Code_Analysis_Technical_Debt.ipynb:Jupyter Notebook格式,研究使用的分析代码
  • 可视化结果文件(PNG格式):
  • design_cloud.png:设计类技术债务关键词云图
  • test_cloud.png:测试类技术债务关键词云图
  • infrastructure_cloud.png:基础设施类技术债务关键词云图
  • code_cloud.png:代码类技术债务关键词云图
  • archtecture_cloud.png:架构类技术债务关键词云图

适用场景

  • 软件工程研究:技术债务类型识别的机器学习方法复现与验证
  • 自然语言处理应用:StackOverflow文本数据的技术债务分类模型训练
  • 技术债务可视化:关键词云图在技术债务分析中的应用研究
  • 实证软件工程:基于StackOverflow讨论的技术债务实证分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.71 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。