数据集概述
本数据集为架构侵蚀违规症状自动化识别研究的复现包,包含代码审查评论数据、特征文件、预训练词嵌入模型下载链接、实验脚本及开发者调查访谈资料,支持复现机器学习、深度学习及大语言模型分类器实验。
文件详解
该数据集由三个压缩文件构成,具体说明如下:
- 数据文件包: data.zip
- 内容说明:包含特征文件、预训练词嵌入模型下载链接及标注数据
- 子文件:
- extracted_features/:分类器输入的特征文件,含基于word2vec、fastText、GloVe的词向量
- word_embedding/:预训练词嵌入模型相关文件,含Download_url.txt(下载链接)、embedding_dim.py(调整模型维度脚本)
- Violation symptoms.xlsx:标注为违规的代码审查评论数据
- Randomly_selected_comments.xlsx:标注为非违规的代码审查评论数据
- 脚本文件包: scripts.zip
- 内容说明:实验所需Python脚本,含数据预处理、分类器训练及评估代码
- 核心脚本:
- feature_extraction.py:数据预处理与特征提取(含分词、去噪、停用词移除等步骤)
- Classifiers_ML.py:机器学习分类器训练(SVM、LR、DT等算法)
- Classifiers_DL_classifiers.py:深度学习分类器训练(TextCNN算法)
- LLM.py:大语言模型分类器生成(GPT-4o、Qwen-2.5等模型)
- LLM_performance.py:大语言模型分类器性能评估
- LLM_voting.py:大语言模型集成分类器(多数投票策略)
- 调查访谈文件包: survey and interview.zip
- 内容说明:研究相关的调查与访谈资料
- 包含文件:调查表单、访谈协议及问题、参与者邮件模板
适用场景
- 软件架构研究:分析代码审查中架构侵蚀违规症状的识别方法
- 自然语言处理应用:验证预训练词嵌入模型在代码评论分类任务中的性能
- 机器学习算法对比:比较传统机器学习、深度学习与大语言模型在特定文本分类任务中的效果
- 软件工程实践:探索自动化工具在架构合规性维护中的实际价值
- 开源社区研究:分析OpenStack、Qt等开源项目的代码审查质量与架构管理实践