数据集

架构侵蚀违规症状自动化识别研究复现包

数据集概述

本数据集为架构侵蚀违规症状自动化识别研究的复现包，包含代码审查评论数据、特征文件、预训练词嵌入模型下载链接、实验脚本及开发者调查访谈资料，支持复现机器学习、深度学习及大语言模型分类器实验。

文件详解

该数据集由三个压缩文件构成，具体说明如下： - 数据文件包: data.zip - 内容说明：包含特征文件、预训练词嵌入模型下载链接及标注数据 - 子文件： - extracted_features/：分类器输入的特征文件，含基于word2vec、fastText、GloVe的词向量 - word_embedding/：预训练词嵌入模型相关文件，含Download_url.txt（下载链接）、embedding_dim.py（调整模型维度脚本） - Violation symptoms.xlsx：标注为违规的代码审查评论数据 - Randomly_selected_comments.xlsx：标注为非违规的代码审查评论数据 - 脚本文件包: scripts.zip - 内容说明：实验所需Python脚本，含数据预处理、分类器训练及评估代码 - 核心脚本： - feature_extraction.py：数据预处理与特征提取（含分词、去噪、停用词移除等步骤） - Classifiers_ML.py：机器学习分类器训练（SVM、LR、DT等算法） - Classifiers_DL_classifiers.py：深度学习分类器训练（TextCNN算法） - LLM.py：大语言模型分类器生成（GPT-4o、Qwen-2.5等模型） - LLM_performance.py：大语言模型分类器性能评估 - LLM_voting.py：大语言模型集成分类器（多数投票策略） - 调查访谈文件包: survey and interview.zip - 内容说明：研究相关的调查与访谈资料 - 包含文件：调查表单、访谈协议及问题、参与者邮件模板

适用场景

软件架构研究：分析代码审查中架构侵蚀违规症状的识别方法
自然语言处理应用：验证预训练词嵌入模型在代码评论分类任务中的性能
机器学习算法对比：比较传统机器学习、深度学习与大语言模型在特定文本分类任务中的效果
软件工程实践：探索自动化工具在架构合规性维护中的实际价值
开源社区研究：分析OpenStack、Qt等开源项目的代码审查质量与架构管理实践

数据与资源

15893540.zipZIP
7.16 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	7.16 MiB
最后更新	2025年12月21日
创建于	2025年12月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。