架构侵蚀违规症状自动化识别研究复现包

数据集概述

本数据集为架构侵蚀违规症状自动化识别研究的复现包,包含代码审查评论数据、特征文件、预训练词嵌入模型下载链接、实验脚本及开发者调查访谈资料,支持复现机器学习、深度学习及大语言模型分类器实验。

文件详解

该数据集由三个压缩文件构成,具体说明如下: - 数据文件包: data.zip - 内容说明:包含特征文件、预训练词嵌入模型下载链接及标注数据 - 子文件: - extracted_features/:分类器输入的特征文件,含基于word2vec、fastText、GloVe的词向量 - word_embedding/:预训练词嵌入模型相关文件,含Download_url.txt(下载链接)、embedding_dim.py(调整模型维度脚本) - Violation symptoms.xlsx:标注为违规的代码审查评论数据 - Randomly_selected_comments.xlsx:标注为非违规的代码审查评论数据 - 脚本文件包: scripts.zip - 内容说明:实验所需Python脚本,含数据预处理、分类器训练及评估代码 - 核心脚本: - feature_extraction.py:数据预处理与特征提取(含分词、去噪、停用词移除等步骤) - Classifiers_ML.py:机器学习分类器训练(SVM、LR、DT等算法) - Classifiers_DL_classifiers.py:深度学习分类器训练(TextCNN算法) - LLM.py:大语言模型分类器生成(GPT-4o、Qwen-2.5等模型) - LLM_performance.py:大语言模型分类器性能评估 - LLM_voting.py:大语言模型集成分类器(多数投票策略) - 调查访谈文件包: survey and interview.zip - 内容说明:研究相关的调查与访谈资料 - 包含文件:调查表单、访谈协议及问题、参与者邮件模板

适用场景

  • 软件架构研究:分析代码审查中架构侵蚀违规症状的识别方法
  • 自然语言处理应用:验证预训练词嵌入模型在代码评论分类任务中的性能
  • 机器学习算法对比:比较传统机器学习、深度学习与大语言模型在特定文本分类任务中的效果
  • 软件工程实践:探索自动化工具在架构合规性维护中的实际价值
  • 开源社区研究:分析OpenStack、Qt等开源项目的代码审查质量与架构管理实践
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 7.16 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。