-
CodeGen_Based_构建系统代码生成实证研究数据集
2026年1月30日 30 93 20
数据集概述 本数据集为构建系统代码生成实证研究的复制包,包含用于训练和测试CodeGen大语言模型的构建文件数据。数据分为来自Apache软件基金会的专家数据集(9,426个构建文件)和来自GitHub的通用数据集(3,917个构建文件),总计13,343个Maven构建文件,用于研究大语言模型在构建系统代码预测中的应用效果。 文件详解 数据集压缩包...
-
cocommit_Based_开源软件开发者同步协作行为数据_2012
2026年1月22日 30 187 50
数据集概述 本数据集包含Apache软件基金会31个开源项目的开发者协作数据,采集于2012年3月24日。数据记录了开发者在Git仓库的提交活动(含开发者ID、文件信息、提交时间及代码行数变化)和邮件列表的通信活动(含收发件人ID及时间),并通过半自动化方法解决了开发者多别名问题。 文件详解 文件名称:cocommit.zip 文件格式:ZIP...
-
Apache软件基金会贡献统计数据集ApacheSoftwareFoundationContributionStatistics-quinooj
2025年5月29日 30 98 68
Apache软件基金会贡献统计数据集ApacheSoftwareFoundationContributionStatistics-quinooj 数据来源:互联网公开数据 标签:开源项目,社区贡献,数据集,软件工程,数据分析,项目管理,机器学习,技术社区 数据概述:...
-
预处理分析GPT-3-5能力数据集
2025年4月15日 30 133 123
预处理分析GPT-3-5能力数据集 数据来源:互联网公开数据 标签:GPT-3.5,情感分析,礼貌度分析,软件开发,Apache ZooKeeper,Ortu研究,数据分析 数据概述:...



