CodeGen_Based_构建系统代码生成实证研究数据集

数据集概述

本数据集为构建系统代码生成实证研究的复制包,包含用于训练和测试CodeGen大语言模型的构建文件数据。数据分为来自Apache软件基金会的专家数据集(9,426个构建文件)和来自GitHub的通用数据集(3,917个构建文件),总计13,343个Maven构建文件,用于研究大语言模型在构建系统代码预测中的应用效果。

文件详解

  • 数据集压缩包
  • 文件名称:dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含专家数据集(Expert dataset)和通用数据集(Generalised dataset),其中专家数据集用于模型微调,通用数据集用于测试;数据集未进行训练/测试、数据/标签或原始/处理的拆分,无README或内容预览文件。

数据来源

论文“An Empirical Study of Next-Line Prediction in Build Systems Using CodeGen”

适用场景

  • 构建系统代码生成研究: 用于分析CodeGen大语言模型在构建系统代码下一行预测任务中的性能表现。
  • 软件维护优化: 探索大语言模型对减轻构建系统维护负担的潜在价值,尤其是功能型代码内容的生成。
  • 模型微调策略研究: 分析不同微调数据量对模型性能的影响,优化大语言模型在特定领域的应用效果。
  • 构建代码类型分析: 研究功能型代码与元数据代码在模型生成任务中的差异,为针对性改进提供数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.26 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。