数据集概述
本数据集为第三届动态软件文档国际研讨会(DySDoc 3)举办的首届软件文档生成挑战赛(DocGen)提供的Apache POI 3.17预处理数据,包含调用图、继承层次、问题记录、提交记录及StackOverflow帖子5类数据,支撑软件文档生成相关研究。
文件详解
- 调用图数据
- 文件名称:call-graph-poi-3.17-all.zip
- 文件格式:ZIP(含CSV文件)
- 字段映射介绍:CSV包含call_type(调用类型:类C/方法M)、caller(调用方全限定名)、method_call_type(方法调用类型:M/I/O/S/D)、callee(被调用方全限定名)
- 继承层次数据
- 文件名称:poi-3.17-inheritance.zip
- 文件格式:ZIP(含CSV文件)
- 字段映射介绍:CSV包含record_id(序号)、parent_class(父类)、child_class(子类)、relationship_type(关系类型:extends/implements)
- 问题记录数据
- 文件名称:bugzilla-poi-dump.zip
- 文件格式:ZIP(含CSV及XML文件)
- 字段映射介绍:CSV包含record_id(序号)、issue_id(问题ID)、issue_url(问题链接)、issue_title(问题标题)、xml_path(XML路径);"poi"文件夹含所有问题XML原始文件
- 提交记录数据
- 文件名称:poi-commits.zip
- 文件格式:ZIP(含JSON文件)
- 字段映射介绍:JSON包含Commit hash(提交哈希)、Parent commit hash(父提交哈希)、Commit message(提交信息)、Commit time(提交时间)、Committer name(提交者)、Method-level changes(方法级变更:增删改重命名及方法全限定名)
- StackOverflow帖子数据
- 文件名称:apache-poi-SO.zip
- 文件格式:ZIP(含JSON文件)
- 字段映射介绍:JSON包含6299条带apache-poi标签的Stack Overflow帖子数据
数据来源
第三届动态软件文档国际研讨会(DySDoc 3)首届软件文档生成挑战赛(DocGen)
适用场景
- 软件文档生成模型训练: 基于Apache POI代码结构(调用图、继承层次)和历史数据(问题、提交、SO帖子)训练文档生成模型
- 代码-文档关联分析: 分析方法调用、类继承与文档内容的对应关系
- 软件维护研究: 利用问题记录和提交数据研究Apache POI的维护模式与缺陷修复规律
- 开发者社区交互分析: 通过StackOverflow帖子挖掘Apache POI相关的开发疑问与解决方案
- 动态软件文档构建: 结合多源数据构建实时更新的Apache POI软件文档系统