DocGen_DySDoc_3_Apache_POI预处理数据_挑战赛数据集

数据集概述

本数据集为第三届动态软件文档国际研讨会(DySDoc 3)举办的首届软件文档生成挑战赛(DocGen)提供的Apache POI 3.17预处理数据,包含调用图、继承层次、问题记录、提交记录及StackOverflow帖子5类数据,支撑软件文档生成相关研究。

文件详解

  • 调用图数据
  • 文件名称:call-graph-poi-3.17-all.zip
  • 文件格式:ZIP(含CSV文件)
  • 字段映射介绍:CSV包含call_type(调用类型:类C/方法M)、caller(调用方全限定名)、method_call_type(方法调用类型:M/I/O/S/D)、callee(被调用方全限定名)
  • 继承层次数据
  • 文件名称:poi-3.17-inheritance.zip
  • 文件格式:ZIP(含CSV文件)
  • 字段映射介绍:CSV包含record_id(序号)、parent_class(父类)、child_class(子类)、relationship_type(关系类型:extends/implements)
  • 问题记录数据
  • 文件名称:bugzilla-poi-dump.zip
  • 文件格式:ZIP(含CSV及XML文件)
  • 字段映射介绍:CSV包含record_id(序号)、issue_id(问题ID)、issue_url(问题链接)、issue_title(问题标题)、xml_path(XML路径);"poi"文件夹含所有问题XML原始文件
  • 提交记录数据
  • 文件名称:poi-commits.zip
  • 文件格式:ZIP(含JSON文件)
  • 字段映射介绍:JSON包含Commit hash(提交哈希)、Parent commit hash(父提交哈希)、Commit message(提交信息)、Commit time(提交时间)、Committer name(提交者)、Method-level changes(方法级变更:增删改重命名及方法全限定名)
  • StackOverflow帖子数据
  • 文件名称:apache-poi-SO.zip
  • 文件格式:ZIP(含JSON文件)
  • 字段映射介绍:JSON包含6299条带apache-poi标签的Stack Overflow帖子数据

数据来源

第三届动态软件文档国际研讨会(DySDoc 3)首届软件文档生成挑战赛(DocGen)

适用场景

  • 软件文档生成模型训练: 基于Apache POI代码结构(调用图、继承层次)和历史数据(问题、提交、SO帖子)训练文档生成模型
  • 代码-文档关联分析: 分析方法调用、类继承与文档内容的对应关系
  • 软件维护研究: 利用问题记录和提交数据研究Apache POI的维护模式与缺陷修复规律
  • 开发者社区交互分析: 通过StackOverflow帖子挖掘Apache POI相关的开发疑问与解决方案
  • 动态软件文档构建: 结合多源数据构建实时更新的Apache POI软件文档系统
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 175.74 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。