构建日志分析数据集LogChunks

数据集概述

该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。

文件详解

该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP (.zip) - 内部结构及内容: - log-collection/ 目录: 包含日志收集工具 - logs/ 目录: 按语言和仓库分类存储的Travis CI原始构建日志 - build-failure-reason/ 目录: 每个仓库对应一个XML文件,含人工标注的构建失败原因片段、关键词及结构分类信息

适用场景

  • 软件工程研究: 分析不同开发语言项目的构建失败模式与常见原因
  • 日志挖掘算法开发: 训练和测试自动识别构建失败原因的模型
  • DevOps工具优化: 为CI/CD系统的构建错误诊断功能提供数据支持
  • 软件质量保障: 研究构建日志结构特征与软件项目质量的关联
  • 自然语言处理应用: 探索技术日志文本的关键词提取与分类方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 22.99 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。