Linux内核代码提交历史文件变更数据集-2011-2023-philschmidt

Linux内核代码提交历史文件变更数据集-2011-2023-philschmidt 数据来源:互联网公开数据 标签:Linux内核,Git,代码提交,版本控制,软件开发,代码分析,文件变更,开源,时间序列,开发者

数据概述: 本数据集收录了约12年Linux内核主分支的代码提交历史,详细记录了超过60万次提交,涉及约140万条文件变更记录。每条记录代表了特定提交中被修改的文件,包含了该文件的删除行数、新增行数、文件名以及提交主题等信息。数据还包括了匿名化的作者信息、提交时间戳和作者时区。

数据字段详细说明:

author_timestamp:提交发生时间的UNIX时间戳 commit_hash:提交的SHA-1哈希值 commit_utc_offset_hours:从提交时间提取的UTC时区偏移(小时) filename:在提交中被修改的文件名 n_additions:新增的行数 n_deletions:删除的行数 subject:提交主题 author_id:匿名化的作者ID

数据用途概述: 该数据集适用于代码演进分析、开发者贡献度分析、软件版本控制研究等多种场景。研究人员可以利用此数据进行时间序列分析,了解Linux内核代码库的演进过程;开发者可以分析代码提交历史,评估代码质量和开发者活跃度;教育机构可用于教学,帮助学生理解开源软件的开发流程。此外,该数据集也适合用于创建可视化图表,以更直观地展现代码变更信息。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 43.76 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。