数据集概述
本数据集为论文“Opportunities and Security Risks of Technical Leverage: A Replication Study on the NPM Ecosystem”的复制包,包含14,042个稳定版本的元数据、技术杠杆数据及漏洞报告,支持复现研究的全流程分析,共4个文件。
文件详解
- Readme.md
- 文件格式:MD
- 字段映射介绍:说明复制包结构,包含scripts(Jupyter notebook脚本,分四步生成最终数据集)和data文件夹的内容说明
- data.zip
- 文件格式:ZIP
- 字段映射介绍:包含原始数据文件,如LibrariesNPMallReady.csv(libraries.io挖掘的NPM库原始数据)、top_based_dependent_packages_updated.csv(基于依赖量筛选的库数据)
- scripts.zip
- 文件格式:ZIP
- 字段映射介绍:包含Jupyter notebook脚本,覆盖生成最终数据集的全流程步骤
- Dataset.csv
- 文件格式:CSV
- 字段映射介绍:包含package、version、time、count_direct_dependencies、list_of_dependencies、list_resolved_versions、loc_own、loc_deps、direct_technical_leverage、delta_loc_own、delta_loc_deps、change_distance、change_direction等字段
数据来源
论文“Opportunities and Security Risks of Technical Leverage: A Replication Study on the NPM Ecosystem”
适用场景
- NPM生态系统技术杠杆分析: 研究开源库的技术杠杆效应及其对依赖项目的影响
- 软件供应链安全风险评估: 基于漏洞报告和依赖关系数据,识别NPM生态系统的安全风险点
- 开源项目依赖管理研究: 分析直接依赖数量、依赖版本解析等特征对项目稳定性的影响
- 代码量变化与技术杠杆关联研究: 探索loc_own(自有代码量)、loc_deps(依赖代码量)变化与技术杠杆的关系
- 学术研究复现: 支持复现论文中关于NPM生态系统技术杠杆机会与风险的研究结论