数据集概述
本数据集包含纯JSON格式的查询表,用于将ArXiv出版物版本标识符映射到对应的发布日期。JSON文件归档于压缩包中,按标识符的日期前缀命名,例如1908.json对应含1908前缀的版本标识符。数据集还包含工作流归档文件、文件名称列表JSON及说明文档,总计四个文件,支持数据可重复性验证。
文件详解
- 归档数据文件
- 文件名称:arxiv-publication-dates-by-identifier-prefix.tar.gz
- 文件格式:GZIP压缩包
- 字段映射介绍:包含多个按日期前缀命名的JSON文件,每个JSON文件以ArXiv版本标识符为键,对应发布日期(格式YYYY-MM-DD)为值
- 工作流归档文件
- 文件名称:arxiv-publication-dates-workflow.tar.gz
- 文件格式:GZIP压缩包
- 字段映射介绍:包含生成数据集的Snakemake工作流文件,用于数据可重复性验证
- 文件名称列表
- 文件名称:file_names.json
- 文件格式:JSON
- 字段映射介绍:JSON数组结构,长度为239,包含数据集中所有文件名称的列表
- 说明文档
- 文件名称:README.md
- 文件格式:Markdown
- 字段映射介绍:包含数据集的核心描述、文件结构说明及使用指引
适用场景
- ArXiv元数据分析:用于查询特定版本标识符对应的发布日期,支持学术文献时间序列研究
- 学术数据可重复性验证:通过工作流文件复现数据集生成过程,确保数据可靠性
- 文献计量学研究:结合发布日期分析ArXiv论文的版本更新规律与时间分布特征
- 学术数据平台开发:作为元数据组件集成到学术文献检索或分析系统中