数据集概述
本数据集是通过Pentaho数据集成工具从ZORA平台的EPrints XML导出文件中提取的学术文章元数据,聚焦于按出版商分类的文章标识信息。数据包含Elsevier、Springer、Wiley等出版商的文章记录,涵盖文章URL、发表年份、DOI、开放获取状态等核心字段,可用于分析学术出版分布特征。
文件详解
- 输入文件
- 文件名称:export_zora_XML_articles_01.01.2016.xml、export_zora_XML_sample.xml
- 文件格式:XML
- 字段映射介绍:ZORA平台导出的学术文章原始XML元数据,为数据提取提供基础数据源
- 处理脚本
- 文件名称:Extract_Article_Number_by_Publisher_ZORA.ktr
- 文件格式:KTR
- 字段映射介绍:Pentaho数据集成转换脚本,用于从XML文件中提取并转换元数据生成CSV结果
- 输出CSV文件
- 单出版商文章列表:articles_by_Elsevier.csv、articles_by_springer.csv、articles_by_Wiley.csv
- 文件格式:CSV
- 字段映射介绍:包含repository_url(文章URL)、date_year(发表年份)、doi(数字对象标识符)、full_text_status(开放获取状态)、ispublished(发布状态)、publisher(出版商)、publication(出版物名称)、issn(国际标准刊号)
- 按年份分组的出版商文章统计:articles_by_Elsevier_grouped_by_year_open_access.csv、articles_by_Springer_grouped_by_year_closed_access.csv、articles_by_Springer_grouped_by_year_open_access.csv、articles_by_Wiley_grouped_by_year_closed_access.csv
- 文件格式:CSV
- 字段映射介绍:在单出版商字段基础上,按年份和开放获取状态分组统计的文章数据
数据来源
ZORA平台(http://www.zora.uzh.ch)
适用场景
- 学术出版分布分析:统计不同出版商(Elsevier、Springer等)的文章数量及年度变化趋势
- 开放获取政策研究:分析各出版商的开放获取文章占比及时间分布特征
- 学术资源整合:为学术数据库建设提供标准化的出版商-文章关联元数据
- 出版趋势监测:跟踪特定出版商在2008-2015年间的学术产出变化