ZORA_Extract_学术文章出版商标识号提取数据

数据集概述

本数据集是通过Pentaho数据集成工具从ZORA平台的EPrints XML导出文件中提取的学术文章元数据,聚焦于按出版商分类的文章标识信息。数据包含Elsevier、Springer、Wiley等出版商的文章记录,涵盖文章URL、发表年份、DOI、开放获取状态等核心字段,可用于分析学术出版分布特征。

文件详解

  • 输入文件
  • 文件名称:export_zora_XML_articles_01.01.2016.xml、export_zora_XML_sample.xml
  • 文件格式:XML
  • 字段映射介绍:ZORA平台导出的学术文章原始XML元数据,为数据提取提供基础数据源
  • 处理脚本
  • 文件名称:Extract_Article_Number_by_Publisher_ZORA.ktr
  • 文件格式:KTR
  • 字段映射介绍:Pentaho数据集成转换脚本,用于从XML文件中提取并转换元数据生成CSV结果
  • 输出CSV文件
  • 单出版商文章列表:articles_by_Elsevier.csv、articles_by_springer.csv、articles_by_Wiley.csv
  • 文件格式:CSV
  • 字段映射介绍:包含repository_url(文章URL)、date_year(发表年份)、doi(数字对象标识符)、full_text_status(开放获取状态)、ispublished(发布状态)、publisher(出版商)、publication(出版物名称)、issn(国际标准刊号)
  • 按年份分组的出版商文章统计:articles_by_Elsevier_grouped_by_year_open_access.csv、articles_by_Springer_grouped_by_year_closed_access.csv、articles_by_Springer_grouped_by_year_open_access.csv、articles_by_Wiley_grouped_by_year_closed_access.csv
  • 文件格式:CSV
  • 字段映射介绍:在单出版商字段基础上,按年份和开放获取状态分组统计的文章数据

数据来源

ZORA平台(http://www.zora.uzh.ch

适用场景

  • 学术出版分布分析:统计不同出版商(Elsevier、Springer等)的文章数量及年度变化趋势
  • 开放获取政策研究:分析各出版商的开放获取文章占比及时间分布特征
  • 学术资源整合:为学术数据库建设提供标准化的出版商-文章关联元数据
  • 出版趋势监测:跟踪特定出版商在2008-2015年间的学术产出变化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 599.19 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。