数据集概述
本数据集是PUMA(出版物元数据增强)软件管道的输出结果,通过对期刊文章列表补充外部元数据,生成数据文件及可探索的HTML页面截图,包含作者、关键词等多维度统计数据与可视化内容。
文件详解
该数据集包含数据文件和截图文件两类,具体说明如下:
- 截图文件(共7个,PNG格式):
- PUMA_home_2021-01-15.png:所有出版物的汇总信息截图
- PUMA_2011_2021-01-15.png:2011年所有出版物的截图
- PUMA_map_2021-01-15.png:第一作者国家的 choropleth 地图截图
- PUMA_asthma_2021-01-15.png:含哮喘 MeSH 主题的所有出版物截图
- PUMA_metrics_2021-01-15.png:简单指标统计截图
- PUMA_word_cloud_2021-01-15.png:摘要文本的词云截图
- PUMA_coverage_2021-01-15.png:元数据完整性表格截图
- 数据文件(共10个,CSV格式):
- authors.csv:作者出现频率统计
- first_authors.csv:第一作者出现频率统计
- first_authors_inst.csv:第一作者所属机构出现频率统计
- journals.csv:期刊发表频率统计
- abstract_lemmatized.csv:摘要词形还原后的词汇频率统计
- abstract_lemmatized_by_year.csv:按年份划分的摘要词形还原词汇频率统计
- title_lemmatized.csv:标题词形还原后的词汇频率统计
- title_lemmatized_by_year.csv:按年份划分的标题词形还原词汇频率统计
- keywords_lemmatized.csv:关键词词形还原后的词汇频率统计
- keywords_lemmatized_by_year.csv:按年份划分的关键词词形还原词汇频率统计
数据来源
PUMA软件管道(GitHub仓库:https://github.com/OllyButters/puma)
适用场景
- 学术文献计量分析:统计作者、期刊、关键词等维度的分布特征
- 科研趋势研究:通过年度词汇频率变化分析研究热点演变
- 学术影响力评估:基于作者及机构出现频率评估科研贡献度
- 科研数据可视化:利用截图资源快速展示文献分布、主题词云等内容
- 元数据质量评估:通过元数据完整性表格分析文献元数据覆盖情况