数据集概述
本数据集包含斯洛文尼亚公共领域学术文档的元数据条目,涵盖本科及研究生论文、研究与专业文章等多种类型。数据来自斯洛文尼亚多个独立图书馆系统,经去重合并后形成统一元数据方案,包含标题、关键词、摘要、类型、作者、年份等属性,支持文本挖掘与内容推荐系统开发。
文件详解
数据集包含CSV和JSON两种格式的结构化数据文件及说明文档,具体如下:
- CSV格式文件(位于CSV/目录下):
- OpenscienceMetadata.csv:主元数据文件,字段以竖线分隔,包含文档标题、关键词、摘要、类型、作者、年份、URL、UDC等属性。
- OpenScienceMetadataTypology.csv:文档类型元数据文件。
- OpenScienceMetadataAuthors.csv:作者元数据文件。
- OpenScienceMetadataOrganizations.csv:机构元数据文件。
- README.txt:说明文档,提示CSV文件字段使用竖线分隔。
- JSON格式文件(位于JSON/目录下):
- OpenScienceMetadata.json:主元数据文件,JSON格式。
- OpenScienceMetadataTypology.json:文档类型元数据文件。
- OpenScienceMetadataAuthors.json:作者元数据文件。
- OpenScienceMetadataOrganizations.json:机构元数据文件。
适用场景
- 文本挖掘研究:用于学术文档的关键词提取、主题建模等文本分析任务。
- 文本分类开发:可作为训练集,构建学术文档类型、主题分类模型。
- 推荐系统开发:支持基于内容的学术文档推荐系统的开发与性能基准测试。
- 学术资源分析:用于分析斯洛文尼亚学术产出的类型分布、时间趋势及机构合作网络。