数据集概述
本数据集记录2020年3月12日至8月31日期间,捷克维基百科文章对《社会学百科全书》(Sociologická encyklopedie)及其印刷原版著作的引用情况。数据通过定期采集生成,包含每日监测文件夹,内有JSON和CSV格式文件,记录引用链接及特定文本字符串的出现情况,用于学术分析。
文件详解
- 主文件
- 文件名称:data.zip
- 文件格式:ZIP
- 内容说明:包含每日监测文件夹,每个文件夹内有对应日期的JSON和CSV文件,记录引用链接及文本字符串出现情况
- 引用链接文件(每个日期文件夹内)
- 文件名称:ext_usage.{json|csv}、ext_usage_http.{json|csv}
- 文件格式:JSON、CSV
- 字段映射:
- CSV文件字段:空白列(记录编号)、page_id(页面ID)、title(页面标题)、url(页面URL)
- JSON文件:MediaWiki API的原始响应数据
- 文本字符串出现文件(每个日期文件夹内,对应不同字符串)
- 文件名称:对应字符串监测的JSON/CSV文件
- 文件格式:JSON、CSV
- 字段映射:
- CSV文件字段:空白列(记录编号)、article_titles(文章标题)、article_id(文章ID)、article_text_mention(包含搜索词的文章文本片段)
- JSON文件:MediaWiki API的原始响应数据
- 监测的文本字符串:
- "Sociologická encyklopedie"
- "Velký sociologický slovník"
- "Malý sociologický slovník"
- "Slovník českých sociologů"
- "Slovník sociologického zázemí české sociologie"
数据来源
查尔斯大学硕士论文:Rožek, Š. A Verified Knowledge Source and Wikipedia. [Master’s Thesis] Charles University, Faculty of Arts, Institute of Information Studies and Librarianship : Prague CZ, 2020.
适用场景
- 知识传播研究:分析《社会学百科全书》在捷克维基百科中的引用频率及时空分布
- 学术资源影响力评估:评估社会学类参考资料对在线百科内容的贡献度
- 维基百科内容分析:研究特定学术文本字符串在维基百科文章中的出现规律
- 数字人文研究:探索学术资源与公共知识平台的互动关系
- 信息检索优化:基于MediaWiki API响应数据,优化学术资源引用的检索策略