Mapping_plague_Based_自然语言处理鼠疫地理映射数据集

数据集概述

本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码,包含基于Sticker(1908)和Biraben(1975)两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集,用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。

文件详解

  • 核心数据文件
  • 最终地理编码数据集:plague_sticker_v1.csv(CSV格式)、plague_biraben_v1.csv(CSV格式),为项目生成的最终鼠疫相关地理编码数据
  • 数据字典:plague_datadict.xlsx(XLSX格式),解释数据集字段含义
  • Sticker论著相关文件
  • 原始OCR文本:sticker_OCR_orig.txt(TXT格式),含原始OCR识别文本
  • 预处理OCR文本:sticker_OCR.txt(TXT格式),去除括号内作者名的OCR文本
  • 进一步预处理文本:sticker_textprep.rds(RDS格式),经额外预处理的OCR文本
  • 人工标注文件:sticker_goldstandard_annotated_1.tsv(TSV格式)、sticker_goldstandard_annotated_2.tsv(TSV格式),人工标注数据
  • 共识标注文件:sticker_goldstandard_annotated_consensus.tsv(TSV格式),人工标注达成共识后的文件
  • 地名识别金标准:sticker_standard_toponyms.csv(CSV格式),含分词、字符起止位置及是否为地点的标注
  • NER性能对比:sticker_comparison_NER.rds(RDS格式),不同NER工具的性能对比数据
  • 地理编码性能对比:sticker_comparison_geocoding.rds(RDS格式),不同地理编码服务的性能对比数据
  • 压缩包文件:plague.zip(ZIP格式),包含上述所有文件的压缩包

数据来源

项目“Mapping the plague through natural language processing”

适用场景

  • NLP工具性能评估:对比不同NLP库在历史文本地名识别(NER)任务中的准确率与效率
  • 地理编码服务对比:分析不同地理编码服务对历史地名的匹配精度与覆盖范围
  • 历史鼠疫数据挖掘:利用最终地理编码数据集研究鼠疫的时空分布特征
  • 文本预处理方法研究:基于OCR文本的预处理流程优化,提升历史文本数据质量
  • 历史医学文本数字化:探索叙事性历史医学文献转化为结构化定量数据的方法与路径
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 23.3 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。