数据集概述
本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码,包含基于Sticker(1908)和Biraben(1975)两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集,用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。
文件详解
- 核心数据文件
- 最终地理编码数据集:
plague_sticker_v1.csv(CSV格式)、plague_biraben_v1.csv(CSV格式),为项目生成的最终鼠疫相关地理编码数据
- 数据字典:
plague_datadict.xlsx(XLSX格式),解释数据集字段含义
- Sticker论著相关文件
- 原始OCR文本:
sticker_OCR_orig.txt(TXT格式),含原始OCR识别文本
- 预处理OCR文本:
sticker_OCR.txt(TXT格式),去除括号内作者名的OCR文本
- 进一步预处理文本:
sticker_textprep.rds(RDS格式),经额外预处理的OCR文本
- 人工标注文件:
sticker_goldstandard_annotated_1.tsv(TSV格式)、sticker_goldstandard_annotated_2.tsv(TSV格式),人工标注数据
- 共识标注文件:
sticker_goldstandard_annotated_consensus.tsv(TSV格式),人工标注达成共识后的文件
- 地名识别金标准:
sticker_standard_toponyms.csv(CSV格式),含分词、字符起止位置及是否为地点的标注
- NER性能对比:
sticker_comparison_NER.rds(RDS格式),不同NER工具的性能对比数据
- 地理编码性能对比:
sticker_comparison_geocoding.rds(RDS格式),不同地理编码服务的性能对比数据
- 压缩包文件:
plague.zip(ZIP格式),包含上述所有文件的压缩包
数据来源
项目“Mapping the plague through natural language processing”
适用场景
- NLP工具性能评估:对比不同NLP库在历史文本地名识别(NER)任务中的准确率与效率
- 地理编码服务对比:分析不同地理编码服务对历史地名的匹配精度与覆盖范围
- 历史鼠疫数据挖掘:利用最终地理编码数据集研究鼠疫的时空分布特征
- 文本预处理方法研究:基于OCR文本的预处理流程优化,提升历史文本数据质量
- 历史医学文本数字化:探索叙事性历史医学文献转化为结构化定量数据的方法与路径