Mapping_plague_Based_自然语言处理鼠疫地理映射数据集

本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码，包含基于Sticker（1908）和Biraben（1975）两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集，用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。

核心数据文件
最终地理编码数据集：plague_sticker_v1.csv（CSV格式）、plague_biraben_v1.csv（CSV格式），为项目生成的最终鼠疫相关地理编码数据
数据字典：plague_datadict.xlsx（XLSX格式），解释数据集字段含义
Sticker论著相关文件
原始OCR文本：sticker_OCR_orig.txt（TXT格式），含原始OCR识别文本
预处理OCR文本：sticker_OCR.txt（TXT格式），去除括号内作者名的OCR文本
进一步预处理文本：sticker_textprep.rds（RDS格式），经额外预处理的OCR文本
人工标注文件：sticker_goldstandard_annotated_1.tsv（TSV格式）、sticker_goldstandard_annotated_2.tsv（TSV格式），人工标注数据
共识标注文件：sticker_goldstandard_annotated_consensus.tsv（TSV格式），人工标注达成共识后的文件
地名识别金标准：sticker_standard_toponyms.csv（CSV格式），含分词、字符起止位置及是否为地点的标注
NER性能对比：sticker_comparison_NER.rds（RDS格式），不同NER工具的性能对比数据
地理编码性能对比：sticker_comparison_geocoding.rds（RDS格式），不同地理编码服务的性能对比数据
压缩包文件：plague.zip（ZIP格式），包含上述所有文件的压缩包

项目“Mapping the plague through natural language processing”

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	23.3 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。