现代藏文报纸命名实体识别数据集_标注集与指南

本数据集包含现代藏文报纸命名实体识别（NER）的标注集、指南及训练数据，聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件，为藏文NER模型开发提供基础资源。

标注规范文件：
NER for Modern Tibetan-tagset and guidelines.pdf（PDF格式）：含17类实体标签定义、标注规则及操作建议
训练数据文件：
Tibetan NER Training Data-tagged, reviewed with context-v10-UTF-8.csv（CSV格式）：6624条经审核的标注数据，含实体值、标签、上下文及参考ID
Tibetan NER Training Data-tagged with context-v10-UTF-8.xlsx（XLSX格式）：与CSV文件内容一致的表格格式数据
原始标注文件：
Raw Training Data for NER in Modern Tibetan-Jobs2-11-JSON.zip（ZIP格式）：Lighttag平台导出的原始JSON标注数据压缩包
Training Data for NER in Modern Tibetan-Jobs2-11-XLS.zip（ZIP格式）：原始XLS格式标注数据压缩包
辅助文档：
Using Spreadsheets to Review Annotations Offline.pdf（PDF格式）：介绍将Lighttag标注结果转换为离线审核格式的方法指南

剑桥大学社会人类学系蒙古与内亚研究组（Mongolian and Inner Asian Studies Unit）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	10.09 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。