现代藏文报纸命名实体识别数据集_标注集与指南

数据集概述

本数据集包含现代藏文报纸命名实体识别(NER)的标注集、指南及训练数据,聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件,为藏文NER模型开发提供基础资源。

文件详解

  • 标注规范文件:
  • NER for Modern Tibetan-tagset and guidelines.pdf(PDF格式):含17类实体标签定义、标注规则及操作建议
  • 训练数据文件:
  • Tibetan NER Training Data-tagged, reviewed with context-v10-UTF-8.csv(CSV格式):6624条经审核的标注数据,含实体值、标签、上下文及参考ID
  • Tibetan NER Training Data-tagged with context-v10-UTF-8.xlsx(XLSX格式):与CSV文件内容一致的表格格式数据
  • 原始标注文件:
  • Raw Training Data for NER in Modern Tibetan-Jobs2-11-JSON.zip(ZIP格式):Lighttag平台导出的原始JSON标注数据压缩包
  • Training Data for NER in Modern Tibetan-Jobs2-11-XLS.zip(ZIP格式):原始XLS格式标注数据压缩包
  • 辅助文档:
  • Using Spreadsheets to Review Annotations Offline.pdf(PDF格式):介绍将Lighttag标注结果转换为离线审核格式的方法指南

数据来源

剑桥大学社会人类学系蒙古与内亚研究组(Mongolian and Inner Asian Studies Unit)

适用场景

  • 藏文自然语言处理:用于训练和评估现代藏文NER模型
  • 民族语言技术研究:推动藏文信息抽取技术发展
  • 媒体文本分析:支持藏文新闻中的实体识别与信息提取
  • 标注方法研究:为低资源语言NER标注流程提供参考案例
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.09 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。