古典藏语标注语料库第二部分_词性标注版

数据集概述

本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。

文件详解

  • 压缩文件集(共12个,均为.zip格式):
  • DharmaDownloadtagged.zip:包含标注后的DharmaDownload文本集
  • OCR2017tagged.zip:包含标注后的OCR2017文本集
  • GuruLamaWorksTagged.zip:包含标注后的GuruLamaWorks文本集
  • VajraVidyaTagged.zip:包含标注后的VajraVidya文本集
  • Shechentagged.zip:包含标注后的Shechen文本集
  • eKanjurtagged.zip:包含标注后的eKanjur文本集
  • DrikungChetsangtagged.zip:包含标注后的DrikungChetsang文本集
  • TulkuSangagTagged.zip:包含标注后的TulkuSangag文本集(注:剩余4个压缩文件未提供具体名称,均为同类词性标注后的古典藏语文本压缩包)

数据来源

Zenodo(基于BDRC数字化文本集、Hill & Garrett 2017年的训练数据构建)

适用场景

  • 古典藏语语言学研究:分析古典藏语的词性分布与语法结构
  • 自然语言处理模型训练:为古典藏语词性标注、句法分析等任务提供训练数据
  • 数字人文研究:支撑古典藏语文本的数字化分析与挖掘
  • 藏语语料库建设:补充和扩展现有古典藏语标注语料资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 746.68 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。