古典藏文标注语料库第一部分_基于BDRC数字化文本的分词版本

数据集概述

本数据集是基于佛教数字资源中心(BDRC)数字化文本集的古典藏文分词版本语料库,采用TiMBL的基于记忆的标注器进行词性标注,未经过后处理或人工校正,包含12个压缩文件。

文件详解

该数据集包含12个压缩文件,具体说明如下: - 文件名称及格式:均为ZIP格式压缩文件,示例包括VajraVidyaPostSegmented.zip、OCR2017PostSegmented.zip、TulkuSangagPostSegmented.zip、KarmaDelekPostSegmented.zip、DharmaDownloadPostSegmented.zip、PalriParkhangPostSegmented.zip、eKangyurPostSegmented.zip、DrikungChetsangPostSegmented.zip等 - 内容说明:文件为基于BDRC数字化文本的分词后标注语料,未提供README或内容预览,KarmaDelek目录下少量文件虽原始XML输入已损坏仍被标注

数据来源

  • Jeff Wallman, Zach Rowinski, Ngawang Trinley, Chris Tomlinson, Kurt Keutzer(2017)
  • Nathan W. Hill, Edward Garrett(2017)
  • Buddhist Digital Resource Center
  • Zenodo

适用场景

  • 古典藏文语言学研究:用于词性标注模型训练与评估
  • 自然语言处理应用:支持藏文分词、句法分析等任务的算法开发
  • 数字人文研究:为古典藏文文献的数字化分析提供标注语料支持
  • 语料库语言学分析:探索古典藏文的词汇特征与语法规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 565.62 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。