数据集

古典藏文标注语料库第一部分_基于BDRC数字化文本的分词版本

数据集概述

本数据集是基于佛教数字资源中心（BDRC）数字化文本集的古典藏文分词版本语料库，采用TiMBL的基于记忆的标注器进行词性标注，未经过后处理或人工校正，包含12个压缩文件。

文件详解

该数据集包含12个压缩文件，具体说明如下： - 文件名称及格式：均为ZIP格式压缩文件，示例包括VajraVidyaPostSegmented.zip、OCR2017PostSegmented.zip、TulkuSangagPostSegmented.zip、KarmaDelekPostSegmented.zip、DharmaDownloadPostSegmented.zip、PalriParkhangPostSegmented.zip、eKangyurPostSegmented.zip、DrikungChetsangPostSegmented.zip等 - 内容说明：文件为基于BDRC数字化文本的分词后标注语料，未提供README或内容预览，KarmaDelek目录下少量文件虽原始XML输入已损坏仍被标注

数据来源

Jeff Wallman, Zach Rowinski, Ngawang Trinley, Chris Tomlinson, Kurt Keutzer（2017）
Nathan W. Hill, Edward Garrett（2017）
Buddhist Digital Resource Center
Zenodo

适用场景

古典藏文语言学研究：用于词性标注模型训练与评估
自然语言处理应用：支持藏文分词、句法分析等任务的算法开发
数字人文研究：为古典藏文文献的数字化分析提供标注语料支持
语料库语言学分析：探索古典藏文的词汇特征与语法规律

数据与资源

823707.zipZIP
565.62 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	565.62 MiB
最后更新	2025年12月14日
创建于	2025年12月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。