数据集概述
该数据集为古典藏文标注语料库(ACTib)第二版,包含超一亿八千五百万个词元,基于XML文件构建,提供分词与词性标注的压缩文件,采用自动后处理方法,未涉及人工校正。
文件详解
数据集包含11个压缩文件,具体说明如下:
- 压缩文件组(共11个.zip格式文件):
- SegPOS-DrikungChetsang_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-PalriParkhang_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-KarmaDelek_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-Shechen_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-VajraVidya_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-TulkuSangag_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-GuruLamaworks_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- SegPOS-DharmaDownload_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据
- 其余3个同命名模式的.zip文件:压缩文件,包含对应子集的分词与词性标注数据
数据来源
Zenodo平台(基于Wallman等2017年数据集、Hill与Garrett2017年数据集构建)
适用场景
- 藏文自然语言处理研究:用于分词、词性标注模型训练与优化
- 古典藏文语言学分析:探究古典藏文语法结构与词汇特征
- 语料库语言学研究:分析大规模古典藏文文本的语言规律
- 数字人文研究:支持古典藏文文献的数字化分析与挖掘