古典藏文标注语料库2020_Version2_带分词与词性标注

数据集概述

该数据集为古典藏文标注语料库(ACTib)第二版,包含超一亿八千五百万个词元,基于XML文件构建,提供分词与词性标注的压缩文件,采用自动后处理方法,未涉及人工校正。

文件详解

数据集包含11个压缩文件,具体说明如下: - 压缩文件组(共11个.zip格式文件): - SegPOS-DrikungChetsang_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-PalriParkhang_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-KarmaDelek_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-Shechen_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-VajraVidya_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-TulkuSangag_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-GuruLamaworks_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - SegPOS-DharmaDownload_July2020.zip:压缩文件,包含对应子集的分词与词性标注数据 - 其余3个同命名模式的.zip文件:压缩文件,包含对应子集的分词与词性标注数据

数据来源

Zenodo平台(基于Wallman等2017年数据集、Hill与Garrett2017年数据集构建)

适用场景

  • 藏文自然语言处理研究:用于分词、词性标注模型训练与优化
  • 古典藏文语言学分析:探究古典藏文语法结构与词汇特征
  • 语料库语言学研究:分析大规模古典藏文文本的语言规律
  • 数字人文研究:支持古典藏文文献的数字化分析与挖掘
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 805.77 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。