数据集

古典藏文标注语料库2020_Version2_带分词与词性标注

数据集概述

该数据集为古典藏文标注语料库（ACTib）第二版，包含超一亿八千五百万个词元，基于XML文件构建，提供分词与词性标注的压缩文件，采用自动后处理方法，未涉及人工校正。

文件详解

数据集包含11个压缩文件，具体说明如下： - 压缩文件组（共11个.zip格式文件）： - SegPOS-DrikungChetsang_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-PalriParkhang_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-KarmaDelek_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-Shechen_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-VajraVidya_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-TulkuSangag_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-GuruLamaworks_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - SegPOS-DharmaDownload_July2020.zip：压缩文件，包含对应子集的分词与词性标注数据 - 其余3个同命名模式的.zip文件：压缩文件，包含对应子集的分词与词性标注数据

数据来源

Zenodo平台（基于Wallman等2017年数据集、Hill与Garrett2017年数据集构建）

适用场景

藏文自然语言处理研究：用于分词、词性标注模型训练与优化
古典藏文语言学分析：探究古典藏文语法结构与词汇特征
语料库语言学研究：分析大规模古典藏文文本的语言规律
数字人文研究：支持古典藏文文献的数字化分析与挖掘

数据与资源

3951503.zipZIP
805.77 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	805.77 MiB
最后更新	2025年12月7日
创建于	2025年12月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。