古典藏语标注语料库第二部分_词性标注版

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

古典藏语标注语料库第二部分_词性标注版

数据集概述

本数据集是基于佛教数字资源中心（BDRC）数字化文本集构建的古典藏语词性标注语料库第二部分，使用TiMBL的基于记忆的标注器（Memory-Based Tagger）完成标注，未经过后处理或人工校正。

文件详解

压缩文件集（共12个，均为.zip格式）：
DharmaDownloadtagged.zip：包含标注后的DharmaDownload文本集
OCR2017tagged.zip：包含标注后的OCR2017文本集
GuruLamaWorksTagged.zip：包含标注后的GuruLamaWorks文本集
VajraVidyaTagged.zip：包含标注后的VajraVidya文本集
Shechentagged.zip：包含标注后的Shechen文本集
eKanjurtagged.zip：包含标注后的eKanjur文本集
DrikungChetsangtagged.zip：包含标注后的DrikungChetsang文本集
TulkuSangagTagged.zip：包含标注后的TulkuSangag文本集（注：剩余4个压缩文件未提供具体名称，均为同类词性标注后的古典藏语文本压缩包）

数据来源

Zenodo（基于BDRC数字化文本集、Hill & Garrett 2017年的训练数据构建）

适用场景

古典藏语语言学研究：分析古典藏语的词性分布与语法结构
自然语言处理模型训练：为古典藏语词性标注、句法分析等任务提供训练数据
数字人文研究：支撑古典藏语文本的数字化分析与挖掘
藏语语料库建设：补充和扩展现有古典藏语标注语料资源

数据与资源

822537.zipZIP
746.68 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	746.68 MiB
最后更新	2025年12月22日
创建于	2025年12月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？