数据集

梵语词分割数据集

数据集概述

该数据集针对梵语词分割任务构建，包含约十一万五千个句子，每个句子提供输入字符序列、真实分割结果及所有语音可能分割的词汇和形态信息，为梵语手稿的句法与语义处理提供基础数据支持。

文件详解

该数据集包含七个文件，具体说明如下： - 压缩文件： - DCS_pick.zip：压缩文件，可能包含实验相关的Pickle格式数据 - skt.zip：压缩文件，可能包含梵语相关的原始或处理数据 - 数据文件： - DCS_999.p：Pickle格式文件，存储特定实验数据 - graphFiles：无扩展名文件，可能包含图结构相关数据 - sample_999.graphml：GraphML格式文件，存储示例图结构数据 - 文档与代码文件： - paper.pdf：PDF格式文件，包含数据集相关研究论文 - pickleReader.py：Python代码文件，用于读取Pickle格式数据

适用场景

自然语言处理研究：用于梵语词分割模型的训练与评估
计算语言学分析：探究梵语词分割的语言学特征与处理方法
文化遗产数字化：支持梵语古代手稿的自动化文本处理
多语言处理研究：为低资源语言的词分割任务提供数据参考

数据与资源

803508.zipZIP
813.21 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	813.21 MiB
最后更新	2025年12月4日
创建于	2025年12月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。