梵语词分割数据集

数据集概述

该数据集针对梵语词分割任务构建,包含约十一万五千个句子,每个句子提供输入字符序列、真实分割结果及所有语音可能分割的词汇和形态信息,为梵语手稿的句法与语义处理提供基础数据支持。

文件详解

该数据集包含七个文件,具体说明如下: - 压缩文件: - DCS_pick.zip:压缩文件,可能包含实验相关的Pickle格式数据 - skt.zip:压缩文件,可能包含梵语相关的原始或处理数据 - 数据文件: - DCS_999.p:Pickle格式文件,存储特定实验数据 - graphFiles:无扩展名文件,可能包含图结构相关数据 - sample_999.graphml:GraphML格式文件,存储示例图结构数据 - 文档与代码文件: - paper.pdf:PDF格式文件,包含数据集相关研究论文 - pickleReader.py:Python代码文件,用于读取Pickle格式数据

适用场景

  • 自然语言处理研究:用于梵语词分割模型的训练与评估
  • 计算语言学分析:探究梵语词分割的语言学特征与处理方法
  • 文化遗产数字化:支持梵语古代手稿的自动化文本处理
  • 多语言处理研究:为低资源语言的词分割任务提供数据参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 813.21 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。