古兰经语言学多层标注数据集

数据集概述

该数据集为古典阿拉伯语(CA)自然语言处理提供计算可访问的综合语言资源,包含古兰经的正字法、形态学、句法学三层标注,共约十三万二千七百三十六个词元,经专家验证,助力CA NLP研究与应用。

文件详解

  • 文件名称:Quranic.rar
  • 文件格式:RAR压缩包
  • 内容说明:压缩包内包含古兰经的多层标注数据,采用扩展CoNLL-X表格格式,整合正字法(含不同脚本、音译、翻译及索引)、形态学(词性、形态句法特征、词元、词根)、句法学(混合 constituency-dependency框架标注)三层信息,辅以词典、标注 schema等辅助文件。

数据来源

Tanzil、Quranic Corpus、Comprehensive Islamic Library

适用场景

  • 古典阿拉伯语自然语言处理模型训练与评估,如句法分析器、形态分析器、词性标注器、元音恢复模型
  • 古典阿拉伯语理论语言学研究,提供实证数据支撑
  • 古兰经数字人文项目开发,辅助文本分析与可视化
  • 古典阿拉伯语教学工具开发,支撑语法学习与文本解读
  • 伊斯兰文化与宗教文本的计算语言学研究,推动跨学科应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.27 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。