约旦方言与错误现代阿拉伯语句子及标准阿拉伯语对应数据集

数据集概述

该数据集包含五万九千一百三十五个文本序列,涵盖约旦方言和含错误的现代标准阿拉伯语(MSA)句子,每个序列对应无变音符号和全变音符号的标准MSA修正版本,用于阿拉伯语自然语言处理研究。

文件详解

  • 数据集文件(位于Dataset/目录下):
  • diacritized_train_set.xlsx:Excel格式,包含五万四千一百三十五个文本序列,用于模型训练
  • diacritized_test_set.xlsx:Excel格式,包含两千五百个文本序列,用于模型测试
  • diacritized_valid_set.xlsx:Excel格式,包含两千五百个文本序列,用于模型验证
  • 说明文档:
  • README.md:Markdown格式,包含数据集引用信息和使用说明
  • 许可文件:
  • LICENSE.txt:TXT格式,记录CC BY 4.0许可协议内容

适用场景

  • 阿拉伯语方言处理研究:支持约旦方言到标准MSA的翻译模型开发
  • 阿拉伯语错误纠正研究:用于含错误MSA句子的语法与拼写修正任务
  • 阿拉伯语变音标注研究:助力全变音符号标准MSA文本生成模型训练
  • 阿拉伯语自然语言处理应用:为机器翻译、文本纠错等下游任务提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.88 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。