约旦方言与错误现代阿拉伯语句子及标准阿拉伯语对应数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

约旦方言与错误现代阿拉伯语句子及标准阿拉伯语对应数据集

数据集概述

该数据集包含五万九千一百三十五个文本序列，涵盖约旦方言和含错误的现代标准阿拉伯语（MSA）句子，每个序列对应无变音符号和全变音符号的标准MSA修正版本，用于阿拉伯语自然语言处理研究。

文件详解

数据集文件（位于Dataset/目录下）：
diacritized_train_set.xlsx：Excel格式，包含五万四千一百三十五个文本序列，用于模型训练
diacritized_test_set.xlsx：Excel格式，包含两千五百个文本序列，用于模型测试
diacritized_valid_set.xlsx：Excel格式，包含两千五百个文本序列，用于模型验证
说明文档：
README.md：Markdown格式，包含数据集引用信息和使用说明
许可文件：
LICENSE.txt：TXT格式，记录CC BY 4.0许可协议内容

适用场景

阿拉伯语方言处理研究：支持约旦方言到标准MSA的翻译模型开发
阿拉伯语错误纠正研究：用于含错误MSA句子的语法与拼写修正任务
阿拉伯语变音标注研究：助力全变音符号标准MSA文本生成模型训练
阿拉伯语自然语言处理应用：为机器翻译、文本纠错等下游任务提供数据支持

数据与资源

ffrskd27f4-1.zipZIP
8.88 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	8.88 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？