Tashkeela清理阿拉伯语带音符语料库

Tashkeela清理阿拉伯语带音符语料库

数据来源:互联网公开数据

标签:阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注

数据概述: 本数据集提供了经过清洗的现代标准阿拉伯语(MSA)和古典阿拉伯语(CA)文本,基于Tashkeela阿拉伯语音调标注语料库进行清洗和整理。数据集包括分句后的阿拉伯语文本,并为每个句子添加了单词数量、字符数量以及无音调字符数量等特征。数据已按90%训练集、5%验证集、5%测试集的比例进行划分。数据集文档中包含详细的清洗步骤记录,便于用户根据需求选择合适的版本。

数据用途概述: 该数据集适用于自然语言处理领域的多种场景,包括但不限于: 1. 阿拉伯语文本处理模型训练 2. 语音标注与识别研究 3. 语言模型开发与优化 4. 文本清洗与预处理方法研究 5. 分词与句法分析 6. 机器翻译与跨语言处理

数据集包含约260万条句子,其中古典阿拉伯语和现代标准阿拉伯语各有3万条句子。数据以纯文本格式存储,每行对应一个句子。用户可以根据数据统计信息和清洗日志选择合适的版本进行研究和应用开发。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 1, 2025, 07:02 (UTC)
创建于 六月 1, 2025, 07:02 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。