突尼斯阿拉伯语拉丁转写语料库2017_2021

数据集概述

该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。

文件详解

  • 文本文件(.txt格式,共13个):
  • 文件名称示例:CTAB-SAMPLE0003.txt、CTAB-SAMPLE0011.txt等
  • 内容:每条消息占一行,保留原始爬取内容,无标注、拼写调整或语法标记
  • 文档文件:
  • 文件名称:CTAB.pdf
  • 文件格式:PDF
  • 内容:未明确说明具体内容,推测为语料库相关说明文档

适用场景

  • 自然语言处理研究:用于突尼斯阿拉伯语拉丁转写文本的语言模型训练、分词等基础NLP任务
  • 社会语言学分析:研究突尼斯民众使用拉丁字母转写阿拉伯语的书写行为和语言特征
  • 方言数字化保护:为突尼斯阿拉伯语方言的数字化保存提供原始文本资源
  • 跨语言转写研究:对比分析不同阿拉伯语方言拉丁转写的差异与共性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.34 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。