摩洛哥阿拉伯语新闻文章数据集MNAD-jmourad100

摩洛哥阿拉伯语新闻文章数据集MNAD-jmourad100 数据来源:互联网公开数据 标签:阿拉伯语,新闻文章,文本分类,自然语言处理,数据挖掘,信息检索,摩洛哥,文本分析

数据概述: MNAD(Moroccan News Articles Dataset)是一个包含超过一百万篇摩洛哥阿拉伯语新闻文章的数据集。这些文章来自11个主要的电子新闻来源,旨在为学术研究提供支持,例如数据挖掘(聚类、分类等)、信息检索(排序、搜索等)以及其他非商业活动。

数据集字段: 标题(Title):文章标题 正文(Body):文章正文 类别(Category):文章所属类别 来源(Source):文章的电子新闻来源

关于数据集第一版(MNAD.v1): MNAD.v1 包含 418,563 篇文章,分为 19 个类别。数据收集自 Akhbarona.ma、Hespress.ma、Hibapress.com 和 Le360.com 等知名电子新闻网站。文章存储在四个独立的 CSV 文件中,每个文件对应一个新闻网站来源。每个 CSV 文件包含三个字段:标题、正文和新闻文章类别。该数据集拥有丰富的阿拉伯语词汇,大约包含 906,125 个独特的单词。

关于数据集第二版(MNAD.v2): MNAD.v2 包含了 653,901 篇文章,使总文章数量超过一百万(1,069,489),文章被划分为与第一版相同的 19 个类别。新文档收集自另外七个主要的摩洛哥新闻网站,包括 al3omk.com、medi1news.com、alayam24.com、anfaspress.com、alyaoum24.com、barlamane.com 和 SnrtNews.com。新收集的文章已与之前版本中的文章合并到一个名为 MNADv2.csv 的 CSV 文件中。该文件包含一个名为“来源”的附加列,用于指示每篇新闻文章的来源。此外,MNAD.v2 采用了改进的预处理技术和数据清洗方法。这些增强措施包括删除重复项、消除多个空格、丢弃具有 NaN 值的行、将新行替换为“\n”、排除过长和过短的文章以及删除非阿拉伯语文章。

数据用途概述: 该数据集主要用于阿拉伯语文本分类、自然语言处理、信息检索等研究。研究人员可以利用该数据集进行文本分类模型的训练和评估,进行情感分析、主题建模、信息提取等任务。同时,该数据集也适用于探索摩洛哥新闻媒体的报道内容和特点,以及研究阿拉伯语文本的语言特征。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 17:14 (UTC)
创建于 五月 31, 2025, 17:13 (UTC)