阿拉伯新闻文章单标签文本分类数据集_SANAD

数据集概述

该数据集是大规模阿拉伯语新闻文章集合,适用于文本分类、词嵌入等阿拉伯语自然语言处理任务。包含来自三个新闻网站的文章,分为七个类别,总数量超十九万篇,并提供一个平衡的子集用于训练和测试。

文件详解

  • 文件名称: Akhbarona.zip:压缩文件,包含来自Akhbarona网站的新闻文章,按类别分文件夹存储,含七个类别(文化、金融、医疗、政治、宗教、体育、科技)。
  • 文件名称: Arabiya.zip:压缩文件,包含来自AlArabiya网站的新闻文章,按类别分文件夹存储,含六个类别(无宗教类别)。
  • 文件名称: Khaleej.zip:压缩文件,包含来自AlKhaleej网站的新闻文章,按类别分文件夹存储,含七个类别。
  • 文件名称: SANAD_SUBSET.zip:压缩文件,为平衡基准子集,含训练(百分之九十)和测试(百分之十)集,按三个网站分文件夹,每个网站下有训练和测试子文件夹,内部为平衡类别子文件夹。

适用场景

  • 阿拉伯语自然语言处理研究:用于文本分类、词嵌入等任务的模型训练与测试。
  • 新闻文本分类模型开发:针对不同类别阿拉伯新闻文章构建分类模型。
  • 基准数据集对比:使用SANAD_SUBSET进行模型性能的标准化评估。
  • 多网站新闻数据差异分析:比较不同新闻网站文章在分类任务中的表现差异。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 337.36 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。