阿拉伯新闻文章单标签文本分类数据集_SANAD

该数据集是大规模阿拉伯语新闻文章集合，适用于文本分类、词嵌入等阿拉伯语自然语言处理任务。包含来自三个新闻网站的文章，分为七个类别，总数量超十九万篇，并提供一个平衡的子集用于训练和测试。

文件名称: Akhbarona.zip：压缩文件，包含来自Akhbarona网站的新闻文章，按类别分文件夹存储，含七个类别（文化、金融、医疗、政治、宗教、体育、科技）。
文件名称: Arabiya.zip：压缩文件，包含来自AlArabiya网站的新闻文章，按类别分文件夹存储，含六个类别（无宗教类别）。
文件名称: Khaleej.zip：压缩文件，包含来自AlKhaleej网站的新闻文章，按类别分文件夹存储，含七个类别。
文件名称: SANAD_SUBSET.zip：压缩文件，为平衡基准子集，含训练（百分之九十）和测试（百分之十）集，按三个网站分文件夹，每个网站下有训练和测试子文件夹，内部为平衡类别子文件夹。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	337.36 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。