dsfsi_Based非洲语言新闻语料库2022

数据集概述

本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。

文件详解

  • 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含isiZulu语言的新闻文章、新闻标题以及Siswati语言的新闻标题相关文本数据,具体字段需解压后查看,未提供预览信息。

数据来源

论文“Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati”

适用场景

  • 非洲语言自然语言处理研究: 用于isiZulu和Siswati语言的文本分类、语义分析等算法开发与测试。
  • 新闻文本语料库构建: 补充非洲本土语言的新闻语料资源,支持多语言语料库扩展。
  • 机器翻译模型训练: 作为isiZulu、Siswati与其他语言互译模型的训练数据。
  • 语言资源数字化保护: 助力非洲本土语言的文本资源留存与数字化应用。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.06 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。