HASSANIYA_DTCD豪萨尼亚方言文本分类基准数据集

数据集概述

该数据集是首个豪萨尼亚方言文本分类基准数据集,包含一千八百五十一条记录,分为正面、负面、中性三类。数据通过网络爬虫从Facebook评论收集,使用Label Studio标注,为豪萨尼亚方言文本分类任务提供基准数据支持。

文件详解

  • 目录:HASSANIYA-DTCD A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect/
  • Readme.txt:文本格式,包含数据集基本信息、DOI、作者及联系方式等说明
  • HASSANIYA_DATASET.csv:CSV格式,核心数据文件,字段包括id(记录ID)、annotations(标注数量)、created_at(创建时间)、Annotation results(标注结果:Neutral/Negative等)、text(豪萨尼亚方言文本)、updated_at(更新时间)
  • supplementary_data.zip:压缩包格式,包含补充数据

适用场景

  • 自然语言处理研究:豪萨尼亚方言文本分类模型的训练与基准测试
  • 方言NLP资源建设:补充低资源语言文本分类数据集
  • 社交媒体文本分析:探究豪萨尼亚方言社交媒体内容的情感倾向
  • 多语言文本分类对比:与其他语言文本分类任务的跨语言模型性能比较
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.43 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。