数据集概述
该数据集是首个豪萨尼亚方言文本分类基准数据集,包含一千八百五十一条记录,分为正面、负面、中性三类。数据通过网络爬虫从Facebook评论收集,使用Label Studio标注,为豪萨尼亚方言文本分类任务提供基准数据支持。
文件详解
- 目录:HASSANIYA-DTCD A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect/
- Readme.txt:文本格式,包含数据集基本信息、DOI、作者及联系方式等说明
- HASSANIYA_DATASET.csv:CSV格式,核心数据文件,字段包括id(记录ID)、annotations(标注数量)、created_at(创建时间)、Annotation results(标注结果:Neutral/Negative等)、text(豪萨尼亚方言文本)、updated_at(更新时间)
- supplementary_data.zip:压缩包格式,包含补充数据
适用场景
- 自然语言处理研究:豪萨尼亚方言文本分类模型的训练与基准测试
- 方言NLP资源建设:补充低资源语言文本分类数据集
- 社交媒体文本分析:探究豪萨尼亚方言社交媒体内容的情感倾向
- 多语言文本分类对比:与其他语言文本分类任务的跨语言模型性能比较