库尔德索拉尼语讽刺检测自动化数据集

数据集概述

该数据集是针对低资源语言库尔德索拉尼语构建的讽刺检测自动化数据集,包含一万六千余条文本条目,标注了二元讽刺分类及来源、匹配规则、情感类别等元数据,适用于低资源语言自然语言处理研究。

文件详解

  • 数据集文件(位于KuSarcasm Automated Kurdish Sorani Sarcasm Dataset (KSSD)/KSSD_Dataset_Files/目录下):
  • Readme.txt:文本格式,可能包含数据集的详细说明、使用指南及元数据解释
  • Raw_Kurdish_Texts.xlsx:Excel格式,库尔德语原始文本数据
  • Cleaned_Dataset.xlsx:Excel格式,经过去重、归一化和降噪预处理的清洁文本数据
  • Labeled_Dataset.xlsx:Excel格式,标注二元讽刺分类的库尔德语数据集,含来源、匹配规则、情感类别等元数据
  • Labeled_Dataset_English.xlsx:Excel格式,标注二元讽刺分类的英语翻译数据集,便于跨语言参考

适用场景

  • 低资源语言自然语言处理研究:开发库尔德索拉尼语讽刺检测模型
  • 情感分析研究:基于情感极性和语义接近度的文本情感分类
  • 计算语言学研究:探索低资源语言的形态复杂性及语义模式
  • 跨语言模型迁移:测试多语言预训练模型在低资源语言任务中的性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.58 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。