库尔德索拉尼语讽刺检测自动化数据集

该数据集是针对低资源语言库尔德索拉尼语构建的讽刺检测自动化数据集，包含一万六千余条文本条目，标注了二元讽刺分类及来源、匹配规则、情感类别等元数据，适用于低资源语言自然语言处理研究。

数据集文件（位于KuSarcasm Automated Kurdish Sorani Sarcasm Dataset (KSSD)/KSSD_Dataset_Files/目录下）：
Readme.txt：文本格式，可能包含数据集的详细说明、使用指南及元数据解释
Raw_Kurdish_Texts.xlsx：Excel格式，库尔德语原始文本数据
Cleaned_Dataset.xlsx：Excel格式，经过去重、归一化和降噪预处理的清洁文本数据
Labeled_Dataset.xlsx：Excel格式，标注二元讽刺分类的库尔德语数据集，含来源、匹配规则、情感类别等元数据
Labeled_Dataset_English.xlsx：Excel格式，标注二元讽刺分类的英语翻译数据集，便于跨语言参考

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	3.58 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。