来自Twitter的阿拉伯语讽刺推文数据集
数据来源:互联网公开数据
本数据集由 Abufarha 等研究者在 WANLP 2021 Shared Task 中发布,旨在推动阿拉伯语自然语言处理领域中讽刺识别与情感分类任务的研究。项目地址:https://github.com/iabufarha/ArSarcasm-v2
数据内容:
数据集收集自 Twitter,包含 15,548 条阿拉伯语推文,手工标注了三类标签信息:是否为讽刺语、情感倾向以及所属方言区域。数据划分为训练集(12,548 条)与测试集(3,000 条),适合用于多标签分类任务的模型训练与评估。
字段定义:
tweet:原始推文文本(阿拉伯语)
sarcasm:是否讽刺(布尔值,1=讽刺,0=非讽刺)
sentiment:情感极性标签(positive, negative, neutral)
dialect:推文所属阿拉伯语方言区域,共5类:
msa:现代标准阿拉伯语
egypt:埃及及苏丹方言
levant:黎凡特地区方言(巴勒斯坦、约旦、叙利亚、黎巴嫩)
gulf:海湾国家方言(包括沙特、阿联酋、卡塔尔等)
magreb:马格里布地区方言(阿尔及利亚、摩洛哥、突尼斯等)
时间范围:
推文的具体发布时间未提供,但数据反映了不同区域方言下的阿拉伯语使用及其情感、语用特征,适合面向语义理解与语言风格分析。
数据格式:
CSV格式,每条记录包含一条推文及其对应标签,便于用于自然语言处理模型的训练与评估。
更新频率:
该数据集为已发布的静态数据集,版本固定,更新信息以GitHub项目页为准。
适用场景:
阿拉伯语讽刺检测模型训练
多方言情感分类研究
社交媒体文本理解与情绪分析
跨语言讽刺识别与语用研究
阿拉伯语多标签文本分类任务基准测试
标签:阿拉伯语,讽刺检测,情感分析,社交媒体文本,Twitter数据,多方言语料,自然语言处理,NLP分类任务,情绪识别,阿拉伯世界,NLP竞赛数据