推特讽刺检测LSTM语境分析数据集-2020
数据来源:互联网公开数据
标签:讽刺检测,LSTM,推特,语境分析,自然语言处理,数据集,不平衡数据,平衡数据
数据概述:
本数据集包含用于讽刺检测的研究数据,特别针对推特平台上的内容。数据集分为两个版本:不平衡数据集(English Sarcasm.csv)和平衡数据集(sarcasm.csv)。不平衡数据集包含大量非讽刺性推文和相对较少的讽刺性推文,而平衡数据集则对两类推文进行了数量上的均衡处理。数据集中的每条记录包括推文内容及其对应的讽刺标签。
数据用途概述:
该数据集适用于自然语言处理领域的研究,特别是讽刺检测和语境分析。研究人员可以利用此数据集训练和评估讽刺检测模型,如长短时记忆网络(LSTM)。数据集也适用于教学用途,帮助学习者理解讽刺检测技术及其在社交网络中的应用。此外,数据集可用于比较不同算法在讽刺检测任务上的表现,为改进现有模型提供基准。引用数据集时,请参考以下文献:
@inproceedings{10.1145/3406601.3406624,
author = {Khotijah, Siti and Tirtawangsa, Jimmy and Suryani, Arie A.},
title = {Using LSTM for Context Based Approach of Sarcasm Detection in Twitter},
year = {2020},
isbn = {9781450377591},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3406601.3406624 },
doi = {10.1145/3406601.3406624},
location = {Bangkok, Thailand},
series = {IAIT2020}
}