孟加拉语YouTube评论情感与情绪分析数据集
数据来源:互联网公开数据
标签:孟加拉语,YouTube,情感分析,情绪识别,多标签,文本数据,社交媒体,自然语言处理
数据概述:
本数据集包含从YouTube上不同类型的孟加拉语视频中收集的评论,用于多标签情感分析和情绪检测。数据包含两个主要文件:Sentiment.csv 和 Emotion.csv。数据集中可能包含重复的评论文本。由于评论中可能包含辱骂性、粗俗的词语、俚语和人身攻击,因此仅供成年人使用。
Sentiment.csv 文件包含以下字段:
Id:评论的唯一ID。
Text:评论文本。
Label:情感标签,分为两种情况:
3类标签:1(正面),0(中性),-1(负面)。
5类标签:2(高度正面),1(正面),0(中性),-1(负面),-2(高度负面)。
Score:表示评论的极性。
Lan:评论的语言,包括EN(英语),BN(孟加拉语),RN(罗马化孟加拉语)。
Domain:视频的类别。
Emotion.csv 文件包含以下字段:
Id:评论的唯一ID。
Text:评论文本。
emotion:评论对应的情绪,包括Anger(愤怒),Joy(喜悦),Disgust(厌恶),Fear(恐惧),Surprise(惊讶),Sad(悲伤),None(未发现情绪)。
Lan:评论的语言,包括EN(英语),BN(孟加拉语),RN(罗马化孟加拉语)。
Domain:视频的类别。
数据用途概述:
该数据集适用于多种研究场景,包括但不限于:孟加拉语社交媒体情感分析、情绪识别模型构建、多标签分类、自然语言处理研究、跨语言情感分析、以及社交媒体内容分析等。研究人员可以使用此数据来训练和评估情感分析和情绪检测模型,分析孟加拉语YouTube评论的情感和情绪分布,探索不同视频类别的情感差异,以及研究孟加拉语社交媒体上的用户行为。
引用:
如果使用该数据集进行研究,请引用以下论文:
N. Irtiza Tripto and M. Eunus Ali, "Detecting Multilabel Sentiment and Emotions from Bangla YouTube Comments," 2018 International Conference on Bangla Speech and Language Processing (ICBSLP), Sylhet, 2018, pp. 1-6.
doi: 10.1109/ICBSLP.2018.8554875