孟加拉语YouTube评论情感与情绪分析数据集

孟加拉语YouTube评论情感与情绪分析数据集 数据来源:互联网公开数据 标签:孟加拉语,YouTube,情感分析,情绪识别,多标签,文本数据,社交媒体,自然语言处理 数据概述: 本数据集包含从YouTube上不同类型的孟加拉语视频中收集的评论,用于多标签情感分析和情绪检测。数据包含两个主要文件:Sentiment.csv 和 Emotion.csv。数据集中可能包含重复的评论文本。由于评论中可能包含辱骂性、粗俗的词语、俚语和人身攻击,因此仅供成年人使用。

Sentiment.csv 文件包含以下字段:

Id:评论的唯一ID。 Text:评论文本。 Label:情感标签,分为两种情况: 3类标签:1(正面),0(中性),-1(负面)。 5类标签:2(高度正面),1(正面),0(中性),-1(负面),-2(高度负面)。 Score:表示评论的极性。 Lan:评论的语言,包括EN(英语),BN(孟加拉语),RN(罗马化孟加拉语)。 Domain:视频的类别。

Emotion.csv 文件包含以下字段:

Id:评论的唯一ID。 Text:评论文本。 emotion:评论对应的情绪,包括Anger(愤怒),Joy(喜悦),Disgust(厌恶),Fear(恐惧),Surprise(惊讶),Sad(悲伤),None(未发现情绪)。 Lan:评论的语言,包括EN(英语),BN(孟加拉语),RN(罗马化孟加拉语)。 Domain:视频的类别。

数据用途概述: 该数据集适用于多种研究场景,包括但不限于:孟加拉语社交媒体情感分析、情绪识别模型构建、多标签分类、自然语言处理研究、跨语言情感分析、以及社交媒体内容分析等。研究人员可以使用此数据来训练和评估情感分析和情绪检测模型,分析孟加拉语YouTube评论的情感和情绪分布,探索不同视频类别的情感差异,以及研究孟加拉语社交媒体上的用户行为。

引用: 如果使用该数据集进行研究,请引用以下论文: N. Irtiza Tripto and M. Eunus Ali, "Detecting Multilabel Sentiment and Emotions from Bangla YouTube Comments," 2018 International Conference on Bangla Speech and Language Processing (ICBSLP), Sylhet, 2018, pp. 1-6. doi: 10.1109/ICBSLP.2018.8554875

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.41 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。