麻疹视频情感分析数据集
数据来源:互联网公开数据
标签:麻疹,情感分析,视频分析,YouTube,TikTok,社交媒体,新闻媒体,数据分析,机器学习
数据概述:
本数据集收录了2024年1月1日至2024年5月31日期间,在互联网上4011个关于麻疹疫情的视频数据,这些视频发布在264个不同的网站上。主要网站包括YouTube和TikTok,分别占视频总数的48.6%和15.2%。其余网站包括Instagram、Facebook以及各类全球和本地新闻媒体的网站。数据集中的每个视频记录了视频的URL、帖子标题、帖子描述以及视频的发布日期。在开发此数据集后,使用VADER进行了情感分析,使用TextBlob进行了主观性分析,使用DistilRoBERTa-base进行了细粒度情感分析。这些分析将每个视频标题和视频描述分类为情感类别(正面、负面或中性)、主观性类别(高度主观、中度主观或低度主观)、以及细粒度情感类别(恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性)。这些结果作为数据集的独立属性,用于训练和测试机器学习算法,以便在该领域以及其他应用中进行情感分析或主观性分析。
数据用途概述:
该数据集适用于麻疹疫情相关视频的情感分析和主观性分析研究。研究者可以利用此数据来探究公众对麻疹疫情的态度和情绪反应;媒体分析者可以识别媒体内容的倾向性;政策制定者可以评估公众情绪对政策的影响。此外,数据集也适合用于教育培训,帮助学习者理解情感分析和主观性分析的方法和技术。在使用此数据集时,请引用以下论文:
N. Thakur, V. Su, M. Shao, K. Patel, H. Jeong, V. Knieling, and A.Bian “A labelled dataset for sentiment analysis of videos on YouTube, TikTok, and other sources about the 2024 outbreak of measles,” arXiv [cs.CY], 2024. Available: https://doi.org/10.48550/arXiv.2406.07693