俄罗斯YouTube频道-вдудь-视频评论文本数据集-2020年
数据来源:互联网公开数据
标签:YouTube,评论,俄罗斯,语言,文本分析,NLP,视频,社交媒体,情感分析
数据概述:
本数据集包含了YouTube频道“вдудь”自2017年至2020年期间发布的视频评论数据,主要采集时间为2020年10月29日至11月6日。数据涵盖了该频道117个视频的评论信息,最早的视频是2017年2月7日发布的与Баста的访谈,最新的视频是2020年11月3日发布的与MORGENSHTERN的访谈。
数据集包含两个主要文件:
all_comms.pickle
:一个列表,其中每个元素代表一个视频的评论列表。all_comms.pickle
列表中元素的索引对应于vdud.csv
文件中视频的索引。
vdud.csv
:包含了关于每个视频的详细信息,包括以下字段:
- full_title:视频的完整标题
- guest:视频中嘉宾的姓名
- length:视频的时长,以分钟为单位
- views:视频的观看次数
- likes:视频的点赞数量
- dislikes:视频的踩数量
- date:视频的发布日期
- comments_num:评论总数,包括对评论的回复(replies)
- likes/dislikes:点赞数与踩数之比
- views/likes:观看次数与点赞数之比
数据用途概述:
该数据集适用于多种自然语言处理(NLP)研究、文本分析和情感分析场景。 研究人员可以使用此数据来探索评论中讨论的主题、分析评论者的观点、进行情感分析、构建评论者分类模型,甚至尝试生成新的评论。此外,该数据集也适用于社交媒体分析、舆情分析等领域,可用于研究俄罗斯YouTube用户的行为模式和观点。