数据集概述
本数据集是多语言移民主题推文语料库,聚焦2011-2022年欧洲英、法两国右翼及极右翼政治人物与政党的移民相关言论,含法、英两个子语料库,共一万八千二百三十三条推文、五十三万三千一百九十八词,为研究数字移民话语提供支持。
文件详解
该数据集包含多个CSV和ZIP格式文件,具体说明如下:
- 法国子语料库文件(FR-R-MIGR-TWIT-2011-2022):
- 文本版文件(位于FR-R-MIGR-TWIT-2011-2022_textonly目录):每年一个ZIP文件,共十二个,含推文ID(data__id)、推文文本(data__text)字段
- 元数据版文件(位于FR-R-MIGR-TWIT-2011-2022_meta目录):含推文ID、文本、发布时间(data__created_at)、作者用户名(author__username)、转推数(data__public_metrics__retweet_count)等字段
- 英国子语料库文件(UK-R-MIGR-RA-TWIT-2012-2022):
- 文本版文件(位于UK-R-MIGR-RA-TWIT-2012-2022_textonly目录):每年一个ZIP文件,共十一个,含推文ID、推文文本字段
- 元数据版文件(位于UK-R-MIGR-RA-TWIT-2012-2022_meta目录):含推文ID、文本、发布时间、作者用户名、转推数等字段
- 压缩包文件:R-MIGR-TWIT-2011-2022.zip:整体语料库压缩包
数据来源
OLiNDiNUM合作研究项目(Observatoire LINguistique du DIscours NUMérique)
适用场景
- 话语分析研究:分析欧洲右翼及极右翼政治群体的移民话语构建与演变
- 比较语言学研究:对比英法两国移民相关政治话语的语言特征差异
- 政治传播学研究:探究社交媒体中移民议题的传播模式与公众影响
- 文献计量分析:支持基于移民主题政治推文的学术论文撰写与验证
- 计算语言学应用:为移民话语的主题建模、情感分析等算法提供语料支持