数据集概述
本数据集包含复现Geospatiality研究所需的代码与数据,核心研究英文文本中主题对地理位置信息出现频率的影响。数据覆盖Twitter、Reddit等六个来源,含匿名化文本数据压缩包、R分析脚本及主题分类表,支持研究结果的验证与可视化。
文件详解
- 数据压缩包(.zip)
- 示例文件:9C_dat_nl_short.zip、9C_dat_gdelt_short.zip等(共7个)
- 文件格式:ZIP
- 内容说明:各来源匿名化文本数据,需解压后作为脚本输入
- R分析脚本(.R)
- 示例文件:E_Modeling.R、F1_Analyze_FracGeo.R等(共5个)
- 文件格式:R
- 内容说明:包含混合模型应用、FracGeo可视化、变量探索、模型分析及验证等功能脚本
- 主题分类表
- 文件名称:topic_taxonomy.xlsx
- 文件格式:XLSX
- 内容说明:含多来源主题分类映射表,支持R语言通过openxlsx2包读取不同来源(如Reddit、Stackexchange)的分类表
数据来源
Geospatiality研究项目仓库
适用场景
- 文本地理位置研究:分析英文文本中主题与地理位置信息出现频率的关联
- 自然语言处理应用:验证主题分类对地理信息提取的影响,优化相关模型
- 社交媒体数据分析:研究Twitter、Reddit等平台文本的地理属性分布规律
- 学术研究复现:支持Geospatiality研究结果的重复验证与扩展分析