Geospatiality_Study_Based_英文文本地理位置与主题关系研究数据集

数据集概述

本数据集包含复现Geospatiality研究所需的代码与数据,核心研究英文文本中主题对地理位置信息出现频率的影响。数据覆盖Twitter、Reddit等六个来源,含匿名化文本数据压缩包、R分析脚本及主题分类表,支持研究结果的验证与可视化。

文件详解

  • 数据压缩包(.zip)
  • 示例文件:9C_dat_nl_short.zip、9C_dat_gdelt_short.zip等(共7个)
  • 文件格式:ZIP
  • 内容说明:各来源匿名化文本数据,需解压后作为脚本输入
  • R分析脚本(.R)
  • 示例文件:E_Modeling.R、F1_Analyze_FracGeo.R等(共5个)
  • 文件格式:R
  • 内容说明:包含混合模型应用、FracGeo可视化、变量探索、模型分析及验证等功能脚本
  • 主题分类表
  • 文件名称:topic_taxonomy.xlsx
  • 文件格式:XLSX
  • 内容说明:含多来源主题分类映射表,支持R语言通过openxlsx2包读取不同来源(如Reddit、Stackexchange)的分类表

数据来源

Geospatiality研究项目仓库

适用场景

  • 文本地理位置研究:分析英文文本中主题与地理位置信息出现频率的关联
  • 自然语言处理应用:验证主题分类对地理信息提取的影响,优化相关模型
  • 社交媒体数据分析:研究Twitter、Reddit等平台文本的地理属性分布规律
  • 学术研究复现:支持Geospatiality研究结果的重复验证与扩展分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 905.1 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。