数据集概述
该数据集包含12295份独特游戏攻略文档,覆盖6117款游戏。提供攻略文档的单字、双字频率(按文档和句子层级统计),以及游戏标题、发行商、开发商、年份、类型等元数据。所有统计数据和元数据通过URN关联,支持多维度组合分析,适用于游戏语言相关研究。
文件详解
该数据集包含data、metadata、doc三个目录,具体说明如下:
- data目录(文档数据):
- bagofwords:按文档统计的单字频率
- bigrams:按文档统计的双字频率
- corpusstats:统计信息,包括文档的令牌数、类型数、类型/令牌比的最小/平均/最大值,以及游戏对应的文档数和标准差
- game_walkthrough_mapping:游戏与攻略文档的映射关系,包含每个游戏对应的文档数量
- sentencecollocations:按文档句子层级统计的单字频率
- sourceUrls:原始攻略文档的链接
- textlength:每个文档的字符数
- tfidf_deu:德语词汇在文档中的重要性统计
- tfidf_eng:英语词汇在文档中的重要性统计
- tokencount:每个文档的唯一词汇数
- typecount:每个文档的词汇总数
- metadata目录(游戏元数据):
- 非下划线开头文件:按游戏单独存储的元数据文件
- _all:整合所有游戏元数据的文件
- _mapping_release_date*:结合发布日期的元数据文件,支持时间序列分析
- doc目录(文档说明):
- createdata:生成data目录内容的Python脚本
- extractMetainformation:生成metadata目录内容的Python脚本
- metadata_rawg:从RAWG收集的游戏元数据
- metadata_steam:从Steam收集的游戏元数据
- metadata_symbol:质量控制文件,关联源HTML文本与提取文本
- titlesandurns:游戏标题与项目标识符的映射文件
适用场景
- 游戏语言研究:分析不同游戏类型(如冒险类)的高频词汇特征,探究游戏攻略语言的风格规律
- 数字人文分析:通过"远距离阅读"方法研究游戏文化相关的语言现象
- 文本挖掘应用:验证游戏攻略语料的单字、双字频率分布规律,优化游戏领域的自然语言处理模型
- 游戏产业分析:结合元数据研究不同年代、开发商、发行商的游戏攻略语言差异
- 跨语言对比:分析英语、德语等不同语言游戏攻略的词汇使用特点