游戏攻略语料库_GWTC

数据集概述

该数据集包含12295份独特游戏攻略文档,覆盖6117款游戏。提供攻略文档的单字、双字频率(按文档和句子层级统计),以及游戏标题、发行商、开发商、年份、类型等元数据。所有统计数据和元数据通过URN关联,支持多维度组合分析,适用于游戏语言相关研究。

文件详解

该数据集包含data、metadata、doc三个目录,具体说明如下: - data目录(文档数据): - bagofwords:按文档统计的单字频率 - bigrams:按文档统计的双字频率 - corpusstats:统计信息,包括文档的令牌数、类型数、类型/令牌比的最小/平均/最大值,以及游戏对应的文档数和标准差 - game_walkthrough_mapping:游戏与攻略文档的映射关系,包含每个游戏对应的文档数量 - sentencecollocations:按文档句子层级统计的单字频率 - sourceUrls:原始攻略文档的链接 - textlength:每个文档的字符数 - tfidf_deu:德语词汇在文档中的重要性统计 - tfidf_eng:英语词汇在文档中的重要性统计 - tokencount:每个文档的唯一词汇数 - typecount:每个文档的词汇总数 - metadata目录(游戏元数据): - 非下划线开头文件:按游戏单独存储的元数据文件 - _all:整合所有游戏元数据的文件 - _mapping_release_date*:结合发布日期的元数据文件,支持时间序列分析 - doc目录(文档说明): - createdata:生成data目录内容的Python脚本 - extractMetainformation:生成metadata目录内容的Python脚本 - metadata_rawg:从RAWG收集的游戏元数据 - metadata_steam:从Steam收集的游戏元数据 - metadata_symbol:质量控制文件,关联源HTML文本与提取文本 - titlesandurns:游戏标题与项目标识符的映射文件

适用场景

  • 游戏语言研究:分析不同游戏类型(如冒险类)的高频词汇特征,探究游戏攻略语言的风格规律
  • 数字人文分析:通过"远距离阅读"方法研究游戏文化相关的语言现象
  • 文本挖掘应用:验证游戏攻略语料的单字、双字频率分布规律,优化游戏领域的自然语言处理模型
  • 游戏产业分析:结合元数据研究不同年代、开发商、发行商的游戏攻略语言差异
  • 跨语言对比:分析英语、德语等不同语言游戏攻略的词汇使用特点
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 787.84 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。