数据集

游戏攻略语料库_GWTC

数据集概述

该数据集包含12295份独特游戏攻略文档，覆盖6117款游戏。提供攻略文档的单字、双字频率（按文档和句子层级统计），以及游戏标题、发行商、开发商、年份、类型等元数据。所有统计数据和元数据通过URN关联，支持多维度组合分析，适用于游戏语言相关研究。

文件详解

该数据集包含data、metadata、doc三个目录，具体说明如下： - data目录（文档数据）： - bagofwords：按文档统计的单字频率 - bigrams：按文档统计的双字频率 - corpusstats：统计信息，包括文档的令牌数、类型数、类型/令牌比的最小/平均/最大值，以及游戏对应的文档数和标准差 - game_walkthrough_mapping：游戏与攻略文档的映射关系，包含每个游戏对应的文档数量 - sentencecollocations：按文档句子层级统计的单字频率 - sourceUrls：原始攻略文档的链接 - textlength：每个文档的字符数 - tfidf_deu：德语词汇在文档中的重要性统计 - tfidf_eng：英语词汇在文档中的重要性统计 - tokencount：每个文档的唯一词汇数 - typecount：每个文档的词汇总数 - metadata目录（游戏元数据）： - 非下划线开头文件：按游戏单独存储的元数据文件 - _all：整合所有游戏元数据的文件 - _mapping_release_date*：结合发布日期的元数据文件，支持时间序列分析 - doc目录（文档说明）： - createdata：生成data目录内容的Python脚本 - extractMetainformation：生成metadata目录内容的Python脚本 - metadata_rawg：从RAWG收集的游戏元数据 - metadata_steam：从Steam收集的游戏元数据 - metadata_symbol：质量控制文件，关联源HTML文本与提取文本 - titlesandurns：游戏标题与项目标识符的映射文件

适用场景

游戏语言研究：分析不同游戏类型（如冒险类）的高频词汇特征，探究游戏攻略语言的风格规律
数字人文分析：通过"远距离阅读"方法研究游戏文化相关的语言现象
文本挖掘应用：验证游戏攻略语料的单字、双字频率分布规律，优化游戏领域的自然语言处理模型
游戏产业分析：结合元数据研究不同年代、开发商、发行商的游戏攻略语言差异
跨语言对比：分析英语、德语等不同语言游戏攻略的词汇使用特点

数据与资源

4562336.zipZIP
787.84 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	787.84 MiB
最后更新	2025年12月8日
创建于	2025年12月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。