-
古典与文学汉语学习者可靠词汇表原始频率数据集
2025年12月16日 30 6 2
数据集概述 该数据集包含古典与文学汉语学习者词汇表的原始频率计数,基于三个语料库(Micheal Loewe早期中文文本、正史、六部小说)构建,为汉语词汇研究提供基础数据支持。 文件详解 压缩包文件:...
-
游戏攻略语料库_GWTC
2025年12月8日 30 196 153
数据集概述 该数据集包含12295份独特游戏攻略文档,覆盖6117款游戏。提供攻略文档的单字、双字频率(按文档和句子层级统计),以及游戏标题、发行商、开发商、年份、类型等元数据。所有统计数据和元数据通过URN关联,支持多维度组合分析,适用于游戏语言相关研究。 文件详解 该数据集包含data、metadata、doc三个目录,具体说明如下: -...



