数据集概述
本数据集包含从《道藏輯要》中提取的1元、2元、3元语法(N-gram)统计数据,以及对应书籍的元数据。数据按不同元语法类型分类存储,每本书对应独立的统计文件,可用于分析《道藏輯要》的文本语言特征,总计包含4个文件。
文件详解
- 一元语法数据集:
- 文件名称:jiyao_1.7z
- 文件格式:7z压缩包(内含TXT文件)
- 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含一元语法词汇及其在书中的出现次数。
- 二元语法数据集:
- 文件名称:jiyao_2.7z
- 文件格式:7z压缩包(内含TXT文件)
- 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含二元语法词汇组合及其在书中的出现次数。
- 三元语法数据集:
- 文件名称:jiyao_3.7z
- 文件格式:7z压缩包(内含TXT文件)
- 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含三元语法词汇组合及其在书中的出现次数。
- 书籍元数据:
- 文件名称:jiyao_metadata.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含《道藏輯要》中每本书的基本元数据信息。
适用场景
- 古籍文本语言特征分析:通过N-gram统计数据研究《道藏輯要》的词汇使用、短语结构及语言规律。
- 古籍数字化研究:为《道藏輯要》的数字化处理、文本挖掘提供基础统计数据支持。
- 文献计量学分析:基于词汇出现次数,分析书中核心概念、主题分布及内容重点。
- 传统文化研究:辅助研究《道藏輯要》所蕴含的道教文化、哲学思想的语言表达特征。