Dao_Zang_Ji_Yao_Based道藏輯要N元语法统计数据集

数据集概述

本数据集包含从《道藏輯要》中提取的1元、2元、3元语法(N-gram)统计数据,以及对应书籍的元数据。数据按不同元语法类型分类存储,每本书对应独立的统计文件,可用于分析《道藏輯要》的文本语言特征,总计包含4个文件。

文件详解

  • 一元语法数据集:
  • 文件名称:jiyao_1.7z
  • 文件格式:7z压缩包(内含TXT文件)
  • 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含一元语法词汇及其在书中的出现次数。
  • 二元语法数据集:
  • 文件名称:jiyao_2.7z
  • 文件格式:7z压缩包(内含TXT文件)
  • 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含二元语法词汇组合及其在书中的出现次数。
  • 三元语法数据集:
  • 文件名称:jiyao_3.7z
  • 文件格式:7z压缩包(内含TXT文件)
  • 字段映射介绍:每本书对应一个TXT文件,采用制表符分隔格式,每行包含三元语法词汇组合及其在书中的出现次数。
  • 书籍元数据:
  • 文件名称:jiyao_metadata.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含《道藏輯要》中每本书的基本元数据信息。

适用场景

  • 古籍文本语言特征分析:通过N-gram统计数据研究《道藏輯要》的词汇使用、短语结构及语言规律。
  • 古籍数字化研究:为《道藏輯要》的数字化处理、文本挖掘提供基础统计数据支持。
  • 文献计量学分析:基于词汇出现次数,分析书中核心概念、主题分布及内容重点。
  • 传统文化研究:辅助研究《道藏輯要》所蕴含的道教文化、哲学思想的语言表达特征。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 25.23 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。