数据集概述
本数据集是《数字人文学的引路人》第1章的教育用示例文件,包含玛丽·雪莱小说《弗兰肯斯坦》1818年初版与1831年修订版之间的文本变异,以多种数据格式结构化呈现。数据集分为“基础示例”和“深化示例”两类,共8个文件,旨在帮助学习者掌握人文学文本向计算机可分析数据的转换过程,理解数字版本基础并比较不同数据格式的特征。
文件详解
- 基础示例(教科书正文介绍用)
- 文件名称:frankenstein_variants_basic.csv
- 文件格式:CSV
- 字段映射介绍:包含《弗兰肯斯坦》1818年版与1831年版的文本变异基础数据
- 文件名称:frankenstein_variants_basic.tsv
- 文件格式:TSV
- 字段映射介绍:与basic.csv内容一致,采用制表符分隔格式
- 文件名称:frankenstein_s2_basic.json
- 文件格式:JSON
- 字段映射介绍:基础文本变异的JSON结构化数据
- 文件名称:frankenstein_tei_basic.xml
- 文件格式:XML(TEI标准)
- 字段映射介绍:采用文本编码倡议(TEI)标准的基础文本变异XML文件
- 深化示例(实践及深化学习用)
- 文件名称:frankenstein_variants_enriched.csv
- 文件格式:CSV
- 字段映射介绍:包含“句子ID”“1818年版句子”“1831年版句子”“变化类型”“主要关键词”等字段的深化文本变异数据
- 文件名称:frankenstein_variants_enriched.tsv
- 文件格式:TSV
- 字段映射介绍:与enriched.csv内容一致,采用制表符分隔格式
- 文件名称:frankenstein_chapter1_enriched.json
- 文件格式:JSON
- 字段映射介绍:包含“版本”“章节ID”“标题”“段落”等键的第1章深化文本JSON文件
- 文件名称:frankenstein_tei_enriched.xml
- 文件格式:XML(TEI标准)
- 字段映射介绍:采用TEI标准的深化文本变异XML文件
数据来源
《数字人文学的引路人》第1章「人文数据基础:与计算机一起阅读《弗兰肯斯坦》」(金炳俊、郑书贤著)
适用场景
- 数字人文学教育:用于教授人文学文本向计算机可分析数据的转换方法
- 文本变异分析:比较《弗兰肯斯坦》1818年版与1831年版的文本差异
- 数据格式比较研究:分析CSV、TSV、JSON、TEI XML等格式在人文学数据中的应用特征
- 数字版本实践:帮助学习者理解数字版本的基础构建过程
- 文本编码学习:通过TEI XML文件掌握人文学文本的标准化编码方法