数据集概述
本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。
文件详解
- readme.md
- 文件格式:MD
- 字段映射介绍:说明数据集来源、预处理方法、文件组成及使用注意事项
- keplerANpar.json
- 文件格式:JSON
- 字段映射介绍:包含《新天文学》的预处理段落文本,以UTF8编码存储机器可读句子
- KeplerAstrNova.cite
- 文件格式:.cite
- 字段映射介绍:数据集引用相关文件,内容未详细说明
数据来源
Donahue翻译的Kepler著作:Johannes Kepler, New Astronomy, rev. edition, tr. by William H. Donahue, Green Lion Press, 2015
适用场景
- 天文学历史文献机器学习研究:用于训练文本分类、语义分析等模型
- 古籍数字化处理评估:分析OCR和自动化文本处理对历史文献的处理效果
- 科学史文本挖掘:挖掘《新天文学》中的科学概念、论证逻辑等内容
- 多语言文本预处理研究:探索历史文献从原始文本到机器可读格式的处理流程