Astronomia_nova_Kepler著作预处理文本机器学习数据集

数据集概述

本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。

文件详解

  • readme.md
  • 文件格式:MD
  • 字段映射介绍:说明数据集来源、预处理方法、文件组成及使用注意事项
  • keplerANpar.json
  • 文件格式:JSON
  • 字段映射介绍:包含《新天文学》的预处理段落文本,以UTF8编码存储机器可读句子
  • KeplerAstrNova.cite
  • 文件格式:.cite
  • 字段映射介绍:数据集引用相关文件,内容未详细说明

数据来源

Donahue翻译的Kepler著作:Johannes Kepler, New Astronomy, rev. edition, tr. by William H. Donahue, Green Lion Press, 2015

适用场景

  • 天文学历史文献机器学习研究:用于训练文本分类、语义分析等模型
  • 古籍数字化处理评估:分析OCR和自动化文本处理对历史文献的处理效果
  • 科学史文本挖掘:挖掘《新天文学》中的科学概念、论证逻辑等内容
  • 多语言文本预处理研究:探索历史文献从原始文本到机器可读格式的处理流程
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。