Astronomia_nova_Kepler著作预处理文本机器学习数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Astronomia_nova_Kepler著作预处理文本机器学习数据集

数据集概述

本数据集为开普勒《新天文学》（Astronomia nova）的预处理文本语料库，源自Donahue翻译的2015年修订版，经OCR和自动化文本处理生成UTF8编码的机器可读纯文本，移除特殊字符、引用标记等，保留部分OCR误差。包含3个文件，用于机器学习场景。

文件详解

readme.md
文件格式：MD
字段映射介绍：说明数据集来源、预处理方法、文件组成及使用注意事项
keplerANpar.json
文件格式：JSON
字段映射介绍：包含《新天文学》的预处理段落文本，以UTF8编码存储机器可读句子
KeplerAstrNova.cite
文件格式：.cite
字段映射介绍：数据集引用相关文件，内容未详细说明

数据来源

Donahue翻译的Kepler著作：Johannes Kepler, New Astronomy, rev. edition, tr. by William H. Donahue, Green Lion Press, 2015

适用场景

天文学历史文献机器学习研究：用于训练文本分类、语义分析等模型
古籍数字化处理评估：分析OCR和自动化文本处理对历史文献的处理效果
科学史文本挖掘：挖掘《新天文学》中的科学概念、论证逻辑等内容
多语言文本预处理研究：探索历史文献从原始文本到机器可读格式的处理流程

数据与资源

5838228.zipZIP
0.98 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.98 MiB
最后更新	2026年1月26日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？