-
Astronomia_nova_Kepler著作预处理文本机器学习数据集
2026年1月21日 30 91 22
数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
-
Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据
2026年1月13日 30 49 36
数据集概述 本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本,通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联,每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成,未经过人工编辑或校正,共包含1个文件。 文件详解...
-
Supplementary_material_2_Based_微生物超级树文献补充材料数据
2026年1月13日 30 190 91
数据集概述 本数据集是2017年发表于Research Ideas and Outcomes期刊的论文《A machine-compiled microbial supertree from figure-mining thousands of...
-
FWP_Life_History_Project_美国南部联邦作家项目生活史文本与元数据_1936_1940
2025年12月29日 30 115 72
数据集概述 本数据集源自1936-1940年美国联邦作家项目(FWP)文件,包含美国南部生活史的机器可读文本及元数据。文本由PDF转换为TXT格式,元数据(CSV文件)记录作家、受访者、修订者的姓名及种族性别、访谈地点和年份等信息。数据用于历史研究,需注意种族性别标签的复杂性,仅含北卡罗来纳大学教堂山分校收藏的部分内容。 文件详解 压缩包文件...



