-
曼布里诺数字图书馆_意大利骑士文学_第13卷第6册_斯费拉蒙迪的希腊_第六部分数字化版本数据
数据集概述 本数据集为意大利骑士文学作品《13/6 Sferamundi di Grecia. Sesta parte》的数字化学术版本,包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件,是Mambrino数字图书馆项目的一部分,用于支持骑士文学的数字化研究。 文件详解 转录与评注文件...
-
IN01042_Sanskrit_XML格式Ravivarman的Nilambur授权文件数据
数据集概述 本数据集为IN01042编号的《Ravivarman的Nilambur授权文件》梵语文本的XML格式文件,无元数据信息。数据集仅包含1个XML文件,未进行训练/测试、数据/标签或原始/处理等划分,专注于提供该历史授权文件的数字化文本内容。 文件详解 XML数据文件 文件名称:IN01042.xml 文件格式:XML...
-
Relation_Extraction_Based_生物与天然产物关系抽取评估数据集_test
数据集概述 本数据集是针对生物与天然产物之间关系的端到端关系抽取任务构建的人工标注评估数据集,包含对化学实体、生物实体及两者间明确关系的结构化标注,为生物信息学领域的关系抽取模型提供测试基准。 文件详解 文件名称:curated_test_set.json 文件格式:JSON 字段映射介绍:包含人工标注的实体与关系信息,主要分为三类标注内容:...
-
IN02047_Siddham_Deopatan梵语铭文Epidoc格式XML数据_draft
数据集概述 本数据集为IN02047 Deopatan铭文的初步Epidoc格式梵语XML文件,不含元数据,计划纳入“Siddham”档案。数据核心为该铭文的数字化文本,支持铭文文献的标准化存储与研究,仅包含一个文件。 文件详解 文件名称:IN02047.xml 文件格式:XML...
-
IN02003_Sanskrit_Based_昌古纳拉扬石柱西轴铭文梵语XML数据_draft
数据集概述 本数据集包含IN02003昌古纳拉扬石柱西轴铭文的梵语文本数据,以XML格式存储,为Epidoc标准的草稿版本,计划纳入Siddham档案。数据无元数据,仅包含一份核心XML文件,用于铭文文本的数字化保存与研究。 文件详解 文件名称:IN02003.xml 文件格式:XML...
-
padimi_manual_analysis_Based_基于本体的病原体_疾病关联文献挖掘数据
数据集概述 本数据集包含通过本体方法从文献中挖掘并经人工评估的病原体-疾病关联数据,用于支持相关研究。数据聚焦于从文献中提取的病原体与疾病之间的关联关系,为生物医学领域的关联分析提供结构化参考。 文件详解 文件名称:padimi_manual_analysis.xlsx 文件格式:XLSX 字段映射介绍:包含人工评估的文本挖掘病原体-...
-
Framing_femicide_墨西哥三大新闻媒体女性杀人案报道编码数据集_2014_2017
数据集概述 本数据集包含墨西哥三家新闻媒体(El Universal、Reforma、Excélsior)2014年7月至2017年12月期间的2528篇编码文章,聚焦女性杀人案(femicide)相关报道。文章通过关键词筛选收集,涵盖不同意识形态媒体的报道内容,为研究女性杀人案的媒体框架提供结构化数据。 文件详解 文件名称:Dataset...
-
曼布里诺数字图书馆_意大利骑士文学系列第13卷第5册_希腊的斯法拉蒙迪_第五部分数字学术版数据资料
数据集概述 本数据集是意大利骑士文学作品《13/5 Sferamundi di Grecia. Quinta parte》的数字学术版本,包含转录及评注的XML-TEI文件、多格式电子书和用于计算分析的纯文本文件,属于Mambrino数字图书馆项目,由维罗纳大学开发,支持古典文学的数字化研究。 文件详解 转录及评注文件...
-
telota_lebenswelten_东普鲁士庄园档案社会生活世界XML_TEI数据集v1_0_0
数据集概述 本数据集包含两个数字版本的XML/TEI文件(文档、索引和模式),联合名称为“东普鲁士庄园档案中的贵族与农民生活世界”。具体涵盖18至20世纪东普鲁士Lehndorff贵族家庭的生活世界、经验空间及政治视野,以及近代农民生活世界在东普鲁士庄园档案中的反映,为研究东普鲁士社会历史提供结构化文献资源。 文件详解 文件名称:telota-...
-
NER_Tutorial_Maschinelles_Lernen_数字文学机器学习NER教程训练数据
数据集概述 本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。 文件详解 数据文件 文件名称:ner_kernkorpus.txt 文件格式:TXT...
-
ENP_China_Timeline_Glossary_现代中国历史事件时间线与术语表数据集1_0_0
数据集概述 本数据集为1939-1949年现代中国历史事件的时间线与术语表,收录历史文献及网络等来源中事件的常用命名表达,含中英双语内容,存在同一事件多种命名的重复记录,同时提供事件日期,可作为中国现代史时间线工具,用于数据挖掘与NLP处理。 文件详解 文件名称:Timeline_Glossary_Events_1.0.0.xlsx 文件格式:XLSX...
-
Gemein_Nachrichten_Based_利夫兰兄弟会报告转录与元数据文件_1805_1806
数据集概述 本数据集为Unitätsarchiv Herrnhut提供的“Gemein-Nachrichten”系列中编号00406的内容转录,对应1805-1806年利夫兰地区(现拉脱维亚)兄弟会社群的报告。包含基于XML-TEI标准的多版本转录文件、元数据增强文件、标准化文本文件等4份文件,支持宗教历史研究与文本分析。 文件详解...
-
Chronicling_America_Based_1810_1861美国报纸孤立主义语言AI分析数据集
数据集概述 本数据集包含基于Chronicling America数据集的AI驱动搜索与分析方法及结果,聚焦1810-1861年美国报纸中与外交事务相关的“isolation”“isolated”词汇使用情况,含2个文件,支持美国历史孤立主义语言模式研究。 文件详解 方法论文档 文件名称:Methodology for Chronicling...
-
Algorithmization_Representation_Based_监管沙盒探索性实验试点研究数据
数据集概述 本数据集是论文“No Algorithmization without Representation: Pilot Study on Regulatory Experiments in an Exploratory Sandbox”的配套数据及脚本,包含7个文件,涉及监管沙盒探索性实验的相关数据与分析脚本,可用于支持监管实验相关研究与分析。...
-
COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023
数据集概述 本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果,通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称,包含8个数据文件,支持对临床试验生物医学实体的追踪与分析,数据将定期更新。 文件详解 protein_whitelist.json 文件格式:JSON...
-
Sara_Gil_La_otra_competencia_巴黎2024奥运会性别叙事媒体报道分析数据2025
数据集概述 本数据集为安蒂奥基亚大学传播与语言学系新闻学本科毕业论文《另一场竞赛:拆解巴黎2024奥运会报道中的性别叙事》的配套数据库,包含通过Python进行文本与声音挖掘的转录内容,以及可视化控制面板,用于分析奥运会媒体报道中的性别叙事框架,仅含一个文件。 文件详解 文件名称:La otra competencia _ Sara Gil.xlsx...
-
IN00618_Based_YUVARAJA_SRYASRAYA_SILADITYA的NAUSARI碑铭数据
数据集概述 本数据集包含YUVARAJA SRYASRAYA SILADITYA的NAUSARI碑铭相关文献数据,以XML格式存储,共1个文件。数据记录了该历史碑铭的文献信息,为研究古代印度历史、铭文内容提供结构化资料。 文件详解 文件名称:IN00618 TEI.xml 文件格式:XML...
-
FWP_Life_History_Project_美国南部联邦作家项目生活史文本与元数据_1936_1940
数据集概述 本数据集源自1936-1940年美国联邦作家项目(FWP)文件,包含美国南部生活史的机器可读文本及元数据。文本由PDF转换为TXT格式,元数据(CSV文件)记录作家、受访者、修订者的姓名及种族性别、访谈地点和年份等信息。数据用于历史研究,需注意种族性别标签的复杂性,仅含北卡罗来纳大学教堂山分校收藏的部分内容。 文件详解 压缩包文件...
-
Gemein_Nachrichten_Based_00884号莱里斯演讲公共城堡集会文本_Transkript
数据集概述 本数据集为Unitätsarchiv Herrnhut提供的弟兄会《Gemein-Nachrichten》文献转录数据,包含1765年起延续的弟兄会通讯中,莱里斯于12月25日在公共城堡集会的演讲内容。数据以XML-TEI格式转录并附标准化文本,含原始转录、元数据增强版及标注版文件,共4个文件。 文件详解 [ID]_01.xml...
-
古拉格回忆录数据集
数据集概述 本数据集是古拉格回声团队(Gulag Echoes Team)使用和分析的古拉格主题回忆录资料,包含15个文件,涵盖多种格式,为研究古拉格相关历史记忆提供基础文本与结构化数据支持。 文件详解 结构化数据文件: Sakharov Center Gulag Memoirs Data (Authors with bios, table,...



