-
Jack_the_Ripper_Corpus_开膛手杰克信件语料库数据v1_0
数据集概述 本数据集为开膛手杰克信件语料库v1.0,包含与开膛手杰克相关的信件文本集合,是用于历史研究和文本分析的语料资源。数据集以压缩包形式存储,未进行训练测试、数据标签或原始处理数据的拆分。 文件详解 文件名称:andreanini/jacktherippercorpus-v1.0.zip 文件格式:ZIP(压缩包)...
-
BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集
数据集概述 本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。 文件详解...
-
Shared_Research_Repository_BL报纸样本纯文本数据集
数据集概述 本数据集包含Shared Research Repository发布的报纸文章纯文本数据,以压缩包形式提供,可用于自然语言处理相关的文本分析任务,总计包含一个文件。 文件详解 压缩文件 文件名称:newspaper_text.zip 文件格式:ZIP...
-
IN02069_Draft_Epidoc_Tebahal石刻铭文梵语XML数据
数据集概述 本数据集包含IN02069 Tebahal石刻铭文的梵语XML文件,为Epidoc格式的草稿版本,无元数据,将纳入"Siddham"档案。数据集仅含1个文件,用于石刻铭文的数字化保存与研究。 文件详解 文件名称:IN02069.xml 文件格式:XML...
-
IN02055_Sanskrit_EpiDoc格式Thimi铭文残片XML草稿
数据集概述 本数据集为IN02055 Thimi铭文残片的梵语XML文件,采用EpiDoc格式的草稿版本,不含元数据,计划纳入“Siddham”档案。数据集仅包含1个XML文件,无目录层级,未进行训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:IN02055.xml 文件格式:XML...
-
DIPROMATS_2024_Shared_Task_2_叙事识别小样本训练数据
数据集概述 本数据集是DIPROMATS 2024共享任务2的小样本训练数据,用于叙事识别任务。叙事是指有因果联系的事件序列,在国际关系领域,国际行为体通过战略叙事构建国际政治的过去、现在和未来的共同意义。数据集包含英文和西班牙文两种语言的训练数据,共2个文件。 文件详解 文件名称:dipromats24_t2_train_en_ids.json...
-
IN02085_EpiDoc_梵语铭文XML草稿版_Siddham档案待整合数据
数据集概述 本数据集包含IN02085 Cyasaltole铭文的梵语XML文件,为EpiDoc格式的草稿版,不含元数据,计划纳入"Siddham"档案。数据集仅含1个XML文件,无目录结构,未进行训练/测试、数据/标签或原始/处理数据的拆分,文件类型单一为XML格式。 文件详解 文件名称:IN02085.xml 文件格式:XML...
-
IN02061_Sanskrit_Epidoc草案_Balambu铭文梵语文本数据
数据集概述 本数据集为IN02061 Balambu铭文的梵语XML文件,是待纳入“Siddham”档案的Epidoc格式草案版本,不含元数据。数据集仅包含一个XML文件,用于记录和分析该铭文的梵语文本内容,为考古与梵语研究提供结构化文本资源。 文件详解 文件名称:IN02061.xml 文件格式:XML...
-
AmadissigloXX_Based_堂吉诃德及骑士文学现代改写数据库_1969
数据集概述 本数据集属于AmadissigloXX数据库,聚焦堂吉诃德及骑士文学的现代改写作品,包含José Camón Aznar于1969年创作的《El pastor Quijótiz》相关数据,提供JSON格式元数据与XML格式完整数据库文件,支持文学研究与文本分析。 文件详解 JSON格式文件(示例:5324.json) 文件格式:JSON...
-
曼布里诺数字图书馆_意大利骑士文学第13卷第1章_希腊的斯费拉蒙迪_数字学术版数据集
数据集概述 本数据集为意大利骑士文学作品《13/1 Sferamundi di Grecia. Prima parte》的数字学术版本,包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件,是Mambrino数字图书馆项目成果,用于支持骑士文学的数字化研究与文本分析。 文件详解 转录与评注文件...
-
Heatmap_Code_Co_Occurrences_专家访谈一阶概念共现热图数据
数据集概述 本数据集为23次专家访谈中提取的一阶概念共现热图,以矩阵形式呈现不同一阶概念在文本片段中共同出现的频次。矩阵行列代表一阶概念,单元格值表示共现频率,颜色深浅对应共现强度,用于识别概念间潜在关联。 文件详解 文件名称:Heatmap of Code Co-Occurrences.xlsx 文件格式:XLSX...
-
Touché23_Argument_Retrieval_争议问题论据检索任务数据
数据集概述 本数据集为Touché 2023会议争议问题论据检索任务的专用数据,包含5个文件,涵盖立场、质量、相关性评估文件、运行结果压缩包及主题文件,支持该任务的模型训练与评估。 文件详解 .qrels文件(3个) 文件名称:touche-task1-2023-stance.qrels、touche-...
-
数据521_english_robinson_crusoe_英文鲁宾逊漂流记文档
数据集概述 本数据集包含一份英文版本的《鲁宾逊漂流记》文档,文件名称为521_english_robinson_crusoe.docx,无其他关联文件或目录结构,未检测到命名模式、训练测试/数据标签/原始处理数据等分割,文档内容无预览信息。 文件详解 文件名称:521_english_robinson_crusoe.docx 文件格式:DOCX...
-
PTA_Patristische_Textarchiv教父文献档案TEI模式数据
数据集概述 本数据集包含教父文献档案(Patristische Textarchiv,PTA)使用的TEI模式及其相关文档,用于规范教父文献的数字化编码与存储。数据集以压缩包形式提供,包含一套标准化的文本编码框架,适用于教父文献的结构化处理与长期保存。 文件详解 文件名称:PatristicTextArchive/Schema-v.4.0.zip...
-
IN01031_梵语铭文数据_注_此翻译仅针对专有名词和术语_文本内容保持英文原样
数据集概述 本数据集为IN01031号文献,即Ravivarman第34年Davanagere授予令的梵语XML文件,无附加元数据。数据集仅包含一个XML文件,用于存储该历史铭文的梵语文本内容,支持历史文献数字化研究与文本分析。 文件详解 文件名称:IN01031.xml 文件格式:XML...
-
AmadissigloXX_Based_现代骑士文学与堂吉诃德重写数据库_v1_1
数据集概述 本数据集是AmadissigloXX项目下的现代骑士文学与《堂吉诃德》重写数据库,包含Antonio Ledesma Hernández于1903年创作的《Canuto Espárrago》相关数据。数据集提供JSON格式的作品元数据与XML格式的完整数据库,支持对该作品的文学研究与文本分析。 文件详解 JSON文件:...
-
IN02007_Draft_Epidoc_Manadeva湿婆林伽铭文梵语XML数据
数据集概述 本数据集包含IN02007编号的Lajampat湿婆林伽铭文(Manadeva时期)的梵语XML文件,为Epidoc格式的草稿版本,将纳入"Siddham"档案。数据集仅含1个文件,无元数据及目录结构,聚焦于铭文文本的结构化存储。 文件详解 文件名称:IN02007.xml 文件格式:XML...
-
AmadissigloXX_Based_现代骑士文学重写与堂吉诃德研究数据库_v1_1
数据集概述 本数据集为AmadissigloXX项目的一部分,聚焦现代骑士文学重写与《堂吉诃德》相关研究。包含达里奥·奥塞斯1995年作品《沙漠中的骑士》的元数据与完整数据库内容,支持骑士文学数字化研究与文本分析。 文件详解 JSON文件 文件名称:5344.json 文件格式:JSON...
-
Scarlet_Gown_Encoded_Robert_Murray诗歌TEI编码数据
数据集概述 本数据集是Robert Fuller Murray所著《The Scarlet Gown》第二版中诗歌《The City of Golf》的Xml-TEI格式有效编码数据,由帕多瓦大学2022年春季Digital Philology课程制作,关联DissGea、MoHu Center、MobiLab机构。 文件详解...
-
Handschrift_Serrure_Based_中世纪荷兰语杂集手稿原始XML数据
数据集概述 本数据集包含中世纪荷兰语杂集Handschrift-Serrure(编号Hs. Brussel, KBR, II 144)外交版本(diplomatic edition)所基于的原始XML数据。该版本遵循Peter Boot和Herman...



