-
StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1
数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
-
SophiA_Casa_dos_Contos_FBN_巴西财政历史文档馆藏数据
数据集概述 本数据集是巴西国家图书馆基金会Casa dos Contos文档馆藏的不完全清单,包含一万一千一百六十八条文档摘要记录,占SophiA平台巴西国家数字档案馆该馆藏总记录(一万二千零四十三条)的百分之九十三。该馆藏是巴西财政史上最重要的档案之一,涵盖一七零一年至一八八九年米纳斯吉拉斯地区的财政相关文档,已全部数字化并在线开放。 文件详解...
-
保护现状_抵御_绿色病毒_荷兰人民党_PVV_与自由党_VB_政治主张文档汇编
数据集概述 本数据集包含荷兰政治语境下的文档集合,核心围绕“保护现状对抗绿色病毒”主题,涉及PVV和Vlaams Belang(VB)政党相关的93份文档,涵盖能源政策、政治主张等内容,文件类型统一为DOCX格式,无目录层级结构。 文件详解 文档文件 文件名称:遵循PVV_XX.docx、VB_XX.docx或含日期/标题的命名模式(例如PVV_25...
-
Dataset_CORPUS_FINAL_PCI_巴西信息科学虚假信息研究数据集
数据集概述 本数据集是论文《巴西信息科学领域的虚假信息研究能告诉我们什么?》的配套数据,包含一个核心文件,主要内容为虚假信息研究相关的语料库数据,适用于信息科学领域的虚假信息主题分析。 文件详解 文件名称:dataset_CORPUS_FINAL_PCI.xlsx 文件格式:XLSX...
-
Bomber_s_Baedeker_Based_二战德国城镇经济重要性指南开放数据
数据集概述 本数据集是二战期间英国外交部与经济战部编制的《The Bomber's Baedeker》两卷本数字化成果,记录了德国千余居民城镇的战争相关基础设施、工业及生产设施信息。原书仅存4份实体副本,经莱布尼茨欧洲历史研究所等机构合作数字化,成为符合FAIR原则的开放机器可读数据源。 文件详解...
-
曼布里诺数字图书馆_意大利骑士文学_第13卷第4册_希腊的斯费拉蒙迪_数字化版本数据
数据集概述 本数据集是意大利骑士文学作品《13/4 Sferamundi di Grecia. Quarta parte》的数字化学术版本,包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件,属于Mambrino数字图书馆项目,用于支持文学研究与数字化分析。 文件详解 转录与评注文件...
-
Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1
数据集概述 本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。 文件详解...
-
HEREDITary_Based_肠道_大脑相互作用语义数据整合语料库_V0_1
数据集概述 本数据集是HEREDITARY项目下的HEREDITermCorpus_en_V0.1,为肠道-大脑相互作用研究构建的多语言语料库英文版本,包含经筛选的微生物群-肠道-...
-
AmadissigloXX_Based_塞万提斯遗漏章节模仿作品元数据_2024
数据集概述 本数据集是AmadissigloXX数据库的一部分,聚焦于胡安·蒙塔尔沃1898年作品《Capítulos que se le olvidaron a Cervantes. Ensayo de imitación de un libro...
-
UBL000033129_Based_Over_Yssel地区土地法文献转录数据集
数据集概述 本数据集为1630年出版的荷兰Overijssel地区土地法文献《Het landt-recht van Over-Yssel》的转录数据,基于莱顿大学图书馆藏本、荷兰国家图书馆数字化版本制作,包含文献的完整转录内容,是研究荷兰早期法律史的原始文献资源。 文件详解 文件名称:UBL000033129.zip 文件格式:ZIP...
-
AmadissigloXX_Based骑士文学与_堂吉诃德_现代重写数据库v1_1
数据集概述 本数据集属于AmadissigloXX数据库(由Elisabetta Sarmati指导),收录骑士文学及《堂吉诃德》的现代重写作品。示例为Gustavo Martín Garzo 2004年作品《Los amores imprudentes》的相关数据,包含JSON格式元数据与XML格式完整数据库,共2个文件。 文件详解...
-
AmadissigloXX_Based_现代骑士文学改写数据库_文学研究_2023
数据集概述 本数据集是AmadissigloXX项目的一部分,由Elisabetta Sarmati主持,包含Rafael Sánchez-Mazas于1984年创作的《Rosa Krüger》的元数据及完整数据库。数据分为JSON和XML两种格式,分别记录作品元数据和完整数据库内容,支持现代骑士文学改写研究。 文件详解 5073.json...
-
HeinrichXI_Reuß_Greiz_旅行日记数字学术版数据1740_1742
数据集概述 本数据集为海因里希十一世·罗伊斯-格赖茨1740至1742年旅行日记的数字学术版,包含2个XML格式文件,记录其旅行期间的相关内容及索引信息,是研究该历史人物旅行活动的结构化数字文献资源。 文件详解 reisetagebuch-heinrichxiReuss.xml 文件格式:XML...
-
HBV_Lymphotrophism_Based乙肝病毒嗜淋巴性评估与免疫细胞互作数据
数据集概述 本数据集通过对PubMed数据库中HBV在人体白细胞中表现的文献进行深度整理,识别出与HBV发病机制相关的28个基因、92种蛋白质、20种外周血单核细胞及20种允许病毒穿透复制的免疫细胞,揭示HBV可能的嗜淋巴特性及免疫细胞在病毒传播中的作用。 文件详解 数据文件(CSV格式,共5个) FINAL_HBV-...
-
Gemein_Nachrichten_Based_弟兄会1807年第30期手稿转录数据
数据集概述 本数据集为弟兄会(Unitas Fratrum / Moravian Church)最古老的通讯刊物《Gemein-Nachrichten》1807年第30期的数字化转录资料,包含XML-TEI格式的多版本转录文件及标准化文本文件,记录了弟兄会的社区报告、宣教工作内容、讲道及人物生平,是研究弟兄会历史及宗教文化的重要文献资源。 文件详解...
-
EU_CIEMBLY_Based_项目Deliverable_3_1匿名访谈转录本数据
数据集概述 本数据集为EU-CIEMBLY项目Deliverable 3.1的匿名访谈转录本,包含十五份访谈文档,涉及医学相关关键词,数据未进行训练测试、数据标签或原始处理拆分,所有文件均为DOCX格式,无目录层级结构。 文件详解 文件集合 文件名称:包含EUCIEMBLY Project Interview 1.docx至EUCIEMBLY...
-
Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据
数据集概述 本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本,通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联,每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成,未经过人工编辑或校正,共包含1个文件。 文件详解...
-
Ouseley_Mission_Based_1810_15年波斯外交使团旅程报告分析数据
数据集概述 本数据集是1810-15年Gore Ouseley爵士率领的波斯外交使团相关研究档案的一部分,由独立研究者W H (Bill) Martin和Sandra Mason整理。包含使团成员及相关人员旅程报告的可搜索列表与分析数据,是已发表的Ouseley使团研究报告的基础数据,共5个文件。 文件详解 README文件 文件名称:README...
-
Gemein_Nachrichten_Based_弟兄会历史通信转录与标注数据_1775
数据集概述 本数据集为Unitätsarchiv Herrnhut提供的弟兄会(Unitas Fratrum)历史通信《Gemein-Nachrichten》的转录数据,聚焦1775年6月24日Bethlehem的Johannes Ettwein弟兄信件内容。包含基于XML-...
-
IN00617_Based_Chalukya王朝Nagavardhana授予文书XML数据
数据集概述 本数据集包含Chalukya王朝Nagavardhana授予文书的XML格式数字化文件,是一份记录古代印度Chalukya王朝授予行为的历史文献资料,总计包含1个文件。 文件详解 文件名称:IN00617 TEI.xml 文件格式:XML...



