找到3,206个数据集

标签: 文本挖掘

过滤结果
  • Gemein_Nachrichten_Based_利夫兰兄弟会报告转录与元数据文件_1805_1806

    2026年1月3日 30 17 7

    数据集概述 本数据集为Unitätsarchiv Herrnhut提供的“Gemein-Nachrichten”系列中编号00406的内容转录,对应1805-1806年利夫兰地区(现拉脱维亚)兄弟会社群的报告。包含基于XML-TEI标准的多版本转录文件、元数据增强文件、标准化文本文件等4份文件,支持宗教历史研究与文本分析。 文件详解...
    packageimg
  • Chronicling_America_Based_1810_1861美国报纸孤立主义语言AI分析数据集

    2025年12月31日 30 166 165

    数据集概述 本数据集包含基于Chronicling America数据集的AI驱动搜索与分析方法及结果,聚焦1810-1861年美国报纸中与外交事务相关的“isolation”“isolated”词汇使用情况,含2个文件,支持美国历史孤立主义语言模式研究。 文件详解 方法论文档 文件名称:Methodology for Chronicling...
    packageimg
  • Algorithmization_Representation_Based_监管沙盒探索性实验试点研究数据

    2025年12月30日 30 173 113

    数据集概述 本数据集是论文“No Algorithmization without Representation: Pilot Study on Regulatory Experiments in an Exploratory Sandbox”的配套数据及脚本,包含7个文件,涉及监管沙盒探索性实验的相关数据与分析脚本,可用于支持监管实验相关研究与分析。...
    packageimg
  • COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023

    2025年12月30日 30 153 79

    数据集概述 本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果,通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称,包含8个数据文件,支持对临床试验生物医学实体的追踪与分析,数据将定期更新。 文件详解 protein_whitelist.json 文件格式:JSON...
    packageimg
  • Sara_Gil_La_otra_competencia_巴黎2024奥运会性别叙事媒体报道分析数据2025

    2025年12月29日 30 85 75

    数据集概述 本数据集为安蒂奥基亚大学传播与语言学系新闻学本科毕业论文《另一场竞赛:拆解巴黎2024奥运会报道中的性别叙事》的配套数据库,包含通过Python进行文本与声音挖掘的转录内容,以及可视化控制面板,用于分析奥运会媒体报道中的性别叙事框架,仅含一个文件。 文件详解 文件名称:La otra competencia _ Sara Gil.xlsx...
    packageimg
  • IN00618_Based_YUVARAJA_SRYASRAYA_SILADITYA的NAUSARI碑铭数据

    2025年12月29日 30 172 169

    数据集概述 本数据集包含YUVARAJA SRYASRAYA SILADITYA的NAUSARI碑铭相关文献数据,以XML格式存储,共1个文件。数据记录了该历史碑铭的文献信息,为研究古代印度历史、铭文内容提供结构化资料。 文件详解 文件名称:IN00618 TEI.xml 文件格式:XML...
    packageimg
  • FWP_Life_History_Project_美国南部联邦作家项目生活史文本与元数据_1936_1940

    2025年12月29日 30 108 25

    数据集概述 本数据集源自1936-1940年美国联邦作家项目(FWP)文件,包含美国南部生活史的机器可读文本及元数据。文本由PDF转换为TXT格式,元数据(CSV文件)记录作家、受访者、修订者的姓名及种族性别、访谈地点和年份等信息。数据用于历史研究,需注意种族性别标签的复杂性,仅含北卡罗来纳大学教堂山分校收藏的部分内容。 文件详解 压缩包文件...
    packageimg
  • Gemein_Nachrichten_Based_00884号莱里斯演讲公共城堡集会文本_Transkript

    2025年12月28日 30 13 12

    数据集概述 本数据集为Unitätsarchiv Herrnhut提供的弟兄会《Gemein-Nachrichten》文献转录数据,包含1765年起延续的弟兄会通讯中,莱里斯于12月25日在公共城堡集会的演讲内容。数据以XML-TEI格式转录并附标准化文本,含原始转录、元数据增强版及标注版文件,共4个文件。 文件详解 [ID]_01.xml...
    packageimg
  • 古拉格回忆录数据集

    2025年12月21日 30 26 5

    数据集概述 本数据集是古拉格回声团队(Gulag Echoes Team)使用和分析的古拉格主题回忆录资料,包含15个文件,涵盖多种格式,为研究古拉格相关历史记忆提供基础文本与结构化数据支持。 文件详解 结构化数据文件: Sakharov Center Gulag Memoirs Data (Authors with bios, table,...
    packageimg
  • 克罗斯特维茨药房历史档案数据集

    2025年12月21日 30 141 38

    数据集概述 该数据集包含德国克罗斯特维茨药房的历史档案,主要为1924年和1948年的历史问卷、索引卡及部分附随材料,通过Kalliope门户编目,记录药房历史相关信息。 文件详解 文件名称:08780.tiff 文件格式:TIFF(.tiff) 内容说明:药房历史档案的栅格图像文件 文件名称:08780.pdf 文件格式:PDF(.pdf)...
    packageimg
  • 希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集

    2025年12月18日 30 48 6

    数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
    packageimg
  • 德国哈斯福特艾因霍恩药房历史档案集

    2025年12月18日 30 40 38

    数据集概述 本数据集包含德国哈斯福特艾因霍恩药房的历史档案,核心为1924至1948年间的问卷、索引卡及部分相关附件,记录药房历史信息,通过Kalliope门户网站编目,为研究德国药房历史提供一手资料。 文件详解 文件名称: 18902.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 政府企业安全指南研究开放科学工件

    2025年12月23日 30 126 19

    数据集概述 该数据集是论文《A First Look at Governments' Enterprise Security Guidance》的开放科学工件,包含政府安全建议结构分析的工具、数据与文档,支持对不同政府实体安全推荐内容的处理、比较及可视化研究。 文件详解 文档类文件: A First Look at Governments'...
    packageimg
  • 哈尔伯施塔特凯撒药房历史档案数据集1924_1947

    2025年12月23日 30 170 143

    数据集概述 该数据集包含德国哈尔伯施塔特凯撒药房的历史档案,核心为1924至1948年间的问卷、索引卡及部分相关附件,通过Kalliope门户网站编目,记录药房历史相关信息。 文件详解 文件名称:18771.pdf 文件格式:PDF 内容说明:历史档案文档类文件,可能包含问卷或档案文本内容 文件名称:18771.tiff 文件格式:TIFF...
    packageimg
  • 德国Köben药房历史档案集1924_1948

    2025年12月23日 30 110 63

    数据集概述 该数据集包含1924年至1948年期间德国Köben药房的历史档案,主要为历史问卷、索引卡片及部分相关附件,通过Kalliope门户网站进行编目,记录了该药房的历史发展相关信息。 文件详解 文件名称: 19276.pdf 文件格式: PDF 内容说明: 德国Köben药房历史档案的文档类文件 文件名称: 19276.tiff 文件格式:...
    packageimg
  • Kalliope_German_Pharmacy_History_Based_德国药房历史档案完整数据集_1924_1948

    2025年12月23日 30 199 123

    数据集概述 该数据集包含与德国药房历史相关的历史问卷(1924-1948年)、索引卡片及部分公开附录材料,通过Kalliope门户编目,记录特定药房的历史背景与相关文献信息。 文件详解 文件名称:18780.pdf 文件格式:PDF 内容:包含历史问卷、索引卡片等与德国药房历史相关的文献资料 文件名称:18780.tiff 文件格式:TIFF...
    packageimg
  • Giessen_Hirsch_Apotheke德国药房历史资料集

    2025年12月23日 30 146 143

    数据集概述 该数据集包含德国Giessen Hirsch药房的历史资料,主要为1924年、1948年的历史问卷、索引卡片及部分相关附件,记录药房历史信息,通过Kalliope门户编目。 文件详解 文件名称:18581.pdf,文件格式:PDF,占比50%,可能包含药房历史问卷或索引卡片的数字化文档...
    packageimg
  • Gau_Algesheim市政药房历史档案数据集

    2025年12月23日 30 47 46

    数据集概述 本数据集包含德国Gau-Algesheim市政药房的历史档案资料,主要涉及1924年和1948年的历史问卷、索引卡片及部分选定附件,通过Kalliope门户进行编目,记录该药房的历史发展相关信息。 文件详解 文件名称: 72502.tiff 文件格式: TIFF(.tiff) 内容说明: 光栅图像文件,可能为药房历史档案中的原始文献扫描件...
    packageimg
  • 德国药店历史档案数据集_法兰克福主狮药店

    2025年12月23日 30 49 1

    数据集概述 本数据集收录了德国法兰克福主狮药店(Frankfurt/Main Löwen-Apotheke)的历史档案,包含1924年和1948年的历史问卷、索引卡片及部分附属材料,通过Kalliope门户编目,记录了该药店的发展历程。 文件详解 文件名称:18396.pdf,文件格式:PDF 文件名称:18396.tiff,文件格式:TIFF...
    packageimg
  • 苏黎世州议会法律汇编TEI_XML数据集1803_1998

    2025年12月23日 30 132 100

    数据集概述 本数据集包含瑞士苏黎世州议会1803年至1998年发布的全部法律、决议和法规文本,经转换为符合TEI标准的XML格式,作为开放政府数据(OGD)提供。数据按历史时期分为旧系列(OS AF)、新系列(OS NF)及现行系列(OS),覆盖不同治理阶段的法律文献。 文件详解 文件名称: STAZH_OGD_eOSZH_V4_NER.zip...
    packageimg