找到3,145个数据集

标签: 文本挖掘

过滤结果
  • TURK_MATBUOTIDA_JADIDLAR_FAOLIYATINING_YORITILISHI_科学实践会议主题文档完整数据

    2025年12月15日   

    数据集概述 该数据集包含一份PDF文档,内容围绕标题主题展开,未提供具体描述信息。 文件详解 文件名称: G’ulomov Husanboy.pdf 文件格式: PDF (.pdf) 内容说明: 未提供具体内容描述,文件类型为文档类文件。 适用场景 文档内容分析: 可用于解析文档主题相关的文本内容 学术研究参考: 作为相关主题研究的文献资料 文档管理:...
    packageimg
  • Radich大正藏佛教文本语料库

    2025年12月15日   

    数据集概述 该数据集为基于CBETA数字化版本的中文佛教大正藏文本语料库,经Michael Radich修改以反映当前学术共识的文本历史事实,同时适配文本分析工具TACL及其图形界面(GUI)使用。 文件详解 文件名称: Radich Taisho corpus.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg
  • 中国新冠疫情新闻发布会文本框架分析数据集2020_2023

    2025年12月14日   

    数据集概述 本数据集是基于2020-2023年中国新冠疫情新闻发布会文本,通过LDA主题建模方法进行框架分析的可视化结果集合,包含不同阶段的主题可视化文件,用于呈现疫情各阶段发布会文本的主题分布特征。 文件详解 文件名称:Overall_Open_Phase_LDA_Visualization (1).html 文件格式:HTML...
    packageimg
  • 德国海登海姆卡尔_奥尔加药房历史档案数据集

    2025年12月14日   

    数据集概述 本数据集包含德国海登海姆卡尔-奥尔加药房的历史档案资料,主要为1924至1948年间的历史问卷、索引卡片及部分附属文件,通过Kalliope门户进行编目,记录了该药房的历史发展相关信息。 文件详解 文件名称:18938.tiff 文件格式:TIFF(.tiff) 内容说明:药房历史档案的栅格图像文件,可能为原始档案的扫描件...
    packageimg
  • 欧洲文学文本语料库英文小说数据集2021

    2025年12月14日   

    数据集概述 该数据集是欧洲文学文本语料库(ELTeC)的英文小说部分,2021年4月发布,包含100部英文小说的TEI XML源文件,由COST Action项目构建,为欧洲文学远程阅读研究提供支持。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容:...
    packageimg
  • 德国Heessen_Sonnen药房历史档案集1924_1948

    2025年12月14日   

    数据集概述 本数据集包含德国Heessen Sonnen药房的历史档案,核心为1924至1948年间的问卷、索引卡片及部分附函材料,记录了该药房的历史发展信息,通过Kalliope门户进行编目。 文件详解 文件名称: 18924.pdf 文件格式: PDF (.pdf) 内容说明: 属于文档类文件,可能包含药房历史相关的问卷、附函等文本资料 文件名称:...
    packageimg
  • 汉堡火车站罗滕堡索特药店历史资料集1924_1948

    2025年12月14日   

    数据集概述 本数据集包含德国汉堡火车站罗滕堡索特药店的历史资料,核心为1924至1948年间的历史问卷、索引卡及部分公开附录,通过Kalliope门户网站编目,记录该药店的发展历程。 文件详解 文件名称:18834.pdf:PDF格式文档,可能包含药店历史问卷、索引卡或附录的数字化文本内容。...
    packageimg
  • 苏黎世州政府决议TEI_XML数据集1803_1887

    2025年12月14日   

    数据集概述 该数据集包含1803至1887年瑞士苏黎世州手写版政府决议的TEI-XML格式转录文件,记录了州政府在政治、经济、社会等多领域的决策,涵盖移民、基建、工业监管及日常行政事务等内容。 文件详解 文件名称: TKR_RRB_Transkripte_XML_NER_V3.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 印尼人权紧急状态推特标签推文数据集2020

    2025年12月14日   

    数据集概述 本数据集是通过Twint工具采集的、包含2020年12月18日至19日期间,带#IndonesiaHumanRightsSOS标签的推特数据,共约十万六千九百零三条记录,涵盖用户ID、用户名、推文内容等基础信息,还附带词云、高频词等分析样例,为研究该标签相关讨论提供支持。 文件详解 原始数据文件:...
    packageimg
  • 霍姆贝格_莱茵地区格吕克奥夫药房历史资料集1924_1947

    2025年12月14日   

    数据集概述 本数据集包含德国霍姆贝格/莱茵地区格吕克奥夫药房的历史资料,核心为1924至1948年的历史问卷、索引卡及部分附录材料,通过Kalliope门户编目,反映该药房的历史沿革。 文件详解 19067.pdf:PDF格式文档文件,可能包含药房历史问卷、索引卡或附录的数字化内容...
    packageimg
  • 格罗斯_丹克特_格吕克奥夫药房历史档案数据集

    2025年12月14日   

    数据集概述 该数据集包含德国格罗斯-丹克特·格吕克奥夫药房的历史档案,主要由1924年及1948年的历史问卷、索引卡片及部分可选附件组成,通过Kalliope门户网站进行编目,记录药房历史相关信息。 文件详解 文件名称:18691.pdf,文件格式:PDF 文件名称:18691.tiff,文件格式:TIFF...
    packageimg
  • IN02013帕苏帕蒂湿婆林伽铭文翻译数据集

    2025年12月14日   

    数据集概述 该数据集包含IN02013帕苏帕蒂地区湿婆林伽铭文的翻译文件,涵盖PDF和DOCX两种格式的文档,为研究该铭文的内容提供了直接的文本资料支持。 文件详解 该数据集包含两个文档文件,具体说明如下: - 文件名称:IN02013 IX Another Paśupati area Śivalinga Inscription.pdf -...
    packageimg
  • 德国药房历史档案资料集

    2025年12月14日   

    数据集概述 本数据集包含与德国一家药房历史相关的历史问卷(1924/1948年)、索引卡片及部分附录材料,通过Kalliope门户网站编目,为研究该药房的历史沿革提供一手资料。 文件详解 文件名称: 18519.tiff:TIFF格式文件,占数据集文件总数的百分之五十,可能为历史档案的扫描图像。 文件名称:...
    packageimg
  • 柯尼希斯布吕克雄狮药房历史档案数据集1924_1947

    2025年12月14日   

    数据集概述 本数据集包含德国柯尼希斯布吕克雄狮药房的历史档案,核心为1924至1948年间的历史问卷、索引卡及部分相关附件,通过Kalliope门户网站编目,记录药房历史发展相关信息。 文件详解 文件名称: 19399.tiff,文件格式: TIFF,为光栅图像文件,可能包含药房历史档案的扫描影像 文件名称: 19399.pdf,文件格式:...
    packageimg
  • 历史PCM文本语料库附录_18_21世纪

    2025年12月14日   

    数据集概述 本数据集为研究用18至21世纪历史PCM文本语料库的附录文件,包含相关文本内容,以单一PDF格式存储,未划分训练测试或数据标签集。 文件详解 文件名称: Appendix_corpus_of_historic_(18th-21st_century)_PCM_texts.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 数据18世纪法国小说数据集1751_1800

    2025年12月14日   

    数据集概述 该数据集包含1751至1800年间创作或首次出版的200部18世纪法国小说的数字化文本,以TEI/XML格式存储,同时提供精简版和扩展版TSV元数据文件,为法国文学研究提供结构化的文本资源。 文件详解 核心文件: roman18-novels_and_scripts.zip:压缩文件,包含所有TEI/XML格式的小说文本及相关脚本...
    packageimg
  • 约伦贝克药房历史资料集1924_1948

    2025年12月14日   

    数据集概述 本数据集包含德国约伦贝克药房的历史资料,核心为1924年、1948年的历史问卷、索引卡及部分精选附件,通过Kalliope门户网站编目,记录药房历史相关信息。 文件详解 文件名称: 74000.tiff,文件格式: TIFF,为光栅图像文件,可能包含药房历史资料的扫描影像 文件名称: 74000.pdf,文件格式:...
    packageimg
  • 伦敦生活贫民审查数据集

    2025年12月14日   

    数据集概述 该数据集包含伦敦生活贫民审查的纯文本文件及圣克莱门特丹麦人驱逐令的补充数据集,以压缩包形式存储,未划分训练测试、数据标签或原始处理数据。 文件详解 文件名称: sharonhoward/llep-v2.0.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含贫民审查的纯文本文件及圣克莱门特丹麦人驱逐令的补充数据集 适用场景...
    packageimg
  • 十大畅销小说第一章数据集

    2025年12月13日   

    数据集概述 本数据集包含十本畅销小说第一章的OCR扫描文件,可用于通过Voyant Tools进行数字文本分析,为文学文本挖掘与分析提供基础数据。 文件详解 文件名称: Data Bestseller novels.pdf 文件格式: PDF (.pdf) 文件内容: 包含十本畅销小说第一章的OCR扫描文本,可用于数字文本分析的原始文档 适用场景...
    packageimg
  • SoMeSci_科学文献中的软件提及数据集

    2025年12月13日   

    数据集概述 该数据集是通过人工标注构建的科学文献中软件提及的黄金标准知识图谱,包含原始黄金标准数据及所有软件相关引用的标注内容,为科学文献中软件提及的研究提供标准化数据支持。 文件详解 Formal_Citation.zip:压缩文件,包含所有软件相关引用的标注数据 SoMeSci.zip:压缩文件,包含原始SoMeSci黄金标准数据 数据来源...
    packageimg