找到3,288个数据集

标签: 文本挖掘

过滤结果
  • Papers_With_Code_Based_软件提及语料库数据

    2026年2月12日 0 147 56

    数据集概述 本数据集是从Papers With Code平台下载的出版物列表中构建的软件提及语料库,通过筛选包含GitHub仓库元数据的论文文本生成。数据集仅包含一个压缩文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一。 文件详解 文件名称:papers_with_code_corpus.zip 文件格式:ZIP(压缩包)...
    packageimg
  • 通用新闻_基于赫恩胡特弟兄会历史档案的通讯转录数据

    2026年1月31日 30 182 76

    数据集概述 本数据集为Herrnhut联合档案馆(Unitätsarchiv Herrnhut)数字化的弟兄联盟(Unitäs Fratrum / Moravian Church)历史通讯《Gemein-Nachrichten》1807年第一部分第29号的转录数据,包含基于XML-...
    packageimg
  • VAW_Based暴力侵害妇女新闻文本挖掘研究数据

    2026年2月9日 30 38 7

    数据集概述 本数据集为暴力侵害妇女(VAW)相关研究的文本挖掘数据,包含从MongoDB数据库提取的真实VAW新闻内容,记录新闻的日期、标题及正文,用于通过文本挖掘技术开展主题建模研究,探索VAW相关社会问题。 文件详解 Noticias.metadata.json 文件格式:JSON...
    packageimg
  • p_hacking_Based科学文献偏倚研究数据集

    2026年2月9日 30 123 4

    数据集概述 本数据集围绕科学文献中的p-hacking现象展开,通过文本挖掘方法展示p-hacking在科学领域的普遍性,同时提供元分析中检测p-hacking的方法,验证其对实际效应量的影响程度。数据旨在揭示科研结果偏倚问题,为科研诚信研究提供支持。 文件详解 文件名称:FILES_FOR_DRYAD.zip 文件格式:ZIP...
    packageimg
  • TextGrid_CC_BY_3_0授权_XML格式语料库数据

    2026年1月28日 30 99 75

    数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
    packageimg
  • COVID_19_Based_临床试验蛋白质与化学品提及列表数据

    2026年1月28日 30 20 1

    数据集概述 本数据集记录了COVID-19相关临床试验中提及的所有蛋白质、化学品和基因名称,数据来源于ClinicalTrials.gov数据库。通过自动化文本挖掘管道动态标注数据库条目,随数据库更新同步更新,为解锁临床试验数据中的潜在见解提供支持。 文件详解 文件名称:trial.json 文件格式:JSON...
    packageimg
  • cProt_Based_人类癌症类型文档数据

    2026年2月1日 30 87 6

    数据集概述 本数据集包含一份关于人类癌症类型的文档数据,核心内容围绕人类癌症的分类展开,为癌症相关研究提供基础参考资料。数据集仅包含一个文件,无目录结构,未进行训练/测试、数据/标签等划分。 文件详解 文件名称:Types of Cancer in Human-file from charli 02-04-2019.docx 文件格式:docx...
    packageimg
  • ELTeC_德国小说语料库_2021年4月发布版

    2026年2月1日 30 178 15

    数据集概述 本数据集为欧洲文学文本集(ELTeC)的德国小说语料库2021年4月发布版,包含100部按1级编码的小说,共3个文件,无目录结构。数据支持欧洲文学的远程阅读研究,涵盖小说元数据与编码文本,可用于文学特征分析与比较研究。 文件详解 文件名称:README.md 文件格式:MD...
    packageimg
  • Zenodo_Source_国际联盟反国际主义研究文档

    2026年1月31日 30 46 20

    数据集概述 本数据集包含一份关于国际联盟反国际主义主题的研究文档,存储于Zenodo平台。数据集结构简单,仅包含一个文档文件,无分层目录、训练测试或数据标签划分,可直接用于相关主题的研究与分析。 文件详解 文件名称:Zenodo League of Nations Anti-Internationalism.docx 文件格式:DOCX...
    packageimg
  • LSJ_Based_LAGT古希英词典_计算分析用数据

    2026年1月30日 30 150 8

    数据集概述 本数据集是基于LSJ词典构建的古希英数字词典,专为古希语文本计算分析设计,支持LAGT数据集相关研究。包含64,774个原始词元、46,693个标准化词元及对应英文释义,附Python查询脚本,适用于离线Python工作流,助力古希腊语料库语义与词汇探索。 文件详解 文件名称:lsj_dictionary_v1_0_0.json...
    packageimg
  • ANR_PICCH_殖民时期马赛媒体呈现语料库2022

    2026年1月30日 30 141 49

    数据集概述 本数据集是2022年在ANR PICCH项目框架下由Pauline Savéant构建的语料库,由Sophie Gebeil(法国项目负责人)负责。语料库收录了法国视听媒体及网络(含互联网档案馆)中与马赛殖民历史相关的资料,旨在为批判性研究殖民时期马赛的媒体呈现提供结构化数据,包含1个文件。 文件详解...
    packageimg
  • Transcrição_访谈转录_半结构化访谈完整数据

    2026年1月30日 30 154 1

    数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...
    packageimg
  • BioSample_Based_LLM自动标注评估数据集

    2026年1月30日 30 149 131

    数据集概述 本数据集用于评估大语言模型(LLMs)对BioSample数据的自动标注能力,包含细胞系本体映射和基因名称提取两类任务的测试数据、金标准及模型输出结果,支持生物样本数据自动化处理的模型性能验证与分析。 文件详解 细胞系本体映射相关文件...
    packageimg
  • DARIAH_Based_地理文本分析教程配套资源数据集

    2026年1月30日 30 198 183

    数据集概述 本数据集是DARIAH-Campus平台地理文本分析教程的配套资源,由GeoHumanities工作组制作。包含7个文件,涵盖文本文件、GIS形状文件压缩包和CSV文件,核心内容为地理文本分析相关的参考文档、地名数据和空间坐标信息,支持地理人文领域的文本与空间数据整合研究。 文件详解 文本文件(TXT格式,共5个)...
    packageimg
  • EU_Based_数据相关欧盟法规多语言术语定义集_v3

    2026年1月30日 30 157 40

    数据集概述 本数据集为版本3的欧盟数据相关法规术语定义集合,包含从欧盟数据保护、数字服务、人工智能等领域14部法律法规中提取的术语定义,覆盖英、法、德、意、西五种语言,可用于理解欧盟数据法规核心概念。 文件详解 主文件组(含三种格式) 文件名称:Definitions from data-related EU laws v3.xlsx...
    packageimg
  • PAN16_Based_作者身份识别文档聚类测试训练数据

    2026年1月30日 30 64 20

    数据集概述 本数据集为PAN16作者身份识别聚类任务的文档集合,包含至多一百篇单作者文档,所有文档语言与体裁一致,但主题或文本长度可能不同。数据集未明确说明包含的不同作者数量,旨在用于识别文档间的作者身份关联及同一作者的文档分组。 文件详解 文件名称:pan16-author-clustering-test-and-training.zip...
    packageimg
  • 哈布斯堡国家部长会议记录完整列表数据_1848_1867年

    2026年1月30日 30 112 29

    数据集概述 本数据集包含1848至1867年哈布斯堡国家部长会议的完整会议列表,记录了各次会议的议程项目及ISO格式日期,采用TEI listEvent标准建模。数据集共含2个XML文件,可用于研究该时期哈布斯堡国家的行政决策过程与历史事件脉络。 文件详解 会议记录文件...
    packageimg
  • ELTeC_gsw_Based_瑞士德语小说集_公开数据集

    2026年1月30日 30 151 96

    数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
    packageimg
  • 矿业_酷刑_缩写_科学文献_数据集_2024年10月28日

    2026年1月29日 30 55 13

    数据集概述 本数据集聚焦科学文献中的“扭曲缩写”挖掘,包含150篇开放获取的工程类文章,旨在识别学术文本中不规范的缩写现象,为检测可疑出版物提供支持。数据集含7个文件,涵盖数据档案、代码脚本、说明文档等多种类型。 文件详解...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日 30 199 55

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg