找到3,297个数据集

标签: 文本挖掘

过滤结果
  • ANR_PICCH_殖民时期马赛媒体呈现语料库2022

    2026年1月30日   

    数据集概述 本数据集是2022年在ANR PICCH项目框架下由Pauline Savéant构建的语料库,由Sophie Gebeil(法国项目负责人)负责。语料库收录了法国视听媒体及网络(含互联网档案馆)中与马赛殖民历史相关的资料,旨在为批判性研究殖民时期马赛的媒体呈现提供结构化数据,包含1个文件。 文件详解...
    packageimg
  • Transcrição_访谈转录_半结构化访谈完整数据

    2026年1月30日   

    数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...
    packageimg
  • BioSample_Based_LLM自动标注评估数据集

    2026年1月30日   

    数据集概述 本数据集用于评估大语言模型(LLMs)对BioSample数据的自动标注能力,包含细胞系本体映射和基因名称提取两类任务的测试数据、金标准及模型输出结果,支持生物样本数据自动化处理的模型性能验证与分析。 文件详解 细胞系本体映射相关文件...
    packageimg
  • DARIAH_Based_地理文本分析教程配套资源数据集

    2026年1月30日   

    数据集概述 本数据集是DARIAH-Campus平台地理文本分析教程的配套资源,由GeoHumanities工作组制作。包含7个文件,涵盖文本文件、GIS形状文件压缩包和CSV文件,核心内容为地理文本分析相关的参考文档、地名数据和空间坐标信息,支持地理人文领域的文本与空间数据整合研究。 文件详解 文本文件(TXT格式,共5个)...
    packageimg
  • EU_Based_数据相关欧盟法规多语言术语定义集_v3

    2026年1月30日   

    数据集概述 本数据集为版本3的欧盟数据相关法规术语定义集合,包含从欧盟数据保护、数字服务、人工智能等领域14部法律法规中提取的术语定义,覆盖英、法、德、意、西五种语言,可用于理解欧盟数据法规核心概念。 文件详解 主文件组(含三种格式) 文件名称:Definitions from data-related EU laws v3.xlsx...
    packageimg
  • PAN16_Based_作者身份识别文档聚类测试训练数据

    2026年1月30日   

    数据集概述 本数据集为PAN16作者身份识别聚类任务的文档集合,包含至多一百篇单作者文档,所有文档语言与体裁一致,但主题或文本长度可能不同。数据集未明确说明包含的不同作者数量,旨在用于识别文档间的作者身份关联及同一作者的文档分组。 文件详解 文件名称:pan16-author-clustering-test-and-training.zip...
    packageimg
  • 哈布斯堡国家部长会议记录完整列表数据_1848_1867年

    2026年1月30日   

    数据集概述 本数据集包含1848至1867年哈布斯堡国家部长会议的完整会议列表,记录了各次会议的议程项目及ISO格式日期,采用TEI listEvent标准建模。数据集共含2个XML文件,可用于研究该时期哈布斯堡国家的行政决策过程与历史事件脉络。 文件详解 会议记录文件...
    packageimg
  • ELTeC_gsw_Based_瑞士德语小说集_公开数据集

    2026年1月30日   

    数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
    packageimg
  • 矿业_酷刑_缩写_科学文献_数据集_2024年10月28日

    2026年1月29日   

    数据集概述 本数据集聚焦科学文献中的“扭曲缩写”挖掘,包含150篇开放获取的工程类文章,旨在识别学术文本中不规范的缩写现象,为检测可疑出版物提供支持。数据集含7个文件,涵盖数据档案、代码脚本、说明文档等多种类型。 文件详解...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日   

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg
  • LDA_Based印尼初中生Instagram标题主题建模数据集

    2026年1月28日   

    数据集概述 本数据集围绕印尼初中生Instagram标题的LDA主题建模研究构建,包含原始爬取数据与建模代码文件,支持对青少年社交媒体文本内容的主题挖掘分析,共含2个文件。 文件详解 数据文件 文件名称:crawling.xlsx 文件格式:XLSX 字段映射介绍:原始爬取的印尼初中生Instagram标题数据,具体字段未提供预览 代码文件...
    packageimg
  • Nanotate_Based生物开放实验协议词性标注分布统计数据

    2026年1月28日   

    数据集概述 本数据集包含通过Nanotate工具对生物学开放获取实验协议中的232个词性进行标注的结果,标注类别分为样本、设备、试剂、输入、输出、步骤六种。数据集以单一文件呈现,用于展示各类别标签的分布统计情况。 文件详解 文件名称:Tag distribution.xlsx 文件格式:XLSX...
    packageimg
  • Pedalion_Based_古希腊悲剧_美狄亚_依存句法树库数据

    2026年1月27日   

    数据集概述 本数据集是基于欧里庇得斯悲剧《美狄亚》构建的古希腊语依存句法树库,由Toon Van Hal主导标注,KU Leuven 2018-2019学年三年级本科生参与标注工作,原始文本预处理由Alek Keersmaekers完成。数据集包含一个XML格式文件,用于记录文本的依存句法结构标注信息。 文件详解...
    packageimg
  • 兄弟会通讯_基于1765年起的公共新闻历史通信索引数据_2025版

    2026年1月27日   

    数据集概述 本数据集为赫仁护特联合档案馆(Unitätsarchiv Herrnhut)提供的《Gemein-...
    packageimg
  • ELTeC_pol_Based_波兰小说语料库_2021年4月发布版

    2026年1月26日   

    数据集概述 本数据集是ELTeC(欧洲文学文本集合)的波兰语小说语料库2021年4月发布版,包含100部波兰语小说。数据集支持欧洲文学远程阅读研究,由COST Action CA16204项目产出,所有文本均属于公有领域,可用于文学文本分析、语言研究等场景。 文件详解 文件名称:README.md 文件格式:MD...
    packageimg
  • CafeteriaSA_Based_食品语义资源多标准标注科学摘要数据

    2026年1月26日   

    数据集概述 本数据集是欧洲食品安全局(EFSA)资助的CAFETERIA项目成果,包含500篇科学摘要的标注内容,涉及Hansard分类法、FoodOn和SNOMED-CT三种食品语义资源,共标注6,407个食品实体。数据集可支持食品信息提取领域的自然语言处理方法开发,包含4个XML格式文件。 文件详解...
    packageimg
  • ODDPub_Based_LiU研究人员数据发布行为分析数据集2022

    2026年1月26日   

    数据集概述 本数据集包含ODDPubb文本挖掘算法的分析结果及人工分析发现,基于2022年林雪平大学(LiU)在机构知识库DiVA中平行发表的所有文章全文PDF,通过ODDPubb算法分析数据共享程度及共享存储库,并结合人工分析验证数据共享声明、评估数据可用性及识别存储库,共包含3个文件。 文件详解 readme.txt 文件格式:TXT...
    packageimg
  • Astronomia_nova_Kepler著作预处理文本机器学习数据集

    2026年1月21日   

    数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
    packageimg
  • Kremlin_Based_俄罗斯政府网站爬取总统讲话记录_1999_2019

    2026年1月19日   

    数据集概述 本数据集为1999年12月31日至2019年12月31日期间从俄罗斯政府网站kremlin.ru爬取的文档集合,包含10,723份文档,覆盖总统讲话记录等内容,支持政府信息研究与文档分析。 文件详解 主要数据文件 文件名称:Kremlin.json、Kremlin.rds 文件格式:JSON、RDS...
    packageimg
  • IC_ac_uk_Based_rzepa博客文章完整导出数据2020

    2026年1月25日   

    数据集概述 本数据集为WordPress博客文章的XML归档文件,包含2008年至2020年3月7日期间发布于https://www.ch.ic.ac.uk/rzepa/blog的所有博客文章内容,可用于学术博客内容分析、文本挖掘等研究场景,仅包含一个文件。 文件详解...
    packageimg