找到3,294个数据集

标签: 文本挖掘

过滤结果
  • RegEl_Based_生物医学文献调控元件基因疾病关联数据库_2022

    2026年1月22日   

    数据集概述 本数据集是基于RegEl语料库训练的HunFlair模型对超过2000万篇PubMed摘要进行文本挖掘生成的数据库,包含调控元件(增强子、启动子、TFBS)及其与基因(标准化为NCBI Gene ID)和疾病(标准化为MeSH或OMIM)的关联注释,以压缩包形式提供。 文件详解 文件名称:regel_db.zip 文件格式:ZIP...
    packageimg
  • Office_Suit_Based_办公软件信息集合_2019_2022

    2026年1月22日   

    数据集概述 本数据集收集了2019至2022年与办公软件相关的信息,包含4个文件,无目录结构。主要涵盖Microsoft Office、Zoom、Webex等办公软件的版本更新、功能说明等内容,文件类型以文本文档为主,辅以压缩文件。 文件详解 文件名称:Microsoft_Office_2019.txt 文件格式:TXT...
    packageimg
  • Sferamundi_Based_意大利骑士文学13_2卷数字化版本数据

    2026年1月21日   

    数据集概述 本数据集为意大利骑士文学作品《13/2 Sferamundi di Grecia》第二部分的数字化学术版本,包含转录与评注的XML-TEI文件、多格式电子书及用于计算分析的纯文本文件,是Mambrino数字图书馆项目的一部分。 文件详解 转录与评注文件 文件名称:SM2_source.xml、SM2_commentary.xml...
    packageimg
  • MEASURING_FLEXIBILITY_创意思维灵活性文本挖掘测量数据

    2026年1月21日   

    数据集概述 本数据集为创意研究领域中思维灵活性的文本挖掘测量方法验证数据,包含两项研究的相关数据:第一项使用托兰斯创造性思维测验(TTCT)验证新灵活性评分法与传统评分的相关性;第二项通过替代用途任务验证该方法的信效度及与艺术专长、大五人格等外部属性的关联,为文本挖掘测量思维灵活性提供实证支持。 文件详解...
    packageimg
  • La_Repubblica_Based_意大利共和报2011年文章摘录数据

    2026年1月21日   

    数据集概述 本数据集包含意大利报纸《La Repubblica》2011年的文章摘录,对搜索关键词(dialett、Italian、lingu*)进行了高亮标注,仅用于科学研究。数据集文件总数为1,无目录结构,主要文件格式为DOCX。 文件详解 文件名称:Zenodo_Data.docx 文件格式:DOCX 字段映射介绍:包含意大利报纸《La...
    packageimg
  • 数据00403_Based_赫恩胡特合一档案馆摩拉维亚弟兄会里夫兰报告数据

    2026年1月21日   

    数据集概述 本数据集是赫恩胡特合一档案馆提供的摩拉维亚弟兄会(Unitates Fratrum)《Gemein-Nachrichten》中里夫兰地区的报告转录数据,包含基于XML-TEI标准的多版本转录文件及标准化文本,记录弟兄会的社区、传教及散居工作等内容,支持宗教史料的数字化研究与分析。 文件详解 00403_01.xml 文件格式:XML...
    packageimg
  • ENHG_Annotation_Based_中世纪采矿文献TEI标注数据集

    2026年1月21日   

    数据集概述 本数据集包含历史采矿文献《Verleihbuch der Rattenberger Bergrichter》(TLA Hs....
    packageimg
  • Stack_Overflow_Based_软件设计讨论半监督主题建模研究数据

    2026年1月20日   

    数据集概述 本数据集是关于软件设计讨论的半监督主题建模研究数据,基于Stack Overflow平台的设计相关问答内容,探索结合专家输入与半监督方法(Anchored CorEx)识别设计主题的有效性,可用于分析软件开发中的设计知识呈现与讨论特征。 文件详解 文件名称:replication-package.zip 文件格式:ZIP...
    packageimg
  • 新冠疫情期间意大利_法国和西班牙三国领导人官方社交媒体话语研究数据_2020

    2026年1月20日   

    数据集概述 本数据集为新冠疫情期间法意西三国首脑(马克龙、孔特、桑切斯)的社交媒体话语语料库,包含2020年2月至4月间三人在Twitter和Facebook发布的所有消息。数据以ID列表形式呈现,支持从平台回溯原始文本,用于从语料库语言学视角分析政治话语策略,共含13个文件。 文件详解 说明文档...
    packageimg
  • CMIF_Based_柏林自由大学纪伯伦情书数字化文献数据集_2023_24

    2026年1月20日   

    数据集概述 本数据集是基于《纪伯伦情书》(1995年牛津One World出版)的数字化文献资源,由柏林自由大学Eins@FU学习工坊的学生在2023/24学期通过CMIF Creator工具创建,包含纪伯伦的情书内容及编辑信息,共2个文件。 文件详解 文件名称:README.md 文件格式:MD...
    packageimg
  • Annex_B_Source_可持续性知识状态与分类框架系统综述文献计量记录

    2026年1月20日   

    数据集概述 本数据集为论文《可持续性的知识状态与分类框架路径》系统综述提供的文献计量语料库,包含PRISMA引导筛选后保留的所有记录。数据从Scopus和Web of Science检索,2023年9月更新,以数据库导出格式存储,确保可追溯性与可重复性,用于可持续性科学及相关分类研究的元分析、趋势映射和文本挖掘。 文件详解...
    packageimg
  • 数据22_Tragedies_莎士比亚及其他剧作家悲剧作品地点数据_2024

    2026年1月20日   

    数据集概述 本数据集包含22部悲剧作品中的地点提及信息,其中11部为莎士比亚作品,11部为其他剧作家作品。数据记录了地点的经纬度、名称词形及地名词典类型位置,为研究悲剧文学中的地理元素提供基础支持。 文件详解 压缩文件 文件名称:ghap-ro-crate-layer-2246-20241216162342.zip 文件格式:ZIP...
    packageimg
  • MongoDB_基于文本挖掘和机器学习的女性暴力类型非结构化文本分类研究数据

    2026年1月20日   

    数据集概述 本数据集包含用于女性暴力类型非结构化文本分类研究的真实新闻数据,数据提取自MongoDB数据库,记录了新闻的日期、标题和正文内容,支持通过文本挖掘和机器学习技术开展相关分析。 文件详解 文件名称:Noticias.metadata.json 文件格式:JSON...
    packageimg
  • 普通新闻_统一教会档案_赫恩胡特_拉脱维亚斯米尔滕斯区_罗特兄弟报告_1805

    2026年1月20日   

    数据集概述 本数据集为Unitätsarchiv Herrnhut提供的Gemein-Nachrichten数字资源的一部分,包含1805年Rothe兄弟关于拉脱维亚Smiltens区的报告转录内容。数据以XML-TEI格式和标准化文本呈现,涵盖原始转录、元数据增强转录及可用于机器分析的文本版本,总计4个文件。 文件详解 原始转录文件(Export...
    packageimg
  • Shared_Research_Repository_BL报纸样本纯文本数据集

    2026年1月19日   

    数据集概述 本数据集包含Shared Research Repository发布的报纸文章纯文本数据,以压缩包形式提供,可用于自然语言处理相关的文本分析任务,总计包含一个文件。 文件详解 压缩文件 文件名称:newspaper_text.zip 文件格式:ZIP...
    packageimg
  • StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

    2026年1月19日   

    数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
    packageimg
  • SophiA_Casa_dos_Contos_FBN_巴西财政历史文档馆藏数据

    2026年1月19日   

    数据集概述 本数据集是巴西国家图书馆基金会Casa dos Contos文档馆藏的不完全清单,包含一万一千一百六十八条文档摘要记录,占SophiA平台巴西国家数字档案馆该馆藏总记录(一万二千零四十三条)的百分之九十三。该馆藏是巴西财政史上最重要的档案之一,涵盖一七零一年至一八八九年米纳斯吉拉斯地区的财政相关文档,已全部数字化并在线开放。 文件详解...
    packageimg
  • 保护现状_抵御_绿色病毒_荷兰人民党_PVV_与自由党_VB_政治主张文档汇编

    2026年1月19日   

    数据集概述 本数据集包含荷兰政治语境下的文档集合,核心围绕“保护现状对抗绿色病毒”主题,涉及PVV和Vlaams Belang(VB)政党相关的93份文档,涵盖能源政策、政治主张等内容,文件类型统一为DOCX格式,无目录层级结构。 文件详解 文档文件 文件名称:遵循PVV_XX.docx、VB_XX.docx或含日期/标题的命名模式(例如PVV_25...
    packageimg
  • Dataset_CORPUS_FINAL_PCI_巴西信息科学虚假信息研究数据集

    2026年1月19日   

    数据集概述 本数据集是论文《巴西信息科学领域的虚假信息研究能告诉我们什么?》的配套数据,包含一个核心文件,主要内容为虚假信息研究相关的语料库数据,适用于信息科学领域的虚假信息主题分析。 文件详解 文件名称:dataset_CORPUS_FINAL_PCI.xlsx 文件格式:XLSX...
    packageimg
  • Bomber_s_Baedeker_Based_二战德国城镇经济重要性指南开放数据

    2026年1月18日   

    数据集概述 本数据集是二战期间英国外交部与经济战部编制的《The Bomber's Baedeker》两卷本数字化成果,记录了德国千余居民城镇的战争相关基础设施、工业及生产设施信息。原书仅存4份实体副本,经莱布尼茨欧洲历史研究所等机构合作数字化,成为符合FAIR原则的开放机器可读数据源。 文件详解...
    packageimg