数据集 - 海数据

BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库

2026年1月27日

数据集概述本数据集包含对西班牙临床案例语料库（SPACCC）中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系，最终识别出324个实体（涉及10类实体）和170条关系（涉及5类关系），为生物医学文本处理研究提供结构化标注资源。文件详解 brat_annotations目录...

ZIP

Romanian_Grammar_Based罗马尼亚语法问题数据集

2026年1月27日

数据集概述本数据集包含罗马尼亚语法相关的问题数据，由2个文件组成，涵盖说明文档和语法问题解释数据，未划分训练/测试、数据/标签或原始/处理数据集，可用于语言学习与语法研究场景。文件详解说明文档文件名称：README.md 文件格式：.md 字段映射介绍：包含数据集的许可信息（MIT协议）等说明内容数据文件...

ZIP

nlp2023_toxic_german_德语新闻评论毒性标注数据集

2026年1月27日

数据集概述本数据集包含2021年11月4日至10日期间奥地利报纸DerStandard网站的新闻评论数据，共4473条原创评论（排除评论回复），涉及522篇文章。数据包含2818条无毒评论和1655条有毒评论，类别分布相对均衡。每条评论标注了二进制毒性标签，部分评论还包含粗俗语言、目标个体、目标群体、其他目标四类细分标签及文本位置信息。文件详解...

ZIP

Wikidata_TextRobustness_RDF转储_英文数据集

2026年1月26日

数据集概述本数据集是通过wdumps工具生成的Wikidata英文RDF转储，包含4个文件，覆盖JSON、GZ压缩、NT格式。数据聚焦于文本鲁棒性研究场景，提供Wikidata实体、语句等相关数据的结构化记录，支持文本处理领域的鲁棒性分析与验证。文件详解 info.json 文件格式：JSON...

ZIP

CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020

2026年1月18日

数据集概述本数据集包含巴西联邦审计法院（CGU）网站发布的审计报告原始文本，2020年通过脚本scrape_pdfs.py抓取，用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效，但报告仍可手动获取，含2个文件。文件详解 scrape_pdfs.py 文件格式：.py...

ZIP

PHRAME_RITA_意大利语二语学习者CEFR认证考试文本数据集

2026年1月25日

数据集概述本数据集为RITA（意大利语测试评估资源），包含意大利语二语学习者为获取CEFR语言能力认证而撰写的学术考试文本，是自然语言处理（NLP）领域的专用数据集。数据由意大利研究部PRIN项目“PHRAME”开发，源自同一项目下的CELI语料库，支持CSV和XML格式的自动处理。文件详解文件名称：RITA_PHRAME4.zip...

ZIP

Biblical_Quotations_GT_圣经引文标注研究数据集

2026年1月25日

数据集概述本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据，包含标注的圣经引文及相关模式数据，由海法大学团队构建。总计56个文件，含TSV格式的标注数据、JSON格式的关系层与标签集定义文件，用于支持宗教文本中圣经引文的自动识别与分析研究。文件详解 TSV数据文件（50个）...

ZIP

linhd_postdata_Based_Poesi_as诗歌语料库_公开数据集

2026年1月19日

数据集概述本数据集为Poesi.as网站的诗歌语料库，包含以西班牙语为主的诗歌作品，覆盖21世纪及以前的创作，总计25,187首诗歌、7,918,679个词汇。提供诗歌文本JSON文件、作者信息CSV文件及公共领域诗歌提取脚本，支持西班牙语文学相关研究与分析。文件详解主数据集压缩包文件名称：linhd-...

ZIP

Konsumen_HP_Review_Based_情感分析语料库数据

2026年1月23日

数据集概述本数据集为HP消费者评论数据，用于情感分析语料库的词汇分析。包含两份压缩文件，未进行训练/测试、数据/标签或原始/处理数据的划分，无额外说明文档或内容预览，整体结构简单直接。文件详解文件名称：PBA_FP.zip 文件格式：ZIP 字段映射介绍：压缩文件，具体内容未提供预览，推测包含HP消费者评论相关的原始或结构化数据。...

ZIP

childTale_A_Based_格林童话情感标注语料库_2023

2026年1月23日

数据集概述本数据集为childTale-A语料库，包含格林兄弟《儿童与家庭童话集》第七版中的八十篇童话，由CHYLSA项目完成句子级情感标注。标注涵盖效价、唤醒度两个维度及愤怒、厌恶等六种基本情绪，包含原始文本、标注说明、分析脚本、句子和文本级标注数据，支持童话情感分析研究。文件详解标注用文件（压缩包）文件名称：ChildTale-...

ZIP

GreetingsFrom_Based历史明信片地址转录数据集2023

2026年1月22日

数据集概述本数据集包含500张具有历史意义的明信片背面的地址转录数据，覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth（GT）和手写文本识别（HTR）两种转录版本，用于历史明信片地址信息的提取研究。文件详解 GreetingsFrom_GT.zip 文件格式：ZIP...

ZIP

X_MK_Hasil_Pemilu_Source_X平台情感分析数据集

2026年1月22日

数据集概述本数据集用于X平台上关于“MK Hasil Pemilu”的情感分析，包含1个文件，无目录结构，未划分训练/测试集、数据/标签集及原始/处理集，文件格式为.xlsx。文件详解文件名称：datasetX-MK Hasil Pemilu.xlsx 文件格式：XLSX 字段映射介绍：未提供具体字段信息，推测包含X平台上与“MK Hasil...

ZIP

COMMUNI_CARE_Based_胰腺癌诊断医患沟通研究协议转录数据

2026年1月22日

数据集概述本数据集来自COMMUNI.CARE单中心研究，纳入胰腺癌诊断时的连续患者，收集32组医患互动数据。所有互动经录音、匿名化后转录为意大利语文档，共31个文件，用于研究胰腺癌诊断阶段的医患沟通与患者参与情况。文件详解医患沟通转录文档文件名称：以“PAZIENTE [编号].docx”格式命名（如PAZIENTE...

ZIP

mromanello_APh_Corpus_v2_0_自然语言处理语料库数据

2026年1月20日

数据集概述本数据集为APh语料库v2.0版本，由Matteo Filipponi用于瑞士联邦理工学院（EPFL）硕士项目评估。数据以压缩包形式存储，无训练测试、数据标签或原始处理数据的拆分，未提供自述文件或内容预览。文件详解文件名称：mromanello/APh_Corpus-v2.0.zip 文件格式：ZIP...

ZIP

CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

2026年1月20日

数据集概述本数据集为CONTRAST-IT多语言语料库的意大利语部分，包含2011-2012年从意大利三家电子日报（repubblica.it、lastampa.it、corriere.it）采集的531篇真实新闻文章，总计约三十万字，覆盖政治、体育、科技等多个主题，用于多语言对比语言学研究。文件详解意大利语新闻文章文件...

ZIP

AH_CID_Tool_Based_App评论以人为中心问题检测关键词列表数据

2026年1月20日

数据集概述本数据集包含论文《AH-CID: A Tool to Automatically Detect Human-Centric Issues in App Reviews》中用于预过滤App评论的关键词列表，聚焦以人为中心的问题维度，支持App评论的定向分析，数据集含1个JSON文件。文件详解文件名称：humanaspects.json...

ZIP

Shared_Research_Repository_BL报纸样本纯文本数据集

2026年1月19日

数据集概述本数据集包含Shared Research Repository发布的报纸文章纯文本数据，以压缩包形式提供，可用于自然语言处理相关的文本分析任务，总计包含一个文件。文件详解压缩文件文件名称：newspaper_text.zip 文件格式：ZIP...

ZIP

XYZ_Food_Reviews_Based_食品评论数据集编码与测试结果数据

2026年1月19日

数据集概述本数据集包含XYZ食品评论的原始数据、处理后数据及相关实验代码，涵盖数据处理、模型训练与实验测试三部分内容，支持食品评论相关的自然语言处理研究，共含5个文件。文件详解数据文件文件名称：Full Raw Dataset.csv 文件格式：CSV...

ZIP

StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

2026年1月19日

数据集概述本数据集整合了英文和葡萄牙语的停用词集合，分为基础版和扩展版两个Excel文件，适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词，扩展版则进一步补充了更多词汇，部分词汇包含故意拼写错误以适配实际文本场景。文件详解文件1：StopWords_Integrated_Favaretto.xlsx 文件格式：XLSX...

ZIP

DIPROMATS_2024_Shared_Task_2_叙事识别小样本训练数据

2026年1月19日

数据集概述本数据集是DIPROMATS 2024共享任务2的小样本训练数据，用于叙事识别任务。叙事是指有因果联系的事件序列，在国际关系领域，国际行为体通过战略叙事构建国际政治的过去、现在和未来的共同意义。数据集包含英文和西班牙文两种语言的训练数据，共2个文件。文件详解文件名称：dipromats24_t2_train_en_ids.json...

ZIP

找到86个数据集

注册成功！