数据集 - 海数据

写作风格分析与文本特征标注数据集

2026年3月11日 30 46 4

写作风格分析与文本特征标注数据集_Writing_Style_Analysis_and_Text_Feature_Annotation_Dataset 数据来源：互联网公开数据标签：写作风格, 文本分析, 自然语言处理, 文本标注, 语篇分析, 机器学习, 数据挖掘, 深度学习数据概述：...

ZIP

招投标文本命名实体识别数据集

2026年3月10日 30 88 50

招投标文本命名实体识别数据集_Tender_Text_Named_Entity_Recognition_Dataset 数据来源：互联网公开数据标签：命名实体识别, 文本标注, 自然语言处理, 招投标, 实体识别, 文本分析, 机器学习, 语料库数据概述：该数据集包含来自招投标文档的文本数据，记录了经过标注的命名实体。主要特征如下：...

ZIP

自然语言生成文本分类数据集

2026年3月7日 30 101 51

自然语言生成文本分类数据集_Natural_Language_Generation_Text_Classification_Dataset 数据来源：互联网公开数据标签：文本分类, 自然语言生成, GPT-2, 机器学习, 深度学习, 文本标注, 语料库, 数据集数据概述：...

ZIP

多领域文本分类数据集

2026年3月6日 30 85 81

多领域文本分类数据集_Multi_domain_Text_Classification_Dataset 数据来源：互联网公开数据标签：文本分类, 多领域, 知识抽取, 语义理解, 机器学习, 文本标注, 自然语言处理, 数据集数据概述：该数据集包含从多个来源收集的文本数据，用于多领域文本分类任务。主要特征如下：...

ZIP

学术论文写作结构识别预测数据集_Academic_Paper_Writing_Structure_Identification_Prediction

2025年6月27日 60 35 10

学术论文写作结构识别预测数据集_Academic_Paper_Writing_Structure_Identification_Prediction 数据来源：互联网公开数据标签：自然语言处理, 文本分析, 深度学习, 论文写作, 结构识别, 文本标注, BERT模型, 多分类数据概述：...

ZIP

法律文本分类数据集

2026年2月27日 30 82 81

法律文本分类数据集_Legal_Text_Classification_Dataset 数据来源：互联网公开数据标签：文本分类，法律文本，自然语言处理，机器学习，文档分类，司法判决，文本标注，情感分析数据概述：该数据集包含来自法律文书的数据，记录了用于法律文本分类的句子及其相关标签。主要特征如下：...

ZIP

论文写作结构要素识别评估数据集

2026年2月22日 30 110 31

论文写作结构要素识别评估数据集_Essay_Structure_Element_Recognition_Evaluation 数据来源：互联网公开数据标签：文本分析, 自然语言处理, 论文写作, 结构识别, 机器学习, 评估, 文本标注, 深度学习数据概述：该数据集包含用于评估论文写作结构要素识别模型性能的评估结果。主要特征如下：...

ZIP

HTRD_Based_15世纪德语散文文本重用检测评估数据集

2026年1月29日 30 14 13

数据集概述本数据集为15世纪德语散文文本重用检测（HTRD）的评估集，包含两篇采用TEI标准标注的文本：《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接，文本为里普利安方言，存在拼写变体及手写文本识别（HTR）转录错误，适用于历史文本重用检测方法的评估。文件详解...

ZIP

用于文本解析的基于文本的解释方法_文本分析与文学文本标注标签集

2026年2月9日 30 17 3

数据集概述本数据集为用于文学研究文本标注的标签集“Interpretationstexte analysieren”，提供分析文学解释文本结构特征和其他属性的分类体系，也可用于一般科学文本标注，支持按需扩展或调整。数据集包含一个XML格式文件。文件详解...

ZIP

DIALLS语料库的主要和次要分析报告_修订版

2026年2月1日 30 99 43

数据集概述本数据集为DIALLS语料库的主次分析修订结果，包含一份处理后的Excel文件。数据涉及NLP文本语料库分析，可能关联医疗CT相关内容，无训练测试、数据标签或原始处理的拆分，专注于语料库的标准化分析呈现。文件详解文件名称：CORPUS LIGHT CODED_correct.xlsx 文件格式：XLSX...

ZIP

黑客马拉松_TF_TG_关系_注释_黄金标准语料库

2026年1月31日 30 104 18

数据集概述本数据集为TF-TG关系标注黄金标准语料库，包含130个PMID对应的生物医学文献标注数据，以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究，提供原始摘要文本与BRAT格式的术语及关系标注文件，支持生物医学文本挖掘相关分析。文件详解压缩包文件文件名称：TFTG_V3.zip 文件格式：ZIP...

ZIP

巴西总统演讲文本数据集_1985_2022年全量文本

2026年1月31日 30 134 78

数据集概述本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本，以及预处理和后处理阶段使用的代码及相关文档，为研究巴西政治话语提供结构化资源。文件详解文件名称：base limpa e codigos.zip 文件格式：ZIP 内容说明：压缩包内包含两类核心内容：...

ZIP

forTEXT_Based_叙事学语篇标注集_可下载资源

2026年1月30日 30 141 19

数据集概述本数据集为叙事学语篇标注集，适用于标注文本中的叙事元素，包含分析语篇（即叙事呈现方式）的基础类别，主要基于结构主义导向的叙事学研究成果，提供一个XML格式文件供下载使用。文件详解文件名称：forTEXT_Tagset_Narratologie_discours.xml 文件格式：XML...

ZIP

NAACL_Findings_NLP界面用户体验评估数据集

2026年1月30日 30 131 21

数据集概述本数据集为NAACL 2025 Findings论文《Lessons from a User Experience Evaluation of NLP Interfaces》的配套数据，包含专家评估文档、分析代码及标注表格三类文件，共5份，用于支撑NLP界面用户体验评估的研究结论。文件详解文档文件（document_files）...

ZIP

MONACO_Based_德语文学文本叙事与归因标注语料库

2026年1月29日 30 72 65

数据集概述本数据集是由MONA项目组构建的MONACO语料库，包含标注了Generalising Interpretation（GI）、Comment、Non-fictional Speech（NfR）三种基础现象及归因信息的德语文学文本，属于DFG重点项目SPP 2207“计算文学研究”的子项目成果，为计算文学研究提供结构化标注资源。文件详解...

ZIP

NBC2_4_Based_历史新闻文章主题建模与分类标注数据

2026年1月29日 30 98 38

数据集概述本数据集包含通过主题建模和朴素贝叶斯分类器（NBC2+4）对历史新闻文章进行的标注结果，按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词，为新闻文本的主题分析提供结构化标注数据。文件详解文件1：Bunout-newspaper article-annotations-...

ZIP

PetroGeoNER_Based_石油地质命名实体识别实验数据

2026年1月28日 30 178 112

数据集概述本数据集为石油地质领域命名实体识别任务（PetroGeoNER）的实验数据，包含训练、开发、测试三种用途的文件，核心用于支持石油地质专业文本中命名实体的识别模型训练与评估，共3个JSON格式文件。文件详解文件名称：petrogeoner_train02.json 文件格式：JSON...

ZIP

金标准平行圣经_德语_英语新约文本_附带斯特朗编号注释及评估数据

2026年1月27日 30 165 70

数据集概述本数据集为平行圣经文本提供黄金标准，包含20段新约经文的Strong编号标注数据，涉及三种德文文本（Luther 2017、Schlachter、Hoffnung für alle）和两种英文文本（New Revised Standard Version、World English Bible），用于评估圣经文本的Strong编号标注工作。...

ZIP

RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

2026年1月27日 30 91 15

数据集概述本数据集为罗马尼亚语表情包数据集RoMEMES，采集自公共社交媒体平台，包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性，文本部分通过RELATE平台自动标注词性、词元及依存句法，同时包含元数据。文件详解 metadata.tsv 文件格式：TSV...

ZIP

CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据

2026年1月27日 30 144 0

数据集概述本数据集为西班牙循证医学临床试验语料库（CT-EBM-SP），包含一千二百篇西班牙语临床试验相关文本（共二十九万二千一百七十三个词元），涵盖五百篇期刊摘要及七百篇临床试验公告，标注有解剖学、药理化学物质等四类医学实体，适用于医学自然语言处理研究。文件详解文件名称：CT-EBM-SP.zip 文件格式：ZIP...

ZIP

找到301个数据集

注册成功！