-
写作风格分析与文本特征标注数据集
2026年3月11日 30 46 4
写作风格分析与文本特征标注数据集_Writing_Style_Analysis_and_Text_Feature_Annotation_Dataset 数据来源:互联网公开数据 标签:写作风格, 文本分析, 自然语言处理, 文本标注, 语篇分析, 机器学习, 数据挖掘, 深度学习 数据概述:...
-
招投标文本命名实体识别数据集
2026年3月10日 30 88 50
招投标文本命名实体识别数据集_Tender_Text_Named_Entity_Recognition_Dataset 数据来源:互联网公开数据 标签:命名实体识别, 文本标注, 自然语言处理, 招投标, 实体识别, 文本分析, 机器学习, 语料库 数据概述: 该数据集包含来自招投标文档的文本数据,记录了经过标注的命名实体。主要特征如下:...
-
自然语言生成文本分类数据集
2026年3月7日 30 101 51
自然语言生成文本分类数据集_Natural_Language_Generation_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 自然语言生成, GPT-2, 机器学习, 深度学习, 文本标注, 语料库, 数据集 数据概述:...
-
多领域文本分类数据集
2026年3月6日 30 85 81
多领域文本分类数据集_Multi_domain_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 多领域, 知识抽取, 语义理解, 机器学习, 文本标注, 自然语言处理, 数据集 数据概述: 该数据集包含从多个来源收集的文本数据,用于多领域文本分类任务。主要特征如下:...
-
学术论文写作结构识别预测数据集_Academic_Paper_Writing_Structure_Identification_Prediction
2025年6月27日 60 35 10
学术论文写作结构识别预测数据集_Academic_Paper_Writing_Structure_Identification_Prediction 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 深度学习, 论文写作, 结构识别, 文本标注, BERT模型, 多分类 数据概述:...
-
法律文本分类数据集
2026年2月27日 30 82 81
法律文本分类数据集_Legal_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类,法律文本,自然语言处理,机器学习,文档分类,司法判决,文本标注,情感分析 数据概述: 该数据集包含来自法律文书的数据,记录了用于法律文本分类的句子及其相关标签。主要特征如下:...
-
论文写作结构要素识别评估数据集
2026年2月22日 30 110 31
论文写作结构要素识别评估数据集_Essay_Structure_Element_Recognition_Evaluation 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 论文写作, 结构识别, 机器学习, 评估, 文本标注, 深度学习 数据概述: 该数据集包含用于评估论文写作结构要素识别模型性能的评估结果。主要特征如下:...
-
HTRD_Based_15世纪德语散文文本重用检测评估数据集
2026年1月29日 30 14 13
数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
-
用于文本解析的基于文本的解释方法_文本分析与文学文本标注标签集
2026年2月9日 30 17 3
数据集概述 本数据集为用于文学研究文本标注的标签集“Interpretationstexte analysieren”,提供分析文学解释文本结构特征和其他属性的分类体系,也可用于一般科学文本标注,支持按需扩展或调整。数据集包含一个XML格式文件。 文件详解...
-
DIALLS语料库的主要和次要分析报告_修订版
2026年2月1日 30 99 43
数据集概述 本数据集为DIALLS语料库的主次分析修订结果,包含一份处理后的Excel文件。数据涉及NLP文本语料库分析,可能关联医疗CT相关内容,无训练测试、数据标签或原始处理的拆分,专注于语料库的标准化分析呈现。 文件详解 文件名称:CORPUS LIGHT CODED_correct.xlsx 文件格式:XLSX...
-
黑客马拉松_TF_TG_关系_注释_黄金标准语料库
2026年1月31日 30 104 18
数据集概述 本数据集为TF-TG关系标注黄金标准语料库,包含130个PMID对应的生物医学文献标注数据,以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究,提供原始摘要文本与BRAT格式的术语及关系标注文件,支持生物医学文本挖掘相关分析。 文件详解 压缩包文件 文件名称:TFTG_V3.zip 文件格式:ZIP...
-
巴西总统演讲文本数据集_1985_2022年全量文本
2026年1月31日 30 134 78
数据集概述 本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本,以及预处理和后处理阶段使用的代码及相关文档,为研究巴西政治话语提供结构化资源。 文件详解 文件名称:base limpa e codigos.zip 文件格式:ZIP 内容说明:压缩包内包含两类核心内容:...
-
forTEXT_Based_叙事学语篇标注集_可下载资源
2026年1月30日 30 141 19
数据集概述 本数据集为叙事学语篇标注集,适用于标注文本中的叙事元素,包含分析语篇(即叙事呈现方式)的基础类别,主要基于结构主义导向的叙事学研究成果,提供一个XML格式文件供下载使用。 文件详解 文件名称:forTEXT_Tagset_Narratologie_discours.xml 文件格式:XML...
-
NAACL_Findings_NLP界面用户体验评估数据集
2026年1月30日 30 131 21
数据集概述 本数据集为NAACL 2025 Findings论文《Lessons from a User Experience Evaluation of NLP Interfaces》的配套数据,包含专家评估文档、分析代码及标注表格三类文件,共5份,用于支撑NLP界面用户体验评估的研究结论。 文件详解 文档文件(document_files)...
-
MONACO_Based_德语文学文本叙事与归因标注语料库
2026年1月29日 30 72 65
数据集概述 本数据集是由MONA项目组构建的MONACO语料库,包含标注了Generalising Interpretation(GI)、Comment、Non-fictional Speech(NfR)三种基础现象及归因信息的德语文学文本,属于DFG重点项目SPP 2207“计算文学研究”的子项目成果,为计算文学研究提供结构化标注资源。 文件详解...
-
NBC2_4_Based_历史新闻文章主题建模与分类标注数据
2026年1月29日 30 98 38
数据集概述 本数据集包含通过主题建模和朴素贝叶斯分类器(NBC2+4)对历史新闻文章进行的标注结果,按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词,为新闻文本的主题分析提供结构化标注数据。 文件详解 文件1:Bunout-newspaper article-annotations-...
-
PetroGeoNER_Based_石油地质命名实体识别实验数据
2026年1月28日 30 178 112
数据集概述 本数据集为石油地质领域命名实体识别任务(PetroGeoNER)的实验数据,包含训练、开发、测试三种用途的文件,核心用于支持石油地质专业文本中命名实体的识别模型训练与评估,共3个JSON格式文件。 文件详解 文件名称:petrogeoner_train02.json 文件格式:JSON...
-
金标准平行圣经_德语_英语新约文本_附带斯特朗编号注释及评估数据
2026年1月27日 30 165 70
数据集概述 本数据集为平行圣经文本提供黄金标准,包含20段新约经文的Strong编号标注数据,涉及三种德文文本(Luther 2017、Schlachter、Hoffnung für alle)和两种英文文本(New Revised Standard Version、World English Bible),用于评估圣经文本的Strong编号标注工作。...
-
RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据
2026年1月27日 30 91 15
数据集概述 本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。 文件详解 metadata.tsv 文件格式:TSV...
-
CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据
2026年1月27日 30 144 0
数据集概述 本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。 文件详解 文件名称:CT-EBM-SP.zip 文件格式:ZIP...



