-
HTRD_Based_15世纪德语散文文本重用检测评估数据集
2026年1月29日 30 55 16
数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
-
IGN_ICDAR_25_历史地图文本识别竞赛训练及验证数据集
2026年1月28日 30 180 160
数据集概述 本数据集为ICDAR'25历史地图文本竞赛提供训练与验证数据,包含从Val de Marne档案馆拿破仑地籍地图裁剪的2K×2K图像切片,含训练集228张切片、验证集25张切片及对应标注文件,是2024版数据集的扩展与优化版本。 文件详解 训练集文件 文件名称:ign25_train.zip、ign25_train.json...
-
Vidgen_Recalibrating_classifiers_辱骂内容检测分类器校准数据集_2020
2025年12月31日 30 61 19
数据集概述 本数据集包含论文《Recalibrating classifiers for interpretable abusive content...
-
API文档类型间信息对应数据集
2025年12月16日 30 100 37
数据集概述 本数据集为《API文档类型间信息对应》论文的在线附录,包含API文档信息分类的编码指南、标注的样本句子及不同语言主题的标注句子数据,用于支持API文档信息对应关系的研究与分析。 文件详解 文件名称: CodingGuide.pdf 文件格式: PDF 内容说明: 用于将句子分类为“API信息”或“辅助文本”的编码指南文档 文件名称:...
-
罗马尼亚语言表情包数据集v2
2025年12月5日 30 177 79
数据集概述 该数据集为罗马尼亚语言表情包数据集v2,包含从公共社交媒体平台收集的罗马尼亚语表情包,提供手动标注(文本内容、图像复杂度、极性、情感、政治内容)及自动标注(词性标签、词元、依存句法分析)信息,支持多维度分析。 文件详解 核心文件: metadata.tsv: TSV格式,含文件ID、元数据及手动标注信息 LICENSE: 许可信息文件...



