-
AttackER_NER_Based_网络攻击归因标注数据集
2026年1月29日 30 91 39
数据集概述 本数据集为AttackER网络攻击归因NER数据集,包含8个文件,涵盖JSON格式和spacy格式的训练、测试、验证数据,以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型,适用于网络安全场景下的实体识别任务。 文件详解 数据文件(JSON格式)...
-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 175 69
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版
2026年1月23日 30 191 11
数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
-
Social_Work_Scopus_Based_2016_2024研究SDGs及世界区域关系数据
2026年1月6日 30 91 55
数据集概述 本数据集包含2016至2024年Scopus收录的社会工作相关研究文献,通过特定检索条件筛选获取。数据补充了每项研究与可持续发展目标(SDGs)的关联关系(由Aurora-SDG分类器模型生成)及与世界区域的关联关系(由SpaCy NER库分析生成)。数据集仅包含一个文件。 文件详解...
-
PPORTAL_Annotated_Portuguese_Literary_Entities_NER语料库
2025年12月31日 30 165 74
数据集概述 本数据集为葡萄牙文学实体标注语料库,适配巴西和葡萄牙文学文本,包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品,含125,059个标记和5,266个标注实体,用于支持葡萄牙语NER模型开发及文学领域探索。 文件详解 文件名称:pportal-selective.json 文件格式:JSON...
-
现代藏文报纸命名实体识别数据集_标注集与指南
2025年12月9日 30 71 5
数据集概述 本数据集包含现代藏文报纸命名实体识别(NER)的标注集、指南及训练数据,聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件,为藏文NER模型开发提供基础资源。 文件详解 标注规范文件: NER for Modern Tibetan-tagset and...
-
命名实体识别数据集NamedEntityRecognitionDataset-c4pt41n2004
2025年5月18日 30 19 4
命名实体识别数据集NamedEntityRecognitionDataset-c4pt41n2004 数据来源:互联网公开数据 标签:命名实体识别, 自然语言处理, 文本标注, 机器学习, 语料库, 实体识别, 数据集, NER 数据概述:...
-
巴西葡萄牙语法律文本命名实体识别数据集-thedevastator
2025年4月21日 30 8 3
巴西葡萄牙语法律文本命名实体识别数据集-thedevastator 数据来源:互联网公开数据 标签:命名实体识别,法律文本,巴西,葡萄牙语,数据集,标记,法律,实体,NER 数据概述:...
-
伦巴第语命名实体识别与语言训练数据集
2025年4月17日 30 8 4
伦巴第语命名实体识别与语言训练数据集 数据来源:互联网公开数据 标签:伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注 数据概述: 本数据集是基于WikiANN项目构建的伦巴第语(Lombard)文本数据集,用于命名实体识别(NER)和语言模型训练。...
-
印度区域语言命名实体识别标注数据集
2025年4月15日 30 17 14
印度区域语言命名实体识别标注数据集 数据来源:互联网公开数据 标签:命名实体识别,印度语言,数据标注,自然语言处理,Tamil,NER,区域语言 数据概述:...



