数据集 - 海数据

AttackER_NER_Based_网络攻击归因标注数据集

2026年1月29日 30 91 39

数据集概述本数据集为AttackER网络攻击归因NER数据集，包含8个文件，涵盖JSON格式和spacy格式的训练、测试、验证数据，以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型，适用于网络安全场景下的实体识别任务。文件详解数据文件（JSON格式）...

ZIP

Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

2026年1月26日 30 175 69

数据集概述本数据集包含Gado2命名实体处理应用的手写文本识别（HTR）标注数据，覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题，光学字符识别（OCR）错误率较高，而HTR将字符错误率（CER）降至0.5%以下，提升了命名实体识别（NER）效率。数据集含41个文件，包括无错误的全标注文件及印尼实体知识库。文件详解...

ZIP

Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

2026年1月23日 30 191 11

数据集概述本数据集是针对孟加拉语关系抽取任务构建的专用数据集，基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库（KB）、90,441条带命名实体识别（NER）和词性标注（POS）的文本语料，以及440个孟加拉语地点助记符，可直接用于关系抽取任务。文件详解 location_mnemonics.xlsx...

ZIP

Social_Work_Scopus_Based_2016_2024研究SDGs及世界区域关系数据

2026年1月6日 30 91 55

数据集概述本数据集包含2016至2024年Scopus收录的社会工作相关研究文献，通过特定检索条件筛选获取。数据补充了每项研究与可持续发展目标（SDGs）的关联关系（由Aurora-SDG分类器模型生成）及与世界区域的关联关系（由SpaCy NER库分析生成）。数据集仅包含一个文件。文件详解...

ZIP

PPORTAL_Annotated_Portuguese_Literary_Entities_NER语料库

2025年12月31日 30 165 74

数据集概述本数据集为葡萄牙文学实体标注语料库，适配巴西和葡萄牙文学文本，包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品，含125,059个标记和5,266个标注实体，用于支持葡萄牙语NER模型开发及文学领域探索。文件详解文件名称：pportal-selective.json 文件格式：JSON...

ZIP

现代藏文报纸命名实体识别数据集_标注集与指南

2025年12月9日 30 71 5

数据集概述本数据集包含现代藏文报纸命名实体识别（NER）的标注集、指南及训练数据，聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件，为藏文NER模型开发提供基础资源。文件详解标注规范文件： NER for Modern Tibetan-tagset and...

ZIP

命名实体识别数据集NamedEntityRecognitionDataset-c4pt41n2004

2025年5月18日 30 19 4

命名实体识别数据集NamedEntityRecognitionDataset-c4pt41n2004 数据来源：互联网公开数据标签：命名实体识别, 自然语言处理, 文本标注, 机器学习, 语料库, 实体识别, 数据集, NER 数据概述：...

ZIP

巴西葡萄牙语法律文本命名实体识别数据集-thedevastator

2025年4月21日 30 8 3

巴西葡萄牙语法律文本命名实体识别数据集-thedevastator 数据来源：互联网公开数据标签：命名实体识别,法律文本,巴西,葡萄牙语,数据集,标记,法律,实体,NER 数据概述：...

ZIP

伦巴第语命名实体识别与语言训练数据集

2025年4月17日 30 8 4

伦巴第语命名实体识别与语言训练数据集数据来源：互联网公开数据标签：伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注数据概述：本数据集是基于WikiANN项目构建的伦巴第语（Lombard）文本数据集，用于命名实体识别（NER）和语言模型训练。...

ZIP

印度区域语言命名实体识别标注数据集

2025年4月15日 30 17 14

印度区域语言命名实体识别标注数据集数据来源：互联网公开数据标签：命名实体识别,印度语言,数据标注,自然语言处理,Tamil,NER,区域语言数据概述：...

ZIP

找到10个数据集

注册成功！