PPORTAL_Annotated_Portuguese_Literary_Entities_NER语料库

数据集概述

本数据集为葡萄牙文学实体标注语料库,适配巴西和葡萄牙文学文本,包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品,含125,059个标记和5,266个标注实体,用于支持葡萄牙语NER模型开发及文学领域探索。

文件详解

  • 文件名称:pportal-selective.json
  • 文件格式:JSON
  • 字段映射介绍:包含精选的葡萄牙文学文本实体标注数据
  • 文件名称:selective-dev.json
  • 文件格式:JSON
  • 字段映射介绍:用于模型开发阶段的葡萄牙文学实体标注数据
  • 文件名称:selective-train.json
  • 文件格式:JSON
  • 字段映射介绍:用于模型训练的葡萄牙文学实体标注数据
  • 文件名称:pportal-ner.json
  • 文件格式:JSON
  • 字段映射介绍:葡萄牙文学实体标注语料库核心数据文件

数据来源

PPORTAL(整合Domínio Público、Projecto Adamastor、Biblioteca Digital de Literatura dos Países Lusófonos等数字图书馆资源)

适用场景

  • 葡萄牙语NER模型训练与优化: 基于标注的文学实体数据,开发更精准的葡萄牙语命名实体识别模型
  • 文学文本实体分析: 探索巴西和葡萄牙文学作品中的人物、地点、机构等实体分布特征
  • 自然语言处理资源补充: 丰富葡萄牙语自然语言处理任务的标注语料库资源
  • 跨语言实体识别研究: 作为葡萄牙语文学领域的实体标注数据,支持跨语言NER模型对比分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.09 MiB
最后更新 2025年12月31日
创建于 2025年12月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。