数据集概述
本数据集为葡萄牙文学实体标注语料库,适配巴西和葡萄牙文学文本,包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品,含125,059个标记和5,266个标注实体,用于支持葡萄牙语NER模型开发及文学领域探索。
文件详解
- 文件名称:pportal-selective.json
- 文件格式:JSON
- 字段映射介绍:包含精选的葡萄牙文学文本实体标注数据
- 文件名称:selective-dev.json
- 文件格式:JSON
- 字段映射介绍:用于模型开发阶段的葡萄牙文学实体标注数据
- 文件名称:selective-train.json
- 文件格式:JSON
- 字段映射介绍:用于模型训练的葡萄牙文学实体标注数据
- 文件名称:pportal-ner.json
- 文件格式:JSON
- 字段映射介绍:葡萄牙文学实体标注语料库核心数据文件
数据来源
PPORTAL(整合Domínio Público、Projecto Adamastor、Biblioteca Digital de Literatura dos Países Lusófonos等数字图书馆资源)
适用场景
- 葡萄牙语NER模型训练与优化: 基于标注的文学实体数据,开发更精准的葡萄牙语命名实体识别模型
- 文学文本实体分析: 探索巴西和葡萄牙文学作品中的人物、地点、机构等实体分布特征
- 自然语言处理资源补充: 丰富葡萄牙语自然语言处理任务的标注语料库资源
- 跨语言实体识别研究: 作为葡萄牙语文学领域的实体标注数据,支持跨语言NER模型对比分析