找到10个数据集

标签: 人物实体

过滤结果
  • Wikidata_Dump_People_RDF转储数据

    2026年1月30日 30 42 25

    数据集概述 本数据集是通过wdumps工具生成的Wikidata人物实体RDF转储数据,包含实体、陈述及三元组等信息的结构化记录,涉及4个相关文件,覆盖JSON、NT、GZ等格式,可用于语义网相关的数据处理与分析。 文件详解 文件名称:info.json 文件格式:JSON...
    packageimg
  • Wikidata_Based_政治家_企业家_商人RDF转储数据

    2026年1月28日 30 179 70

    数据集概述 本数据集是通过wdumper工具生成的Wikidata RDF转储,包含政治家、企业家、商人三类实体的结构化数据,涵盖实体信息、陈述及三元组关系,可用于知识图谱构建与语义分析。 文件详解 info.json 文件格式:JSON...
    packageimg
  • Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

    2026年1月26日 30 62 25

    数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
    packageimg
  • Wikidata_Based_PersonsView实体RDF转储数据

    2026年1月26日 30 84 22

    数据集概述 本数据集是通过wdumper工具生成的Wikidata人物视图(PersonsView)的RDF格式转储数据,包含人物实体相关的结构化语义数据。数据集包含4个文件,涵盖配置信息、转储数据和预览文件,可用于Wikidata人物实体的语义分析与知识图谱构建。 文件详解 文件名称:info.json 文件格式:JSON...
    packageimg
  • Schrijverskabinet_RDF_荷兰诗人肖像数字重建数据_2_0版

    2026年1月20日 30 45 25

    数据集概述 本数据集是Schrijverskabinet网站的RDF格式数据,源于18世纪初画家Arnoud Halen建立的荷兰诗人(及作家)肖像集Panpoëticon Batavûm的数字重建,支持与ECARTICO、Wikidata等数据集关联,可用于文学历史相关分析。 文件详解 文件名称:schrijverskabinet-...
    packageimg
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日 30 146 102

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • BDRC_Relations_Based_民国人物传记词典原始NLP关系数据_20190815

    2026年1月11日 30 15 4

    数据集概述 本数据集是基于CoreNLP从《民国人物传记词典》(BDRC)中提取的人物关系原始NLP输出数据,未经任何处理与清洗,包含1个文件,为研究民国人物关系网络提供基础数据支撑。 文件详解 文件名称:BDRC_Relations_Raw_20190815.xlsx 文件格式:XLSX...
    packageimg
  • ENHG_TMAMMT_Based_Schwazer_Berglehenbuch采矿文献TEI实体标注数据

    2025年12月30日 30 73 63

    数据集概述 本数据集包含1515年左右的历史采矿文献《Schwazer Berglehenbuch》(TLA Hs. 1587)的TEI标注数据,由因斯布鲁克大学“Text Mining Medieval Mining Texts”项目团队生成,标注实体包括人物、地点、矿山、日期,存储于奥地利蒂罗尔地区档案馆。 文件详解...
    packageimg
  • 时间感知命名实体识别推特语料库

    2025年12月10日 30 206 64

    数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 罗马尼亚法律领域命名实体识别数据集

    2025年12月5日 30 28 4

    数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...
    packageimg