找到15个数据集

标签: 命名实体

过滤结果
  • 基于卡巴耶扎尔托什语的三语铭文_词级对齐与命名实体开放数据

    2026年2月9日 30 83 54

    数据集概述 本数据集包含Ka'ba-ye Zartošt(ŠKZ)三语铭文的希腊语、中古波斯语、帕提亚语版本的句级与词级对齐语料,以及人工提取的命名实体。语料遵循Huyse(1999)的行编号,对齐由Ugarit工具生成,命名实体含近400个标注为人物、地点或地点衍生物的条目,部分关联维基数据。 文件详解 对齐语料文件 合并文件:alignment-...
    packageimg
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 83 53

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • EuPMC_Based_开放获取出版物命名实体提取事实数据

    2026年1月29日 30 146 90

    数据集概述 本数据集从2016年6月1日至5日的EuropePMC开放获取(OA)出版物全文中提取命名实体,通过将文本加载到ElasticSearch并使用ContentMine词典查询完成。包含2个JSON格式文件,无目录层级,未划分训练/测试、数据/标签或原始/处理集,文件类型单一为JSON。 文件详解...
    packageimg
  • CrowdTruth_Based_众包命名实体黄金标准数据_v1_0

    2026年1月23日 30 176 18

    数据集概述 本数据集包含通过混合多命名实体识别(Multi-NER)众包增强方法,在英文维基百科句子中识别和分类命名实体的实验结果,提供众包标注的命名实体黄金标准数据,支持自然语言处理领域的相关研究与应用。 文件详解 文件名称:CrowdTruth/Crowdsourcing-NamedEntities-GoldStandard-v1.0.zip...
    packageimg
  • AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

    2026年1月18日 30 70 41

    数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
    packageimg
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 3 1

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • SemEval_2022多语言新闻文章相似度数据集

    2025年12月20日 30 136 15

    数据集概述 该数据集包含2020年上半年的多语言新闻文章对,标注了地理焦点、命名实体、时间、叙事框架、整体内容、写作风格及语气共七个维度的相似度,为新闻文本相似度研究提供标注数据支持。 文件详解 数据文件(CSV格式): final_eval_data.csv:评估数据集,包含文章对语言、URL、互联网档案馆链接及GEO、ENT等七个相似度标注字段...
    packageimg
  • 瑞士新冠疫情主流媒体词汇与命名实体分析数据集

    2025年12月12日 30 46 4

    数据集概述 本数据集通过自定义解析器和自然语言处理(NLP)流程,分析2020年1月至2021年5月主流媒体中德、法、意、英四种语言的瑞士新冠疫情相关新闻,提取词汇(Lemmas)和命名实体的出现频率,反映疫情信息传播趋势。 文件详解 metadata.xlsx: Excel格式文件,包含新闻文章检索策略、数量等元数据信息 export.zip:...
    packageimg
  • COPIOUS生物多样性文献命名实体标注指南

    2025年12月11日 30 55 30

    数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
    packageimg
  • 多语言新闻文章相似度数据集

    2025年12月9日 30 59 8

    数据集概述 该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。 文件详解 文档文件: Codebook for text similarity annotations -...
    packageimg
  • 命名实体识别新闻语料库NamedEntityRecognitionNewsCorpus-henry41148

    2025年5月19日 30 208 64

    命名实体识别新闻语料库NamedEntityRecognitionNewsCorpus-henry41148 数据来源:互联网公开数据 标签:命名实体识别, 自然语言处理, 文本标注, 语料库, 信息抽取, 机器学习, 文本分析, 语言学 数据概述: 该数据集包含来自新闻报道的文本数据,记录了经过人工标注的命名实体信息。主要特征如下:...
    packageimg
  • 英文命名实体识别数据集EnglishNamedEntityRecognitionDataset-ruanamxoai

    2025年5月14日 30 190 95

    英文命名实体识别数据集EnglishNamedEntityRecognitionDataset-ruanamxoai 数据来源:互联网公开数据 标签:命名实体识别, 自然语言处理, 文本标注, 序列标注, 机器学习, 实体识别, 数据集, 语料库 数据概述:...
    packageimg
  • 图像特征与命名关系数据集ImageFeatureandNamingRelationshipDataset-thiocstits

    2025年5月8日 30 67 4

    图像特征与命名关系数据集ImageFeatureandNamingRelationshipDataset-thiocstits 数据来源:互联网公开数据 标签:图像识别, 命名实体, 图像特征, VQA, 数据集, 机器学习, 计算机视觉, 特征工程 数据概述:...
    packageimg
  • 巴西人口普查姓名频率分析数据集BrazilCensusNameFrequencyAnalysis2010-josevitormichelin

    2025年4月30日 30 180 59

    巴西人口普查姓名频率分析数据集BrazilCensusNameFrequencyAnalysis2010-josevitormichelin 数据来源:互联网公开数据 标签:人口普查, 姓名分析, 频率统计, 巴西, 数据挖掘, 统计分析, 文本数据, 命名实体 数据概述:...
    packageimg
  • 欧洲议会命名实体识别数据集EuroParlNamedEntityRecognitionDataset-julianschelb

    2025年4月24日 30 96 33

    欧洲议会命名实体识别数据集EuroParlNamedEntityRecognitionDataset-julianschelb 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,数据集,文本分析,机器翻译,语言学,NLP,欧洲议会 数据概述: 该数据集包含来自欧洲议会会议记录的文本数据,专注于命名实体识别任务。主要特征如下:...
    packageimg