纽约时报实体关系对齐数据集2005_2007

数据集概述

该数据集基于2005-2006年纽约时报语料库的句子,通过Freebase实体进行对齐作为训练数据;2007年语料库句子作为测试数据。包含52种常见关系及无关系的NA类,提供训练与测试阶段的句子、实体对及关系事实数据,存储为压缩文件。

文件详解

  • 文件名称:NYT/nyt.zip
  • 文件格式:ZIP压缩包
  • 内容说明:压缩包内包含纽约时报语料库2005-2007年的实体关系对齐数据,涵盖训练(2005-2006年)与测试(2007年)的句子、实体对及关系事实,具体字段需解压后查看

适用场景

  • 自然语言处理研究:用于实体关系抽取模型的训练与测试
  • 信息抽取任务:分析文本中实体间的语义关系
  • 知识图谱构建:辅助构建基于新闻文本的实体关系知识图谱
  • 语料库语言学分析:研究新闻语料中实体关系的分布特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 67.78 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。