WSDM2021_Contextualizing_新闻趋势实体上下文分析数据集

数据集概述

本数据集是基于《纽约时报标注语料库》开发的富集数据,包含149个趋势事件,涉及12万个实体。数据旨在对新闻中的趋势实体进行上下文关联,按实体对趋势的解释价值排序。数据集分为无监督(149个趋势)和有监督(训练集50个、开发集34个、测试集65个)两类评估数据,支持趋势实体解释性研究。

文件详解

  • 文件名称:contextualizing-trending-entities.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含JSON格式的富集数据,具体字段未提供预览,推测包含趋势实体、关联实体及解释价值排序等核心信息。

数据来源

论文“Contextualizing Trending Entities in News Stories”(WSDM 2021)

适用场景

  • 新闻趋势实体解释性研究:用于分析实体对新闻趋势的解释价值及排序逻辑。
  • 自然语言处理模型训练:作为有监督/无监督任务的基准数据集,训练实体上下文关联模型。
  • 新闻内容语义分析:挖掘新闻中趋势实体的关联关系,辅助理解事件传播逻辑。
  • 信息检索优化:基于实体解释价值排序,提升趋势相关信息的检索精准度。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 18.1 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。