多语言新闻文章相似度数据集

数据集概述

该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。

文件详解

  • 文档文件:
  • Codebook for text similarity annotations - Google Docs.pdf:PDF格式的标注手册,用于说明各相似度维度的定义及标注规则
  • 数据文件:
  • zenodo_release_data.csv:CSV格式的标注数据集,包含字段:content.pair_id(文章对ID)、content.similarity(相似度得分)、content.url1/content.url2(文章链接)、content.title1/content.title2(文章标题)、real_lang1/real_lang2(文章语言)、GEO/ENT/TIME/NAR/OVERALL/STYLE/TONE/FRAME(各维度标注值)

适用场景

  • 自然语言处理研究:用于多语言新闻文本相似度计算模型的训练与评估
  • 新闻内容分析:分析不同语言新闻在叙事框架、语气风格等维度的差异
  • 媒体研究:探究跨语言新闻对同一事件的报道一致性与差异
  • 信息检索优化:提升多语言新闻检索系统的相关性匹配精度
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.99 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。