SemEval_2022多语言新闻文章相似度数据集

数据集概述

该数据集包含2020年上半年的多语言新闻文章对,标注了地理焦点、命名实体、时间、叙事框架、整体内容、写作风格及语气共七个维度的相似度,为新闻文本相似度研究提供标注数据支持。

文件详解

  • 数据文件(CSV格式):
  • final_eval_data.csv:评估数据集,包含文章对语言、URL、互联网档案馆链接及GEO、ENT等七个相似度标注字段
  • semeval-2022_task8_train-data_batch.csv:训练数据集,字段同评估集(标注字段命名含Geography等变体)
  • per_annotator_training_data.csv:标注者级训练数据,记录单标注者对训练集的标注结果
  • per_annotator_evaluation_data.csv:标注者级评估数据,记录单标注者对评估集的标注结果
  • Collab Gold Standard News Similarity - Training survey 1.csv:训练集协作标注金标准数据1
  • Collab Gold Standard News Similarity - Training survey 2.csv:训练集协作标注金标准数据2
  • collab_gold_standard_news_similarity.xlsx:整合的协作标注金标准数据表格
  • 文档文件:
  • codebook_for_text_similarity_annotations.docx:标注手册Word版,说明七个相似度维度的定义与标注规则
  • Codebook for text similarity annotations.pdf:标注手册PDF版,内容同Word版

适用场景

  • 自然语言处理研究:用于训练和评估多语言新闻文本相似度计算模型
  • 新闻内容分析:研究不同语言新闻在叙事框架、风格语气上的差异
  • 标注方法论研究:分析多标注者对文本相似度任务的标注一致性
  • 信息检索应用:优化跨语言新闻文章的关联推荐系统
  • 计算语言学教学:作为文本语义匹配任务的教学实验数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.63 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。