数据集概述
该数据集包含2020年上半年的多语言新闻文章对,标注了地理焦点、命名实体、时间、叙事框架、整体内容、写作风格及语气共七个维度的相似度,为新闻文本相似度研究提供标注数据支持。
文件详解
- 数据文件(CSV格式):
- final_eval_data.csv:评估数据集,包含文章对语言、URL、互联网档案馆链接及GEO、ENT等七个相似度标注字段
- semeval-2022_task8_train-data_batch.csv:训练数据集,字段同评估集(标注字段命名含Geography等变体)
- per_annotator_training_data.csv:标注者级训练数据,记录单标注者对训练集的标注结果
- per_annotator_evaluation_data.csv:标注者级评估数据,记录单标注者对评估集的标注结果
- Collab Gold Standard News Similarity - Training survey 1.csv:训练集协作标注金标准数据1
- Collab Gold Standard News Similarity - Training survey 2.csv:训练集协作标注金标准数据2
- collab_gold_standard_news_similarity.xlsx:整合的协作标注金标准数据表格
- 文档文件:
- codebook_for_text_similarity_annotations.docx:标注手册Word版,说明七个相似度维度的定义与标注规则
- Codebook for text similarity annotations.pdf:标注手册PDF版,内容同Word版
适用场景
- 自然语言处理研究:用于训练和评估多语言新闻文本相似度计算模型
- 新闻内容分析:研究不同语言新闻在叙事框架、风格语气上的差异
- 标注方法论研究:分析多标注者对文本相似度任务的标注一致性
- 信息检索应用:优化跨语言新闻文章的关联推荐系统
- 计算语言学教学:作为文本语义匹配任务的教学实验数据集