SemEval_2022多语言新闻文章相似度数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

SemEval_2022多语言新闻文章相似度数据集

数据集概述

该数据集包含2020年上半年的多语言新闻文章对，标注了地理焦点、命名实体、时间、叙事框架、整体内容、写作风格及语气共七个维度的相似度，为新闻文本相似度研究提供标注数据支持。

文件详解

数据文件（CSV格式）：
final_eval_data.csv：评估数据集，包含文章对语言、URL、互联网档案馆链接及GEO、ENT等七个相似度标注字段
semeval-2022_task8_train-data_batch.csv：训练数据集，字段同评估集（标注字段命名含Geography等变体）
per_annotator_training_data.csv：标注者级训练数据，记录单标注者对训练集的标注结果
per_annotator_evaluation_data.csv：标注者级评估数据，记录单标注者对评估集的标注结果
Collab Gold Standard News Similarity - Training survey 1.csv：训练集协作标注金标准数据1
Collab Gold Standard News Similarity - Training survey 2.csv：训练集协作标注金标准数据2
collab_gold_standard_news_similarity.xlsx：整合的协作标注金标准数据表格
文档文件：
codebook_for_text_similarity_annotations.docx：标注手册Word版，说明七个相似度维度的定义与标注规则
Codebook for text similarity annotations.pdf：标注手册PDF版，内容同Word版

适用场景

自然语言处理研究：用于训练和评估多语言新闻文本相似度计算模型
新闻内容分析：研究不同语言新闻在叙事框架、风格语气上的差异
标注方法论研究：分析多标注者对文本相似度任务的标注一致性
信息检索应用：优化跨语言新闻文章的关联推荐系统
计算语言学教学：作为文本语义匹配任务的教学实验数据集

数据与资源

6507872.zipZIP
13.63 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	13.63 MiB
最后更新	2025年12月20日
创建于	2025年12月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？