多语言新闻文章相似度数据集

该数据集是作者早期工作的扩展版本，包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度，为多语言新闻文本的相似度分析提供结构化标注数据。

文档文件：
Codebook for text similarity annotations - Google Docs.pdf：PDF格式的标注手册，用于说明各相似度维度的定义及标注规则
数据文件：
zenodo_release_data.csv：CSV格式的标注数据集，包含字段：content.pair_id（文章对ID）、content.similarity（相似度得分）、content.url1/content.url2（文章链接）、content.title1/content.title2（文章标题）、real_lang1/real_lang2（文章语言）、GEO/ENT/TIME/NAR/OVERALL/STYLE/TONE/FRAME（各维度标注值）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	12.99 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。