加泰罗尼亚语语义文本相似度基准数据集1_0_2

数据集概述

该数据集是用于评估加泰罗尼亚语语义文本相似度(STS)的基准语料库,包含三千余对人工标注的句子对,标注遵循SemEval挑战指南,基于0到5分的相似度评分标准,为语义相似度模型的构建与评估提供支持。

文件详解

  • 文件名称:STS-ca_v.1.0.2.zip
  • 文件格式:ZIP压缩包
  • 内容说明:包含完整的人工与自动标注数据、分析脚本,以及准确的许可信息

数据来源

BSC TeMU(巴塞罗那超级计算中心文本挖掘单元)

适用场景

  • 自然语言处理研究:用于训练和评估加泰罗尼亚语语义文本相似度模型
  • 语言资源开发:丰富加泰罗尼亚语语言理解基准(CLUB)资源
  • 多语言模型评估:作为中等资源语言语义理解能力的评估基准
  • 计算语言学分析:研究人工标注一致性对语义相似度任务的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.23 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。