加泰罗尼亚语语义文本相似度基准数据集1_0_2

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

加泰罗尼亚语语义文本相似度基准数据集1_0_2

数据集概述

该数据集是用于评估加泰罗尼亚语语义文本相似度（STS）的基准语料库，包含三千余对人工标注的句子对，标注遵循SemEval挑战指南，基于0到5分的相似度评分标准，为语义相似度模型的构建与评估提供支持。

文件详解

文件名称：STS-ca_v.1.0.2.zip
文件格式：ZIP压缩包
内容说明：包含完整的人工与自动标注数据、分析脚本，以及准确的许可信息

数据来源

BSC TeMU（巴塞罗那超级计算中心文本挖掘单元）

适用场景

自然语言处理研究：用于训练和评估加泰罗尼亚语语义文本相似度模型
语言资源开发：丰富加泰罗尼亚语语言理解基准（CLUB）资源
多语言模型评估：作为中等资源语言语义理解能力的评估基准
计算语言学分析：研究人工标注一致性对语义相似度任务的影响

数据与资源

4761434.zipZIP
1.23 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.23 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？