加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集

数据集概述

本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。

文件详解

  • 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据
  • 加泰罗尼亚语试用数据压缩包:Catalan_Trial.zip,ZIP格式,包含加泰罗尼亚语试用用词汇简化与复杂度预测数据
  • 西班牙语测试数据压缩包:Spanish_Test.zip,ZIP格式,包含西班牙语测试用词汇简化与复杂度预测数据
  • 西班牙语试用数据压缩包:Spanish_Trial.zip,ZIP格式,包含西班牙语试用用词汇简化与复杂度预测数据

适用场景

  • 自然语言处理研究:用于开发和评估加泰罗尼亚语、西班牙语的词汇简化模型
  • 教育技术应用:支持面向阅读困难用户的文本简化工具开发
  • 计算语言学分析:探究多语言词汇复杂度预测的标注方法与任务设计
  • 共享任务复现:用于复现BEA 2024 MLSP共享任务的实验结果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.55 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。