南非语言嵌入评估数据集_Simlex_和_WordSim

数据集概述

本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。

文件详解

  • 文件名称:SimLex-999-orig - Sepedi.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:塞佩迪语SimLex-999单词对数据集,包含人工标注的语义相似度评分
  • 文件名称:wordsim353_orig - Setswana.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:塞茨瓦纳语WordSim353单词对数据集,包含人工标注的语义相似度评分
  • 文件名称:wordsim353_orig - Sepedi.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:塞佩迪语WordSim353单词对数据集,包含人工标注的语义相似度评分
  • 文件名称:SimLex-999-orig - Setswana.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:塞茨瓦纳语SimLex-999单词对数据集,包含人工标注的语义相似度评分

数据来源

Zenodo Data Repository

适用场景

  • 自然语言处理模型评估: 用于测试南非语言(塞茨瓦纳语、塞佩迪语)嵌入模型的语义相关性计算准确性
  • 多语言语义分析研究: 分析不同南非语言单词对的语义相似度特征及跨语言一致性
  • 低资源语言处理: 为塞茨瓦纳语、塞佩迪语等低资源语言的NLP模型开发提供评估基准
  • 翻译质量验证: 验证英文到南非语言单词对翻译的语义一致性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.23 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。