SemEval_2020_无监督词汇语义变化检测瑞典语测试数据集

数据集概述

本数据集为SemEval 2020任务1(无监督词汇语义变化检测)的瑞典语测试数据,包含两个不同时期的瑞典语文本语料库、31个目标词元及对应语义变化标注结果,用于评估词汇语义变化检测模型性能。

文件详解

该数据集包含一个ZIP格式压缩包,内部文件结构及内容如下: - 核心文件包:semeval2020_ulscd_swe.zip(ZIP格式),包含以下子内容: - 语料库目录(corpus1/、corpus2/): - lemma版本:lemmatized格式文本,覆盖1790-1830年(corpus1,约7100万词)和1895-1903年(corpus2,约11100万词),UTF-8编码,含OCR错误 - token版本(corpus1/token/、corpus2/token/):原始token格式文本,与lemma版本句子顺序一致 - 目标词元文件:targets.txt,含31个待检测语义变化的词元 - 标注结果目录(truth/):含子任务1的二元变化得分、子任务2的分级变化得分标注数据

数据来源

KubHist2语料库(瑞典国家图书馆数字化,通过Språkbanken语料库基础设施Korp获取)

适用场景

  • 自然语言处理研究:用于训练和评估无监督词汇语义变化检测模型
  • 历史语言学分析:探究18至20世纪初瑞典语词汇语义演变规律
  • 语料库语言学研究:分析不同时期瑞典语文本的词汇使用特征
  • 语义计算任务:支持词汇语义变化检测相关算法的开发与验证
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 956.05 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。