数据集概述
本数据集为SemEval 2020任务1(无监督词汇语义变化检测)的瑞典语测试数据,包含两个不同时期的瑞典语文本语料库、31个目标词元及对应语义变化标注结果,用于评估词汇语义变化检测模型性能。
文件详解
该数据集包含一个ZIP格式压缩包,内部文件结构及内容如下:
- 核心文件包:semeval2020_ulscd_swe.zip(ZIP格式),包含以下子内容:
- 语料库目录(corpus1/、corpus2/):
- lemma版本:lemmatized格式文本,覆盖1790-1830年(corpus1,约7100万词)和1895-1903年(corpus2,约11100万词),UTF-8编码,含OCR错误
- token版本(corpus1/token/、corpus2/token/):原始token格式文本,与lemma版本句子顺序一致
- 目标词元文件:targets.txt,含31个待检测语义变化的词元
- 标注结果目录(truth/):含子任务1的二元变化得分、子任务2的分级变化得分标注数据
数据来源
KubHist2语料库(瑞典国家图书馆数字化,通过Språkbanken语料库基础设施Korp获取)
适用场景
- 自然语言处理研究:用于训练和评估无监督词汇语义变化检测模型
- 历史语言学分析:探究18至20世纪初瑞典语词汇语义演变规律
- 语料库语言学研究:分析不同时期瑞典语文本的词汇使用特征
- 语义计算任务:支持词汇语义变化检测相关算法的开发与验证