数据集

SemEval_2020_无监督词汇语义变化检测瑞典语测试数据集

数据集概述

本数据集为SemEval 2020任务1（无监督词汇语义变化检测）的瑞典语测试数据，包含两个不同时期的瑞典语文本语料库、31个目标词元及对应语义变化标注结果，用于评估词汇语义变化检测模型性能。

文件详解

该数据集包含一个ZIP格式压缩包，内部文件结构及内容如下： - 核心文件包：semeval2020_ulscd_swe.zip（ZIP格式），包含以下子内容： - 语料库目录（corpus1/、corpus2/）： - lemma版本：lemmatized格式文本，覆盖1790-1830年（corpus1，约7100万词）和1895-1903年（corpus2，约11100万词），UTF-8编码，含OCR错误 - token版本（corpus1/token/、corpus2/token/）：原始token格式文本，与lemma版本句子顺序一致 - 目标词元文件：targets.txt，含31个待检测语义变化的词元 - 标注结果目录（truth/）：含子任务1的二元变化得分、子任务2的分级变化得分标注数据

数据来源

KubHist2语料库（瑞典国家图书馆数字化，通过Språkbanken语料库基础设施Korp获取）

适用场景

自然语言处理研究：用于训练和评估无监督词汇语义变化检测模型
历史语言学分析：探究18至20世纪初瑞典语词汇语义演变规律
语料库语言学研究：分析不同时期瑞典语文本的词汇使用特征
语义计算任务：支持词汇语义变化检测相关算法的开发与验证

数据与资源

3730550.zipZIP
956.05 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	956.05 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。