SemEval_2020任务1拉丁语词汇语义变化检测数据集

数据集概述

本数据集包含SemEval 2020任务1(无监督词汇语义变化检测)的拉丁语测试数据,涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分,还提供语料库的原始词形版本,支持词汇语义变化研究。

文件详解

  • 文件名称: semeval2020_ulscd_lat.zip
  • 文件格式: ZIP压缩包
  • 压缩包内包含内容:
  • 语料库文件(lemma版本): corpus1/lemma、corpus2/lemma,为已词形还原、词性标注的拉丁语语料库,句子长度≥2、无标点、随机打乱
  • 语料库文件(token版本): corpus1/token、corpus2/token,为原始词形版本,句子顺序与lemma版本一致
  • 目标词形文件: targets.txt,包含40个标注词汇语义变化的目标词形
  • 标注评分文件: truth/目录下的文件,包含子任务1的二元变化评分、子任务2的分级变化评分

数据来源

CRETA中心、CLARIN-D(德国联邦教育与研究部BMBF资助)

适用场景

  • 词汇语义变化研究: 分析拉丁语词汇在不同历史时期的语义演变规律
  • 自然语言处理任务: 支持无监督词汇语义变化检测模型的训练与测试
  • 历史语言学分析: 探究古罗马至现代拉丁语词汇使用的历时变化
  • 语料库语言学研究: 基于大规模标注语料开展拉丁语词汇特征分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 59.32 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。