SemEval_2020任务1拉丁语词汇语义变化检测数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

SemEval_2020任务1拉丁语词汇语义变化检测数据集

数据集概述

本数据集包含SemEval 2020任务1（无监督词汇语义变化检测）的拉丁语测试数据，涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分，还提供语料库的原始词形版本，支持词汇语义变化研究。

文件详解

文件名称: semeval2020_ulscd_lat.zip
文件格式: ZIP压缩包
压缩包内包含内容:
语料库文件（lemma版本）: corpus1/lemma、corpus2/lemma，为已词形还原、词性标注的拉丁语语料库，句子长度≥2、无标点、随机打乱
语料库文件（token版本）: corpus1/token、corpus2/token，为原始词形版本，句子顺序与lemma版本一致
目标词形文件: targets.txt，包含40个标注词汇语义变化的目标词形
标注评分文件: truth/目录下的文件，包含子任务1的二元变化评分、子任务2的分级变化评分

数据来源

CRETA中心、CLARIN-D（德国联邦教育与研究部BMBF资助）

适用场景

词汇语义变化研究: 分析拉丁语词汇在不同历史时期的语义演变规律
自然语言处理任务: 支持无监督词汇语义变化检测模型的训练与测试
历史语言学分析: 探究古罗马至现代拉丁语词汇使用的历时变化
语料库语言学研究: 基于大规模标注语料开展拉丁语词汇特征分析

数据与资源

3992738.zipZIP
59.32 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	59.32 MiB
最后更新	2025年12月8日
创建于	2025年12月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？