CEEC_Based_历史英语拼写规范化人工标注测试集数据

数据集概述

本数据集为CEEC语料库历史英语规范化测试集,包含人工生成的三组历史-现代拼写对列表:混合世纪列表、15世纪列表和18世纪列表,每组各100对。历史形式均源自CEEC语料库,总计包含一个文件。

文件详解

  • 文件名称:test_set_of_normalizations.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含三组历史英语拼写规范化列表,分别为混合世纪列表、15世纪列表和18世纪列表,每组含100个历史-现代拼写对应对。

适用场景

  • 历史英语文本规范化模型测试: 用于评估历史英语拼写规范化算法或模型的准确性与泛化能力。
  • 历史语言学研究: 分析15世纪、18世纪及混合世纪历史英语拼写特征与现代英语的差异。
  • 自然语言处理数据集构建: 作为历史文本规范化任务的基准测试数据,支持相关算法的开发与验证。
  • 语料库语言学研究: 辅助CEEC语料库相关的历史英语语料分析与应用研究。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.04 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。