词汇简化可靠数据集BenchLS

数据集概述

该数据集为词汇简化研究提供可靠资源,整合LexMTurk与LSeval数据集的929个实例,每个实例包含句子、目标复杂词及按简单性排序的候选替换词。经拼写过滤和词形变化校正处理,平均每个复杂词对应7.37个候选词。

文件详解

  • 文件名称:BenchLS.zip
  • 文件格式:ZIP压缩包
  • 内容说明:压缩包内包含经拼写过滤和词形变化校正后的词汇简化数据集,共929个实例,每个实例包含句子、目标复杂词及候选替换词列表

数据来源

LexMTurk数据集(Horn et al., 2014)、LSeval数据集(De Belder and Moens, 2012)

适用场景

  • 自然语言处理研究:用于词汇简化模型的训练与评估
  • 语言学分析:探究英语复杂词汇的简化规律与替换策略
  • 教育技术开发:支持英语学习者的词汇理解辅助工具研发
  • 文本可读性优化:为自动文本简化系统提供标准化测试数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.09 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。