Webis_QSpell_17_Based_2017年人工拼写检查网络查询语料库

数据集概述

本数据集为Webis Query Spelling Corpus 2017(Webis-QSpell-17),包含54,772条经人工拼写检查的网络查询数据,其中9,171条查询提供了替代拼写变体。数据集仅含一个压缩文件,无训练测试或数据标签分割,可用于自然语言处理领域的拼写检查相关研究。

文件详解

  • 文件名称:corpus-webis-qspell-17.zip
  • 文件格式:ZIP(压缩文件)
  • 内容说明:压缩包内包含Webis Query Spelling Corpus 2017的完整数据,具体文件结构需解压后查看;数据核心为54,772条人工拼写检查的网络查询,其中9,171条含替代拼写变体;无明确的训练/测试、数据/标签或原始/处理数据分割;无README或内容预览文件。

适用场景

  • 拼写检查模型训练与评估:用于开发和测试网络查询场景下的自动拼写纠错算法。
  • 自然语言处理研究:分析网络查询的拼写特征、变体分布及用户输入习惯。
  • 信息检索优化:研究拼写错误对搜索结果的影响,提升搜索引擎的鲁棒性。
  • 语料库语言学分析:探索网络查询文本的拼写规律与变体生成机制。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.18 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。