乌兹别克语停用词列表数据集

数据集概述

本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。

文件详解

  • 压缩包文件:
  • uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件:
  • stopwords_unigrams.txt: 单字词停用词列表(2357个),基于语法规则和TFIDF算法生成
  • stopwords_bigrams.txt: 双字词停用词列表(4548个),基于双词方法提取
  • stopwords_bigrams_with_collocations.txt: 带搭配的双字词停用词列表(24490个)
  • list_of_urls_of_school_corpus.txt: 用于重构"学校语料库"的URL列表

适用场景

  • 自然语言处理研究: 用于乌兹别克语文本预处理、关键词提取等NLP任务
  • 语料库语言学研究: 分析乌兹别克语高频词汇及搭配模式
  • 文本挖掘应用: 提升乌兹别克语文本分类、情感分析等任务的准确性
  • 语言资源建设: 作为乌兹别克语基础语言资源,支持相关工具开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.26 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。