StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

数据集概述

本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。

文件详解

  • 文件1:StopWords_Integrated_Favaretto.xlsx
  • 文件格式:XLSX
  • 工作表及字段:
  • pt_accent工作表:含215个带重音葡萄牙语停用词,字段名stopwords_pt
  • pt_noaccent工作表:含208个无重音葡萄牙语停用词,字段名stopwords_pt_na
  • en工作表:含213个英文停用词,字段名stopwords_en
  • 文件2:StopWords_Extended_Favaretto.xlsx
  • 文件格式:XLSX
  • 工作表及字段:
  • pt_extend工作表:含614个扩展葡萄牙语停用词,字段名stopwords_pt_extend
  • en_extended工作表:含483个扩展英文停用词,字段名stopwords_en_extend

数据来源

Prof. Dr. José Eduardo Ricciardi Favaretto基于多源数据整合

适用场景

  • 文本预处理:用于英文和葡萄牙语文本的停用词过滤,提升文本挖掘效率
  • 自然语言处理模型训练:作为基础工具包支持NLP模型的预处理环节
  • 多语言文本分析:适配英葡双语文本的语义分析、情感分析等任务
  • 实际文本场景适配:通过包含拼写错误词汇,支持非规范文本的处理需求
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.04 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。