数据集概述
本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。
文件详解
- 文件1:StopWords_Integrated_Favaretto.xlsx
- 文件格式:XLSX
- 工作表及字段:
- pt_accent工作表:含215个带重音葡萄牙语停用词,字段名stopwords_pt
- pt_noaccent工作表:含208个无重音葡萄牙语停用词,字段名stopwords_pt_na
- en工作表:含213个英文停用词,字段名stopwords_en
- 文件2:StopWords_Extended_Favaretto.xlsx
- 文件格式:XLSX
- 工作表及字段:
- pt_extend工作表:含614个扩展葡萄牙语停用词,字段名stopwords_pt_extend
- en_extended工作表:含483个扩展英文停用词,字段名stopwords_en_extend
数据来源
Prof. Dr. José Eduardo Ricciardi Favaretto基于多源数据整合
适用场景
- 文本预处理:用于英文和葡萄牙语文本的停用词过滤,提升文本挖掘效率
- 自然语言处理模型训练:作为基础工具包支持NLP模型的预处理环节
- 多语言文本分析:适配英葡双语文本的语义分析、情感分析等任务
- 实际文本场景适配:通过包含拼写错误词汇,支持非规范文本的处理需求