StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

数据集概述

本数据集整合了英文和葡萄牙语的停用词集合，分为基础版和扩展版两个Excel文件，适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词，扩展版则进一步补充了更多词汇，部分词汇包含故意拼写错误以适配实际文本场景。

文件详解

文件1：StopWords_Integrated_Favaretto.xlsx
文件格式：XLSX
工作表及字段：
pt_accent工作表：含215个带重音葡萄牙语停用词，字段名stopwords_pt
pt_noaccent工作表：含208个无重音葡萄牙语停用词，字段名stopwords_pt_na
en工作表：含213个英文停用词，字段名stopwords_en
文件2：StopWords_Extended_Favaretto.xlsx
文件格式：XLSX
工作表及字段：
pt_extend工作表：含614个扩展葡萄牙语停用词，字段名stopwords_pt_extend
en_extended工作表：含483个扩展英文停用词，字段名stopwords_en_extend

数据来源

Prof. Dr. José Eduardo Ricciardi Favaretto基于多源数据整合

适用场景

文本预处理：用于英文和葡萄牙语文本的停用词过滤，提升文本挖掘效率
自然语言处理模型训练：作为基础工具包支持NLP模型的预处理环节
多语言文本分析：适配英葡双语文本的语义分析、情感分析等任务
实际文本场景适配：通过包含拼写错误词汇，支持非规范文本的处理需求

数据与资源

14176112.zipZIP
0.04 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.04 MiB
最后更新	2026年1月19日
创建于	2026年1月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？