找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs

    2025年4月24日   

    垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs 数据来源:互联网公开数据 标签:垃圾邮件,邮件过滤,数据集,自然语言处理,文本分类,机器学习,信息检索,垃圾邮件检测 数据概述: 该数据集包含了大量标记为垃圾邮件(spam)和正常邮件(ham)的邮件数据,主要用于垃圾邮件过滤模型的训练和评估。主要特征如下:...
    packageimg
  • 特征工程关联数据集LinkingFeatureEngineeringDataset001-kazukiigeta

    2025年4月24日   

    特征工程关联数据集LinkingFeatureEngineeringDataset001-kazukiigeta 数据来源:互联网公开数据 标签:特征工程,数据集,关联分析,机器学习,数据挖掘,关系建模,变量构建,数据预处理 数据概述: 该数据集包含了用于特征工程的各种数据,旨在帮助用户构建和理解变量之间的关系。主要特征如下:...
    packageimg
  • 七月2022表格数据评分数据集TabularJuly2022ScoresDataset-jtbontinck

    2025年4月24日   

    七月2022表格数据评分数据集TabularJuly2022ScoresDataset-jtbontinck 数据来源:互联网公开数据 标签:表格数据,评分系统,数据集,数据分析,机器学习,数据评估,统计方法,数据科学 数据概述: 该数据集包含来自2022年7月的表格数据评分信息,记录了各类表格数据的质量评分和评估指标。主要特征如下:...
    packageimg
  • 预处理与词形还原测试数据数据集-marouanesidali

    2025年4月24日   

    预处理与词形还原测试数据数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,数据集,文本分析,机器学习,NLP,测试数据 数据概述: 该数据集包含了经过预处理和词形还原处理的文本数据,主要用于测试和评估文本处理算法的性能。主要特征如下:...
    packageimg
  • 数据清洗挑战赛-不一致数据录入数据集-peterr2

    2025年4月24日   

    数据清洗挑战赛-不一致数据录入数据集-peterr2 数据来源:互联网公开数据 标签:数据清洗,数据质量,数据集,数据录入,数据标准化,异常检测,数据科学,机器学习 数据概述: 该数据集来自Kaggle数据清洗挑战赛,旨在帮助用户练习和提升数据清洗技能,主要包含不一致的数据录入问题。主要特征如下:...
    packageimg
  • 标准化技术应用数据集-akalyasubramanian

    2025年4月24日   

    标准化技术应用数据集-akalyasubramanian 数据来源:互联网公开数据 标签:数据标准化,机器学习,数据预处理,数据集,数值分析,特征工程,数据清洗,统计学 数据概述: 该数据集包含用于应用数据标准化技术的数据,旨在帮助用户理解和实践不同的标准化方法。主要特征如下: 时间跨度:无特定时间范围,数据为静态。...
    packageimg
  • 拼写纠正数据集SpellCorrectionDataset-zerowith

    2025年4月24日   

    拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:...
    packageimg
  • 描述性统计练习数据集-wichaiditwit

    2025年4月24日   

    描述性统计练习数据集-wichaiditwit 数据来源:互联网公开数据 标签:统计学,数据集,数据分析,描述性统计,Python,数据可视化,学术研究,实践练习 数据概述: 该数据集包含用于描述性统计练习的各种数据,旨在帮助用户熟悉数据分析的基本流程和常用方法。主要特征如下: 时间跨度:...
    packageimg
  • 数据去重与清洗数据集DD-CleanDataset-va6573

    2025年4月24日   

    数据去重与清洗数据集DD-CleanDataset-va6573 数据来源:互联网公开数据 标签:数据去重,数据清洗,数据集,数据预处理,机器学习,数据质量,数据管理,数据处理 数据概述: 该数据集专注于数据去重与清洗任务,记录了经过预处理的数据样本。主要特征如下: 时间跨度:数据记录的时间范围未明确指定。...
    packageimg
  • Pandas特征工程数据集PandasFeatureEngineeringDataset-ishagandhi01

    2025年4月24日   

    Pandas特征工程数据集PandasFeatureEngineeringDataset-ishagandhi01 数据来源:互联网公开数据 标签:Pandas,特征工程,数据集,数据分析,机器学习,Python,数据处理,数据科学 数据概述: 该数据集包含了使用Pandas进行特征工程处理后的数据,记录了各种不同的特征转换和构建方法。主要特征如下:...
    packageimg
  • 金标准测试数据集GoldStandardTestDataDataset-manthanmehta123

    2025年4月24日   

    金标准测试数据集GoldStandardTestDataDataset-manthanmehta123 数据来源:互联网公开数据 标签:数据集,测试数据,质量控制,数据验证,机器学习,数据分析,标准数据,评估工具 数据概述: 该数据集包含来自多个领域的高质量测试数据,主要用于数据验证和质量控制。主要特征如下:...
    packageimg
  • Alpaca指令集词级别分类数据集

    2025年4月24日   

    Alpaca指令集词级别分类数据集 数据来源:互联网公开数据 标签:自然语言处理,指令理解,词级别分类,Alpaca,机器指令,文本数据,深度学习,NLP 数据概述:...
    packageimg
  • 大语言模型参数高效微调训练数据集

    2025年4月24日   

    大语言模型参数高效微调训练数据集 数据来源:互联网公开数据 标签:大语言模型,参数高效微调,低秩适应,对话摘要,对话主题,对话内容,训练数据 数据概述:...
    packageimg
  • 缺失机场数据数据集MissingAirportDataDataset-serivas

    2025年4月24日   

    缺失机场数据数据集MissingAirportDataDataset-serivas 数据来源:互联网公开数据 标签:机场,数据集,数据缺失,数据补全,地理信息,航空,数据分析,机器学习 数据概述: 该数据集包含关于全球机场的数据,重点在于识别和处理数据缺失的情况。主要特征如下:...
    packageimg
  • 数据训练测试提交数据集DataTrainingDataTestSubmissionDataset-g7aitzaouitoumaima

    2025年4月24日   

    数据训练测试提交数据集DataTrainingDataTestSubmissionDataset-g7aitzaouitoumaima 数据来源:互联网公开数据 标签:数据集,机器学习,数据科学,训练集,测试集,提交数据,数据处理,编程竞赛 数据概述:...
    packageimg
  • 机器学习新手数据集

    2025年4月24日   

    机器学习新手数据集 数据来源:互联网公开数据 标签:机器学习, 数据预处理, 数据清洗, 数据集类型, 医疗健康, 气候数据, 疫情分析, 机械设备, 时间序列 数据概述...
    packageimg
  • 孟加拉文手写字符图像描述数据集BanglaLekhaImageCaptionsDataset-sayedul45

    2025年4月24日   

    孟加拉文手写字符图像描述数据集BanglaLekhaImageCaptionsDataset-sayedul45 数据来源:互联网公开数据 标签:手写识别,图像标注,数据集,机器学习,自然语言处理,计算机视觉,文字识别,图像描述 数据概述:...
    packageimg
  • 未处理的公开数据数据集-blurred8216

    2025年4月24日   

    未处理的公开数据数据集-blurred8216 数据来源:互联网公开数据 标签:数据,原始数据,数据清洗,数据分析,数据科学,机器学习,数据挖掘,数据预处理 数据概述: 该数据集包含来自多个来源的原始,未处理的数据。主要特征如下: 时间跨度: 数据记录的时间范围取决于具体的数据来源,通常涵盖多个时间段。 地理范围:...
    packageimg
  • 垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007

    2025年4月24日   

    垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,文本分析,自然语言处理,机器学习,信息检索,文本挖掘 数据概述: 该数据集包含大量的电子邮件数据,用于垃圾邮件的识别和分类。主要特征如下: 时间跨度:数据记录的时间范围未知,但包含不同时期的电子邮件。...
    packageimg
  • 鲍鱼数据集缺失值版本AbaloneMissingValuesDataset-sibujohn

    2025年4月24日   

    鲍鱼数据集缺失值版本AbaloneMissingValuesDataset-sibujohn 数据来源:互联网公开数据 标签:鲍鱼,数据集,缺失值,生物特征,机器学习,数据清洗,生物统计,海洋生物学 数据概述:该数据集包含鲍鱼的生物特征数据,记录了鲍鱼的年龄,性别,长度,直径,高度,壳重等信息。主要特征如下: 时间跨度:数据记录的时间范围为1995年。...
    packageimg