找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 全部类型特征数据集AllTypeFeaturesDataset-yoge7803

    2025年4月23日   

    全部类型特征数据集AllTypeFeaturesDataset-yoge7803 数据来源:互联网公开数据 标签:数据集,特征工程,机器学习,数据分析,数据科学,数据预处理,特征选择,模型训练 数据概述: 该数据集包含来自互联网公开资源的多种类型特征数据,适用于机器学习,数据分析和特征工程等任务。主要特征如下:...
    packageimg
  • 阿拉伯语文本摘要基准数据集ArabicSummarizationBenchmarkDataset-bavlygeorge

    2025年4月23日   

    阿拉伯语文本摘要基准数据集ArabicSummarizationBenchmarkDataset-bavlygeorge 数据来源:互联网公开数据 标签:阿拉伯语,文本摘要,数据集,自然语言处理,机器学习,语言学,信息检索,翻译 数据概述: 该数据集包含来自多个来源的阿拉伯语文本数据,旨在用于文本摘要任务的评估和研究。主要特征如下:...
    packageimg
  • SAGEVORTEX10数据集分割SAGEVORTEX10DatasetSplits-magnusgarl

    2025年4月23日   

    SAGEVORTEX10数据集分割SAGEVORTEX10DatasetSplits-magnusgarl 数据来源:互联网公开数据 标签:数据集,数据分割,SAGE,VORTEX,机器学习,数据科学,研究工具,算法测试 数据概述: 该数据集包含来自SAGE VORTEX 10项目的数据分割方案,主要用于机器学习模型的训练,验证和测试。主要特征如下:...
    packageimg
  • 新闻真伪识别机器学习模型训练数据集-2023年-ronikdedhia

    2025年4月23日   

    新闻真伪识别机器学习模型训练数据集-2023年-ronikdedhia 数据来源:互联网公开数据 标签:假新闻,真伪识别,机器学习,自然语言处理,文本分析,新闻,舆情,数据挖掘 数据概述:...
    packageimg
  • 数值数据集用于练习缺失值填充NumDatasetforPracticeMissingValuesFilling-fadool

    2025年4月23日   

    数值数据集用于练习缺失值填充NumDatasetforPracticeMissingValuesFilling-fadool 数据来源:互联网公开数据 标签:数值数据集,缺失值填充,数据处理,数据分析,数据科学,机器学习,统计学,数据清洗 数据概述: 该数据集包含用于练习和学习缺失值填充技术的数值数据,适用于数据处理和数据分析等任务。主要特征如下:...
    packageimg
  • HackerEarthOCR-NLP社交媒体内容情感分析数据集-rohan0301

    2025年4月23日   

    HackerEarthOCR-NLP社交媒体内容情感分析数据集-rohan0301 数据来源:互联网公开数据 标签:OCR,NLP,社交媒体,情感分析,图片分析,文本提取,分类 数据概述:...
    packageimg
  • 巴西2020年出生数据集

    2025年4月23日   

    巴西2020年出生数据集 数据来源:互联网公开数据 标签:出生数据,巴西,公共卫生,社会经济因素,健康指标,数据集分析 数据概述:...
    packageimg
  • 物联网网络流量入侵检测数据集-2024-wittigenz

    2025年4月23日   

    物联网网络流量入侵检测数据集-2024-wittigenz 数据来源:互联网公开数据 标签:物联网,网络流量,入侵检测,IDS,数据集,安全,恶意流量,合法流量,网络安全 数据概述:...
    packageimg
  • DEFCON人工智能村CTF挑战图像及数据集

    2025年4月23日   

    DEFCON人工智能村CTF挑战图像及数据集 数据来源:互联网公开数据 标签:DEFCON,CTF,人工智能,图像识别,数据集,挑战,安全 数据概述: 本数据集收录了在DEFCON人工智能村CTF挑战中使用的解决方案或中间数据。最初仅包含与图像相关挑战的图像文件,现已扩展包含其他类型的数据集文件(如.npy,...
    packageimg
  • 孟加拉语词汇数据集-公交玛玛项目-rafsun

    2025年4月23日   

    孟加拉语词汇数据集-公交玛玛项目-rafsun 数据来源:互联网公开数据 标签:孟加拉语,自然语言处理,NLP,公交玛玛,学生出行,聊天机器人,词汇数据 数据概述: 本数据集是为公交玛玛项目中的聊天机器人功能而收集,旨在支持孟加拉语的交流,方便学生公交出行。数据集包含六种类型的数据,具体如下: stop_words:停用词,共385个...
    packageimg
  • Kiji数据库格式化数据集KijiFormatterDatabaseDataset-mrkmakr

    2025年4月23日   

    Kiji数据库格式化数据集KijiFormatterDatabaseDataset-mrkmakr 数据来源:互联网公开数据 标签:数据库,数据格式化,数据集,Kiji,数据清洗,数据处理,数据科学,数据管理 数据概述:该数据集包含来自Kiji数据库的格式化数据,记录了Kiji数据库中的数据项及其格式化后的结果。主要特征如下:...
    packageimg
  • 列名规范化数据集ColumnNamesAreCoolDataset-jiakangchen2

    2025年4月23日   

    列名规范化数据集ColumnNamesAreCoolDataset-jiakangchen2 数据来源:互联网公开数据 标签:数据规范化,列名标准化,数据集,数据清洗,数据管理,数据处理,数据科学,机器学习 数据概述: 该数据集专注于列名规范化与标准化的实践,记录了不同数据集中列名的命名规范及处理方法。主要特征如下:...
    packageimg
  • 机器学习调优训练数据集TrainDataforTuningDataset-suramyajadhav

    2025年4月23日   

    机器学习调优训练数据集TrainDataforTuningDataset-suramyajadhav 数据来源:互联网公开数据 标签:机器学习,数据集,模型调优,参数优化,算法训练,人工智能,数据科学,技术应用 数据概述:该数据集包含用于机器学习模型调优的训练数据,适用于各种机器学习算法的参数优化和性能调优任务。主要特征如下:...
    packageimg
  • 越南语拼写错误数据集VietnameseMisspellDataset-khanglehoang

    2025年4月23日   

    越南语拼写错误数据集VietnameseMisspellDataset-khanglehoang 数据来源:互联网公开数据 标签:越南语,拼写错误,数据集,自然语言处理,机器学习,语言学研究,文本分析,错误检测 数据概述: 该数据集包含越南语中的拼写错误数据,记录了越南语文本中的错误拼写及其正确形式。主要特征如下:...
    packageimg
  • 中文新闻语料库-2011至最新-ceshine

    2025年4月23日   

    中文新闻语料库-2011至最新-ceshine 数据来源:互联网公开数据 标签:中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体 数据概述:...
    packageimg
  • 南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah

    2025年4月23日   

    南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah 数据来源:互联网公开数据 标签:垃圾邮件,数据集,邮件过滤,自然语言处理,机器学习,信息安全,文本分析,学术资源 数据概述:该数据集由南洋理工大学提供,主要用于垃圾邮件的识别和过滤。主要特征如下: 时间跨度:数据记录的时间范围从2002年到2004年。...
    packageimg
  • 垃圾邮件与非垃圾邮件分类数据集MergedSpam-HamDataset-aslantasserdal

    2025年4月23日   

    垃圾邮件与非垃圾邮件分类数据集MergedSpam-HamDataset-aslantasserdal 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,数据集,文本分类,机器学习,自然语言处理,分类算法,网络安全 数据概述: 该数据集包含来自多个来源的垃圾邮件和非垃圾邮件数据,记录了电子邮件的文本内容和分类标签。主要特征如下:...
    packageimg
  • 虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98

    2025年4月23日   

    虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98 数据来源:互联网公开数据 标签:虚假新闻,数据集,自然语言处理,机器学习,文本分析,信息检索,事实核查,新闻传播 数据概述: 该数据集包含用于虚假新闻检测的文本数据,记录了真实新闻和虚假新闻的文本内容。主要特征如下: 时间跨度:...
    packageimg
  • 数据可视化学习周第一周数据集Week01DataVisualizationonDataset-deepbhatt

    2025年4月23日   

    数据可视化学习周第一周数据集Week01DataVisualizationonDataset-deepbhatt 数据来源:互联网公开数据 标签:数据可视化,数据集,学习资源,教育,统计分析,图形化展示,数据处理,基础教程 数据概述: 该数据集为数据可视化学习课程的第一周内容,旨在帮助学习者掌握数据可视化的基础知识和技能。主要特征如下:...
    packageimg
  • 大型语言模型提示恢复Gemini数据集2023-newtonbaba12345

    2025年4月23日   

    大型语言模型提示恢复Gemini数据集2023-newtonbaba12345 数据来源:互联网公开数据 标签:LLM,提示恢复,Gemini,API,数据集,竞赛,人工智能 数据概述: 本数据集是为LLM(大型语言模型)提示恢复竞赛生成的数据集,使用Gemini...
    packageimg