找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集

    2025年4月20日   

    恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件分类,正常邮件,文本处理,数据预处理,机器学习,文本分析 数据概述:...
    packageimg
  • Cdiscount商品图像分类训练集元数据分割数据集

    2025年4月20日   

    Cdiscount商品图像分类训练集元数据分割数据集 数据来源:互联网公开数据 标签:Cdiscount,商品图像,分类,元数据,训练集,测试集,图像识别,数据集 数据概述:...
    packageimg
  • 多语言情感分析数据集

    2025年4月19日   

    多语言情感分析数据集 数据来源:互联网公开数据 标签:情感分析,自然语言处理,多语言模型,文本分类,LLM生成,数据清洗 数据概述:...
    packageimg
  • 机器学习流程数据集

    2025年4月19日   

    机器学习流程数据集 数据来源:互联网公开数据 标签:机器学习, 数据处理, 特征工程, 模型构建, 模型评估, 数据预处理, 分类, 回归, 异常值处理, 特征选择 数据概述:...
    packageimg
  • 印度银行客户贷款数据集2021

    2025年4月19日   

    印度银行客户贷款数据集2021 数据来源:互联网公开数据 标签:银行贷款,印度,客户信息,信用评分,贷款类型,收入水平,社会联系,信用查询 数据概述:...
    packageimg
  • 竞赛加速-教育数据个人身份信息PII检测与移除Top500数据集

    2025年4月19日   

    竞赛加速-教育数据个人身份信息PII检测与移除Top500数据集 数据来源:互联网公开数据 标签:PII检测,教育数据,竞赛,机器学习,数据加速,模型训练,Kaggle 数据概述: 本数据集“Top...
    packageimg
  • 验证数据集

    2025年4月19日   

    验证数据集 数据来源:互联网公开数据 标签:验证数据, 数据质量, 数据完整性, 数据清洗, 数据分析, 数据验证, 机器学习 数据概述:...
    packageimg
  • 信用卡交易欺诈检测模拟数据集-交易记录-时间序列-2017年

    2025年4月19日   

    信用卡交易欺诈检测模拟数据集-交易记录-时间序列-2017年 数据来源:互联网公开数据 标签:信用卡,交易,欺诈检测,机器学习,时间序列,金融,风险管理,模拟数据 数据概述: 本数据集是基于"可复现的机器学习信用卡欺诈检测-实践手册"(Reproducible Machine Learning for Credit Card Fraud...
    packageimg
  • 自然语言处理数据集-缩略语与表情符号

    2025年4月18日   

    自然语言处理数据集-缩略语与表情符号 数据来源:互联网公开数据 标签:自然语言处理,文本预处理,缩略语,标点符号,表情符号,情感分析,数据清洗,文本挖掘,NLP 数据概述: 本数据集为自然语言处理(NLP)和文本挖掘任务提供了丰富的资源支持,包含多个关键文件,用于文本预处理过程中的数据清洗和特征提取。数据集主要组成部分包括:...
    packageimg
  • 耶鲁大学SParC数据集-上下文语义解析数据集

    2025年4月19日   

    耶鲁大学SParC数据集-上下文语义解析数据集 数据来源:互联网公开数据 标签:自然语言处理,语义解析,文本转SQL,数据集,上下文理解,数据库,机器学习,人工智能 数据概述: SParC(Semantic Parsing in...
    packageimg
  • 细菌分类竞赛训练集含测量误差数据集-2022年2月

    2025年4月19日   

    细菌分类竞赛训练集含测量误差数据集-2022年2月 数据来源:互联网公开数据 标签:细菌分类,机器学习,竞赛数据,测量误差,生物医学,数据分析,时间序列 数据概述: 本数据集是为2022年2月举办的Kaggle“TPS(Tabular Playground Series) Feb...
    packageimg
  • 预处理企业财务风险数据集

    2025年4月19日   

    预处理企业财务风险数据集 数据来源:互联网公开数据 标签:企业财务,风险评估,预处理数据,特征缩放,缺失值处理,杠杆率,违约风险 数据概述: 本数据集包含超过75个财务特征,涵盖了企业的关键财务指标,例如销售额、息税前利润(PBDIT)、净利润(PAT)、总资产等。这些特征经过Min-...
    packageimg
  • UNSW-NB15网络流量数据集

    2025年4月19日   

    UNSW-NB15网络流量数据集 数据来源:互联网公开数据 标签:DDoS攻击,网络流量,网络安全,机器学习,特征工程,威胁检测,攻击分类 数据概述: 本数据集(UNSW-NB15)由澳大利亚网络空间安全中心(ACCS)与全球研究人员合作创建,旨在解决传统数据集无法准确反映现代网络威胁环境的局限性。数据集通过IXIA...
    packageimg
  • 对抗性自然语言推理ANLI数据集

    2025年4月19日   

    对抗性自然语言推理ANLI数据集 数据来源:互联网公开数据 标签:自然语言推理, 对抗性测试, 语言理解, 机器学习, 基准数据集, 文本推理, 深度学习 数据概述: ANLI(Adversarial Natural Language...
    packageimg
  • 特征选择比赛数据集

    2025年4月19日   

    特征选择比赛数据集 数据来源:互联网公开数据 标签:特征选择,机器学习,分类模型,竞赛数据,高维数据,降维,数据理解,数据清洗 数据概述: 本数据集源于COMSYS...
    packageimg
  • AI生成与人类写作检测数据集

    2025年4月19日   

    AI生成与人类写作检测数据集 数据来源:互联网公开数据 标签:AI生成文本,人类写作,文本分类,自然语言处理,NLP,机器学习,生成式AI,数据集 数据概述...
    packageimg
  • 写作过程与质量分析数据集

    2025年4月19日   

    写作过程与质量分析数据集 数据来源:互联网公开数据 标签:文本处理,内存优化,写作质量,特征工程,数据预处理,机器学习,数据分析 数据概述:...
    packageimg
  • 孟加拉语命名实体识别数据集B-NER2023年

    2025年4月18日   

    孟加拉语命名实体识别数据集B-NER2023年 数据来源:互联网公开数据 标签:孟加拉语,命名实体识别,自然语言处理,数据集,基础评估,学术研究 数据概述: 本数据集B-NER收录了大量孟加拉语文本中的命名实体,涵盖了人名、地名、组织名等类别,是目前最大的孟加拉语命名实体数据集。数据集经过精心标注,为孟加拉语自然语言处理研究提供了坚实的基础。...
    packageimg
  • 意大利房价数据集

    2025年4月18日   

    意大利房价数据集 数据来源:互联网公开数据 标签:房地产,意大利,房价,房租,地理分析,预测模型,数据清洗,数据分析 数据概述:...
    packageimg
  • 数据30天机器学习挑战数据集

    2025年4月18日   

    数据30天机器学习挑战数据集 数据来源:互联网公开数据 标签:机器学习,合成数据,保险索赔,竞赛数据,特征工程,模型训练 数据概述:...
    packageimg