找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 影院电影放映数据集

    2025年4月14日   

    影院电影放映数据集 数据来源:互联网公开数据 标签:电影放映,影院,电影,评分,数据分析,数据仓库,雪flake模式 数据概述:...
    packageimg
  • Reddit多任务NLP数据集

    2025年4月14日   

    Reddit多任务NLP数据集 数据来源:互联网公开数据 标签:Reddit,自杀检测,情感分析,多任务学习,自然语言处理 数据概述:...
    packageimg
  • 比特币推文情感分析数据集

    2025年4月14日   

    比特币推文情感分析数据集 数据来源:互联网公开数据 标签:比特币,推文,情感分析,自然语言处理,机器学习,LLM,数据清洗 数据概述:...
    packageimg
  • 谷歌高级数据分析项目-人力资源部门预测模型数据集

    2025年4月14日   

    谷歌高级数据分析项目-人力资源部门预测模型数据集 数据来源:互联网公开数据 标签:员工满意度,人力资源,数据预测,数据清洗,探索性数据分析,数据可视化,模型构建,Python 数据概述:...
    packageimg
  • 不适当词汇分类数据集

    2025年4月14日   

    不适当词汇分类数据集 数据来源:互联网公开数据 标签:词汇分类,情感分析,不适当词汇,自然语言处理,英语,Singlish 数据概述: 本数据集包含被分类为正面或负面的词汇列表,所有收录的词汇已经过预处理。数据集中每个词汇附带有情感值,用以描述该词汇是否为不适当的。数据集中的词汇包括英语和Singlish两种语言,为研究和分析词汇情感提供了双语基础。...
    packageimg
  • 泰坦尼克预测比赛数据缺失值填充数据集-2022年8月

    2025年4月14日   

    泰坦尼克预测比赛数据缺失值填充数据集-2022年8月 数据来源:互联网公开数据 标签:泰坦尼克,预测,机器学习,数据填充,缺失值,XGBoost,迭代填充,竞赛数据集 数据概述: 本数据集为2022年8月Kaggle泰坦尼克预测比赛的缺失值填充数据集。 采用基于XGBoost的迭代填充方法对原始数据中的缺失值进行了处理。...
    packageimg
  • 消息情感极性预测数据集

    2025年4月14日   

    消息情感极性预测数据集 数据来源:互联网公开数据 标签:消息分析,情感预测,机器学习,文本挖掘,自然语言处理,极性分析 数据概述:...
    packageimg
  • Piramal黑客马拉松问题类别分类数据集

    2025年4月14日   

    Piramal黑客马拉松问题类别分类数据集 数据来源:互联网公开数据 标签:黑客马拉松,问题分类,数据处理,数据清洗,特征工程,机器学习,分类分析 数据概述:...
    packageimg
  • 机器学习奥林匹克竞赛-葡萄牙语有毒语言检测扩展数据集

    2025年4月14日   

    机器学习奥林匹克竞赛-葡萄牙语有毒语言检测扩展数据集 数据来源:互联网公开数据 标签:机器学习,自然语言处理,文本分类,有毒语言,葡萄牙语,社交媒体,情感分析,文本清洗 数据概述:...
    packageimg
  • 印度初创企业数据集电影评论预测数据集

    2025年4月14日   

    印度初创企业数据集电影评论预测数据集 数据来源:互联网公开数据 标签:电影评论,非电影评论,分类预测,文本分析,数据清洗,用户体验,伦理审核 数据概述:...
    packageimg
  • 产品成本分析数据集

    2025年4月14日   

    产品成本分析数据集 数据来源:互联网公开数据 标签:产品成本,异常值检测,数据清洗,企业报告,成本分析,时间序列,行业洞察 数据概述:...
    packageimg
  • 南美洲国家环境监测数据示例数据集

    2025年4月14日   

    南美洲国家环境监测数据示例数据集 数据来源:互联网公开数据 标签:环境监测,南美洲,温度,湿度,PM10,示例数据,随机生成 数据概述: 本数据集是一个仅用于示例的演示数据集,其中所有字段均使用随机生成的数值。数据集模拟了南美洲部分国家的环境监测数据,包含五个关键字段。 数据用途概述: 该数据集主要用于演示和教学,展示了环境监测数据的基本结构和特征。...
    packageimg
  • 量子决策模拟数据集1963-2021

    2025年4月14日   

    量子决策模拟数据集1963-2021 数据来源:互联网公开数据 标签:量子计算,决策模拟,量子态,环境变量,量子纠缠,概率预测,机器学习 数据概述: 本数据集是一个合成的量子决策模拟数据集,旨在探索量子态、环境变量和决策过程在理论或模拟环境中的相互作用。该数据集不是基于真实世界数据生成的,而是为了反映受控实验环境中可能的结果而创建的。...
    packageimg
  • 菲律宾短信数据集2022年9月29日至今

    2025年4月14日   

    菲律宾短信数据集2022年9月29日至今 数据来源:互联网公开数据 标签:短信,垃圾短信,广告,政府公告,通知,验证码,时间戳,数据标注 数据概述:...
    packageimg
  • 清洁化水产养殖塘水质数据集2023

    2025年4月14日   

    清洁化水产养殖塘水质数据集2023 数据来源:互联网公开数据 标签:水产养殖,水质监测,时间序列,数据清理,预测分析,模型构建,实验数据 数据概述:...
    packageimg
  • 安全离线检索增强系统数据集

    2025年4月14日   

    安全离线检索增强系统数据集 数据来源:互联网公开数据 标签:离线RAG系统,数据隐私,大语言模型,开源技术,嵌入创建,聊天检索,MIT许可证 数据概述:...
    packageimg
  • 用户订阅虚拟数据集1963-2021

    2025年4月14日   

    用户订阅虚拟数据集1963-2021 数据来源:互联网公开数据 标签:用户订阅,虚拟数据,学习数据,用户特征,订阅状态,用户信息,数据可视化,模型构建 数据概述:...
    packageimg
  • 孟加拉数字与文字数据集

    2025年4月14日   

    孟加拉数字与文字数据集 数据来源:互联网公开数据 标签:孟加拉语,数字,文字转换,自然语言处理,机器学习,初学者 数据概述:...
    packageimg
  • 医疗信息提取数据集

    2025年4月14日   

    医疗信息提取数据集 数据来源:互联网公开数据 标签:医疗信息,关系提取,PubMed,治疗关系,因果关系,自然语言处理,众包标注,医学研究 数据概述:...
    packageimg
  • 西雅图建筑能耗清理数据集

    2025年4月14日   

    西雅图建筑能耗清理数据集 数据来源:互联网公开数据 标签:西雅图,建筑能耗,机器学习,数据清理,线性模型,非线性模型,教育培训 数据概述: 本数据集由西雅图市提供,包含西雅图市建筑的能耗记录,旨在用于机器学习工程师培训课程。数据经过清理和预处理,适用于线性和非线性模型的对比分析,为模型训练提供了可靠的基础数据。 数据用途概述:...
    packageimg