找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 写作训练数据集

    2025年4月14日   

    写作训练数据集 数据来源:互联网公开数据 标签:写作训练,学生作文,人工智能生成文本,语言模型,竞赛数据,文本检测 数据概述: 本数据集包含约1398篇作文,其中包括学生撰写的作品和大型语言模型(LLM)生成的文本。该数据集专为“LLM -...
    packageimg
  • 印尼苏丹语推特情绪分类数据集2021

    2025年4月14日   

    印尼苏丹语推特情绪分类数据集2021 数据来源:互联网公开数据 标签:苏丹语,推特,情绪分类,自然语言处理,计算机科学,数据集 数据概述: 本数据集包含2510条推特,这些推特使用印尼的第二大本地语言——苏丹语。数据集用于情绪分类研究,旨在帮助理解苏丹语推特中的情绪表达。数据集经过预处理,包括小写转换、停用词去除和词干提取。 数据用途概述:...
    packageimg
  • 新型冠状病毒患者特征数据分析集2020

    2025年4月14日   

    新型冠状病毒患者特征数据分析集2020 数据来源:互联网公开数据 标签:新型冠状病毒,患者特征,风险群体,感染率,并发症,死亡率,机器学习,数据清洗,特征工程 数据概述:...
    packageimg
  • 房屋价格预测清理数据集

    2025年4月14日   

    房屋价格预测清理数据集 数据来源:互联网公开数据 标签:房屋价格,预测,数据清理,机器学习,建模,特征工程,转换 数据概述:...
    packageimg
  • Goodreads读书记录数据清洗与分析实践数据集-2024年

    2025年4月14日   

    Goodreads读书记录数据清洗与分析实践数据集-2024年 数据来源:互联网公开数据 标签:Goodreads,图书,阅读记录,数据清洗,数据分析,缺失值,异常值,数据科学,CSV 数据概述:...
    packageimg
  • 澳大利亚航空事故记录数据集

    2025年4月14日   

    澳大利亚航空事故记录数据集 数据来源:互联网公开数据 标签:航空事故,澳大利亚,飞行安全,数据收集,数据清洗,航空业,事故分析 数据概述: 本数据集包含了澳大利亚境内涉及VH注册和其他非VH注册航空器的事故记录,数据采集日期为2024年1月26日,来源为https://aviation-...
    packageimg
  • 热连轧带钢SS400等级F1最大轧制力数据集

    2025年4月14日   

    热连轧带钢SS400等级F1最大轧制力数据集 数据来源:互联网公开数据 标签:热连轧带钢,SS400,F1,轧制力,数据集,机器学习,数据分析,数据准备,异常值 数据概述:...
    packageimg
  • 温哥华房价数据集

    2025年4月14日   

    温哥华房价数据集 数据来源:互联网公开数据 标签:温哥华,房价,时间序列,房地产,教育,数据分析,机器学习 数据概述:...
    packageimg
  • 日期CSV数据集

    2025年4月14日   

    日期CSV数据集 数据来源:互联网公开数据 标签:日期,时间序列,数据清洗,数据分析,商业报告,学术研究 数据概述: 本数据集包含自1900年1月1日至2099年12月31日的日期记录,格式为CSV文件。数据涵盖了每一天的详细信息,包括年、月、日、星期等关键要素,适用于需要日期信息的各种应用场景。 数据用途概述:...
    packageimg
  • 书店书籍数据集

    2025年4月14日   

    书店书籍数据集 数据来源:互联网公开数据 标签:书店,书籍,作者,评分,语言,页面数,商业分析,数据基础 数据概述: 本数据集收录了某书店的部分书籍信息,提供了每本书的基础属性,包括页数、作者姓名、评分信息和语言等关键字段。数据结构简单但信息全面,能够为了解这些书籍的基本特征提供有力支持。 数据用途概述: 该数据集适用于多种场景,包括但不限于: 1....
    packageimg
  • 十人语音数据集

    2025年4月14日   

    十人语音数据集 数据来源:互联网公开数据 标签:语音识别,机器学习,信号处理,语音数据,音频分析,人声识别,语音特征 数据概述: 本数据集包含十位不同人员的语音样本,用于语音识别和信号处理的研究。数据集涵盖了多种语音特征,适用于机器学习算法的训练和测试,为开发高效的语音识别系统提供了基础数据支持。 数据用途概述:...
    packageimg
  • KaggleDon-tOverfitII挑战赛数据集-过拟合问题研究-历史数据集

    2025年4月14日   

    KaggleDon-tOverfitII挑战赛数据集-过拟合问题研究-历史数据集 数据来源:互联网公开数据 标签:机器学习,竞赛数据,过拟合,二元分类,特征工程,数据分析,Kaggle 数据概述: 本数据集源于Kaggle Don't Overfit II...
    packageimg
  • JUIndoorLoc室内WiFi指纹定位数据集

    2025年4月14日   

    JUIndoorLoc室内WiFi指纹定位数据集 数据来源:互联网公开数据 标签:WiFi指纹,室内定位,RSS,机器学习,Jadavpur大学,定位技术,无线通信,Android设备,环境感知 数据概述:...
    packageimg
  • 信用数据探索分析数据集

    2025年4月14日   

    信用数据探索分析数据集 数据来源:互联网公开数据 标签:信用数据,金融分析,数据可视化,数据清洗,机器学习,信用风险评估 数据概述...
    packageimg
  • 零售客户交易数据集-学习Pandas基础

    2025年4月14日   

    零售客户交易数据集-学习Pandas基础 数据来源:互联网公开数据 标签:零售,客户数据,交易记录,Pandas,数据分析,学习资源,数据处理 数据概述:...
    packageimg
  • 螃蟹年龄合成训练数据集

    2025年4月14日   

    螃蟹年龄合成训练数据集 数据来源:互联网公开数据 标签:螃蟹,年龄预测,合成数据,机器学习,训练集,特征工程,时间序列 数据概述: 本数据集是为 Playground Series Season3 Episode16 的训练任务额外提供的合成数据。数据由“Make Synthetic Crab Age...
    packageimg
  • Python生成的模拟用户信息数据集

    2025年4月14日   

    Python生成的模拟用户信息数据集 数据来源:互联网公开数据 数据来源: 本数据集由 Python 中的 mimesis 模块人工生成,旨在为数据分析教学、建模实验和特征工程训练提供支持。该数据为合成数据,不涉及真实个人或敏感信息,可安全用于研究与教学场景。 数据内容:...
    packageimg
  • 费拉德桑塔纳议员出勤数据集

    2025年4月14日   

    费拉德桑塔纳议员出勤数据集 数据来源:互联网公开数据 标签:议员出勤,费拉德桑塔纳,政府透明度,公共服务,数据分析,电子政务 数据概述:...
    packageimg
  • 未清洗天气数据集

    2025年4月14日   

    未清洗天气数据集 数据来源:互联网公开数据 标签:天气数据,2015年,航班延误预测,数据清洗,数据合并 数据概述: 本数据集包含可用于清洗和与2015年航班延误预测挑战合并的天气数据。数据涵盖了多个机场的天气状况,包括温度、湿度、风速、降水量等关键指标,旨在为航班延误分析提供天气方面的支持。 数据用途概述:...
    packageimg
  • 德语冠词数据集

    2025年4月14日   

    德语冠词数据集 数据来源:互联网公开数据 标签:德语,冠词,机器学习,自然语言处理,分类问题,神经网络,词性标注 数据概述: 本数据集基于一个公开的德语-英语词典,包含大量德语单词及其对应的冠词信息。数据集适合用于训练神经网络解决分类问题,特别是德语冠词预测任务。数据涵盖了丰富的德语单词及其冠词信息,为自然语言处理和机器学习提供了宝贵的数据资源。...
    packageimg