找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 确定代词消解数据集

    2025年4月15日   

    确定代词消解数据集 数据来源:互联网公开数据 标签:确定代词消解,代词,自然语言处理,消解任务,EMNLP,谷歌数据集,GAP 数据概述:...
    packageimg
  • 文森特-梵高艺术品数据集

    2025年4月15日   

    文森特-梵高艺术品数据集 数据来源:互联网公开数据 标签:梵高,艺术品,欧洲文化遗产,图像识别,数据清洗,数据提取 数据概述: 本数据集包含了由欧洲文化遗产(Europeana)提供的文森特·梵高的所有艺术品记录。数据集通过Versatile Data...
    packageimg
  • 标准时间序列数据集

    2025年4月15日   

    标准时间序列数据集 数据来源:互联网公开数据 标签:时间序列,数据分析,学习资料,数据清洗,标准化 数据概述: 本数据集包含来自不同来源的标准时间序列数据,涵盖多个领域和应用场景。数据集中的每一文件均包含一个表示日期的列,使得通用程序可以方便地进行处理。这些数据经过清洗和标准化,确保了数据质量的一致性和可靠性。 数据用途概述:...
    packageimg
  • 统计实验用数据集

    2025年4月15日   

    统计实验用数据集 数据来源:互联网公开数据 标签:统计学,实验数据,教学资料,数据分析,练习题 数据概述: 本数据集主要用于统计实验和分析,包含多种格式的文件,如.txt和.csv。每个文件均会注明其信息来源,确保数据的准确性和可追溯性。数据集内容丰富,涵盖了统计学中的各类实验所需的数据集。 数据用途概述:...
    packageimg
  • 纽约中央公园天气数据集

    2025年4月15日   

    纽约中央公园天气数据集 数据来源:互联网公开数据 标签:天气数据,纽约,中央公园,小时级,日级,月级,数据清洗,可视化 数据概述...
    packageimg
  • 西门子可靠人工智能挑战赛-安全关键型分类数据集

    2025年4月15日   

    西门子可靠人工智能挑战赛-安全关键型分类数据集 数据来源:互联网公开数据 标签:人工智能,机器学习,安全,分类,概率,风险评估,交通信号灯,西门子,挑战赛 数据概述:...
    packageimg
  • 泰坦尼克号机器学习灾难数据集

    2025年4月15日   

    泰坦尼克号机器学习灾难数据集 数据来源:互联网公开数据 标签:泰坦尼克号,机器学习,数据集,灾难分析,生存预测,乘客信息,分类模型 数据概述:...
    packageimg
  • NLP数据增强工具库离线数据集1-0版数据集

    2025年4月15日   

    NLP数据增强工具库离线数据集1-0版数据集 数据来源:互联网公开数据 标签:NLP,文本增强,数据扩充,机器学习,自然语言处理,文本生成,数据集 数据概述:...
    packageimg
  • 电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限

    2025年4月15日   

    电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限 数据来源:互联网公开数据 标签:电影,TMDB,电影数据,NLP,自然语言处理,文本分析,情感分析,数据预处理,文本清洗,机器学习 数据概述: 本数据集包含了TMDB(The Movie...
    packageimg
  • 网络欺凌毒性文本分类数据集

    2025年4月15日   

    网络欺凌毒性文本分类数据集 数据来源:互联网公开数据 标签:网络欺凌,毒性文本,文本分类,自然语言处理,情感分析,内容安全,数据集 数据概述:...
    packageimg
  • 机器设备预测性维护故障诊断数据集

    2025年4月15日   

    机器设备预测性维护故障诊断数据集 数据来源:互联网公开数据 标签:机器设备,预测性维护,故障诊断,工业,时间序列,机器学习,故障类型 数据概述: 本数据集为合成数据集,模拟了工业环境中机器设备预测性维护的场景。数据集包含10,000个数据点,每个数据点对应一个机器设备状态的快照,共有14个特征。 特征包括: UID:唯一标识符,范围从1到10000。...
    packageimg
  • 棒球大联盟球员入场曲数据集

    2025年4月15日   

    棒球大联盟球员入场曲数据集 数据来源:互联网公开数据 标签:棒球大联盟,球员,入场曲,音乐,数据分析,数据可视化,MySQL,Tableau 数据概述:...
    packageimg
  • DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月

    2025年4月15日   

    DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月 数据来源:互联网公开数据 标签:人工智能,AI,ChatGPT,DeepSeek,性能对比,用户行为,时间序列,数据分析,机器学习,自然语言处理 数据概述: 本数据集模拟生成了2023年7月至2025年2月期间,ChatGPT (GPT-4-turbo) 和...
    packageimg
  • 社交媒体侮辱言论数据集

    2025年4月15日   

    社交媒体侮辱言论数据集 数据来源:互联网公开数据 标签:社交媒体,侮辱言论,文本分析,自然语言处理,情感分析,评论文本 数据概述:...
    packageimg
  • JaneStreet金融市场特征缺失数据补充与研究数据集

    2025年4月15日   

    JaneStreet金融市场特征缺失数据补充与研究数据集 数据来源:互联网公开数据 标签:金融市场,特征工程,缺失数据,时间序列,机器学习,交易,数据分析,模型训练 数据概述: 本数据集旨在补充Jane...
    packageimg
  • IS463课程应用数据科学的学生们基于Kaggle平台上的公开数据集

    2025年4月15日   

    IS463课程应用数据科学的学生们基于Kaggle平台上的公开数据集 数据来源:互联网公开数据 标签:IS463,数据科学,应用数据科学,Kaggle数据库,项目数据 数据概述:...
    packageimg
  • 样本文件数据集

    2025年4月15日   

    样本文件数据集 数据来源:互联网公开数据 标签:样本文件,数据收集,时间序列,数据分析,数据科学,社区分享 数据概述:...
    packageimg
  • 手机评论数据集

    2025年4月15日   

    手机评论数据集 数据来源:互联网公开数据 标签:手机评论,情感分析,文本数据,评分系统,自然语言处理,数据清洗,机器学习 数据概述: 本数据集包含手机评论的原始数据,覆盖了从旧款到新款手机的用户反馈,每条评论均配有1到5星的评分。数据集以原始形式呈现,包含缺失值、异常值以及重复数据。这些原始数据为后续的数据处理和分析提供了基础。 数据用途概述:...
    packageimg
  • 数据40000次硬币投掷数据集

    2025年4月15日   

    数据40000次硬币投掷数据集 数据来源:互联网公开数据 标签:硬币投掷,统计学,假设检验,偏差,置信区间,样本,偏见,统计分析 数据概述: 本数据集包含40000次硬币投掷的原始数据,记录了每次投掷前硬币朝上的面。数据集旨在提供一个真实的硬币投掷实验结果,用于统计学分析。 数据用途概述:...
    packageimg
  • 印度议员数据集

    2025年4月15日   

    印度议员数据集 数据来源:互联网公开数据 标签:印度议员,出生日期,数据爬虫,数据清洗,公开数据集 数据概述: 本数据集包含两个文件。CSV文件列出了所有在任的印度议员,主要用于通过API查找其出生日期。数据集中移除了Neil...
    packageimg