找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 评分网站争议性评论数据集

    2025年4月17日   

    评分网站争议性评论数据集 数据来源:互联网公开数据 标签:评分网站,用户评论,争议分析,电影,视频游戏,机器学习,数据清洗 数据概述:...
    packageimg
  • 孟加拉语维基百科数据集

    2025年4月17日   

    孟加拉语维基百科数据集 数据来源:互联网公开数据 标签:孟加拉语,维基百科,文本数据,自然语言处理,文本挖掘,机器学习,语料库 数据概述:...
    packageimg
  • 越南文本摘要数据集

    2025年4月17日   

    越南文本摘要数据集 数据来源:互联网公开数据 标签:越南语,文本摘要,长摘要,新闻媒体,数据科学,自然语言处理 数据概述:...
    packageimg
  • IMDB电影评论未标注数据集

    2025年4月17日   

    IMDB电影评论未标注数据集 数据来源:互联网公开数据 标签:电影评论,未标注数据,情感分析,自然语言处理,分类算法,斯坦福大学 数据概述: 本数据集包含IMDB电影评论的未标注内容,来源于斯坦福大学公开数据集。数据集为一个简单的n x 2维度结构,包含两列:评论内容和情感(未标注)。该数据集适用于构建和测试电影评论的情感分类模型。 数据用途概述:...
    packageimg
  • AI文本检测数据预处理数据集

    2025年4月17日   

    AI文本检测数据预处理数据集 数据来源:互联网公开数据 标签:AI文本检测,自然语言处理,文本分类,数据预处理,机器学习,特征工程,文本清洗 数据概述: 本数据集是原始AI文本检测数据集的预处理版本,原始数据来源于Kaggle平台(https://www.kaggle.com/datasets/thedrcat/daigt-v2-train-...
    packageimg
  • 人类健康相关基因表达外部原始数据-用于DNA连接分析研究

    2025年4月17日   

    人类健康相关基因表达外部原始数据-用于DNA连接分析研究 数据来源:互联网公开数据 标签:基因表达, DNA连接, sEH, 原始数据, 基因组学, 生物信息学, 转录组学, 数据处理 数据概述: 本数据集包含了sEH外部数据的原始数据,这些数据直接来源于相关研究论文的补充数据(Suppplement...
    packageimg
  • 虚假新闻检测数据集-2022

    2025年4月17日   

    虚假新闻检测数据集-2022 数据来源:互联网公开数据 标签:虚假新闻,新闻检测,媒体分析,数据集,信息验证,传播学,社会研究 数据概述:...
    packageimg
  • 合成大数据集异常检测

    2025年4月17日   

    合成大数据集异常检测 数据来源:互联网公开数据 标签:异常检测,合成数据,收入分析,职业信息,质量保证,数据清洗,机器学习,算法评估 数据概述:...
    packageimg
  • 数据科学家职位评估数据集

    2025年4月17日   

    数据科学家职位评估数据集 数据来源:互联网公开数据 标签:数据科学,职位评估,分类变量,数值变量,目标变量,预测分析,缺失值处理 数据概述...
    packageimg
  • 古典藏文-英文翻译数据集

    2025年4月17日   

    古典藏文-英文翻译数据集 数据来源:互联网公开数据 标签:古典藏文,英文翻译,机器翻译,语料库,语言学研究,MT模型训练 数据概述: 本数据集包含古典藏文句子及其对应的英文翻译,每对数据由古典藏文句子和其英文翻译组成。数据集中的文本来源于Lotsawa...
    packageimg
  • 文本蕴含数据集1963-2021

    2025年4月16日   

    文本蕴含数据集1963-2021 数据来源:互联网公开数据 标签:文本蕴含,自然语言理解,机器学习,数据标注,训练数据,测试数据,验证数据 数据概述:...
    packageimg
  • 泰坦尼克号百万乘客扩展数据集1912

    2025年4月16日   

    泰坦尼克号百万乘客扩展数据集1912 数据来源:互联网公开数据 标签:泰坦尼克号,乘客数据,生存预测,机器学习,数据可视化,数据清理,深度学习 数据概述:...
    packageimg
  • CICIDS2017网络安全入侵检测数据集2017

    2025年4月16日   

    CICIDS2017网络安全入侵检测数据集2017 数据来源:互联网公开数据 标签:网络安全,入侵检测,分类,机器学习,数据预处理 数据概述: 本数据集是CICIDS2017数据集的预处理版本,适用于二分类和多分类任务。数据集包含多种网络攻击类型的网络流量记录,经过预处理后,这些记录可用于构建和评估入侵检测模型。 数据用途概述:...
    packageimg
  • 物联网网络入侵检测数据集

    2025年4月16日   

    物联网网络入侵检测数据集 数据来源:互联网公开数据 标签:物联网,网络安全,入侵检测,网络攻击,数据预处理,不平衡数据,SMOTE技术 数据概述...
    packageimg
  • 优步2014-2015年数据分析数据集

    2025年4月16日   

    优步2014-2015年数据分析数据集 数据来源:互联网公开数据 标签:优步,出行数据,时间序列,地理分布,数据分析,数据清洗,预测建模,数据预处理 数据概述:...
    packageimg
  • 深度伪造检测数据集

    2025年4月16日   

    深度伪造检测数据集 数据来源:互联网公开数据 标签:深度伪造检测,人脸识别,图像数据,视频处理,机器学习,计算机视觉,数据集 数据概述: 本数据集包含来自Deepfake...
    packageimg
  • 算法实现数据集

    2025年4月16日   

    算法实现数据集 数据来源:互联网公开数据 标签:算法,编程语言,开源项目,代码实现,技术学习,算法比较,性能分析,编程教育,技术资源 数据概述: 本数据集收录了来自GitHub The...
    packageimg
  • Fitbit用户活动与健康数据清洗整理数据集

    2025年4月15日   

    Fitbit用户活动与健康数据清洗整理数据集 数据来源:互联网公开数据 标签:Fitbit, 健身追踪, 活动数据, 健康数据, 用户行为, 数据清洗, 数据分析, 运动, 睡眠 数据概述:...
    packageimg
  • 多语言毒性评论检测数据集

    2025年4月15日   

    多语言毒性评论检测数据集 数据来源:互联网公开数据 标签:毒性评论,多语言,自然语言处理,机器学习,文本分类,跨语言学习 数据概述:...
    packageimg
  • 数据30天机器学习数据集

    2025年4月15日   

    数据30天机器学习数据集 数据来源:互联网公开数据 标签:机器学习,特征编码,回归方法,数据预处理,数据融合,模型优化,数据科学 数据概述:...
    packageimg