找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 摩洛哥方言多标签数据集

    2025年4月15日   

    摩洛哥方言多标签数据集 数据来源:互联网公开数据 标签:摩洛哥,方言,多标签数据集,语言分类,情感分析, Offensive语言检测,社交媒体数据 数据概述: 本数据集包含从Facebook抽取的42,000条评论,每条评论均经过仔细标注,涵盖语言分类、情感分析和...
    packageimg
  • 印度尼西亚仇恨言论语言分析数据集

    2025年4月15日   

    印度尼西亚仇恨言论语言分析数据集 数据来源:互联网公开数据 标签:仇恨言论,语言分析,机器学习,文本挖掘,情绪分析,社会影响,数据标注 数据概述:...
    packageimg
  • 印度尼西亚至马来语桑巴斯翻译数据集

    2025年4月15日   

    印度尼西亚至马来语桑巴斯翻译数据集 数据来源:互联网公开数据 标签:翻译,印度尼西亚语,马来语,桑巴斯语,语言学,自然语言处理,多语言数据集 数据概述: 本数据集包含印度尼西亚语句子及其在马来语(桑巴斯方言)中的翻译。数据集来源于公开的GitHub资源,涵盖了广泛的主题和内容,为语言学研究提供了丰富的语料库。 数据用途概述:...
    packageimg
  • 甲状腺腺体数据集

    2025年4月15日   

    甲状腺腺体数据集 数据来源:互联网公开数据 标签:甲状腺,疾病预测,机器学习,数据科学,医学分析,健康数据,特征分析 数据概述:...
    packageimg
  • 社交媒体数据样本

    2025年4月15日   

    社交媒体数据样本 数据来源:互联网公开数据 标签:社交媒体,Instagram,Facebook,TikTok,YouTube,数据清理,文本分析,用户行为,内容分析 数据概述:...
    packageimg
  • 马来西亚房屋价格数据集

    2025年4月15日   

    马来西亚房屋价格数据集 数据来源:互联网公开数据 标签:马来西亚,房屋价格,房地产,数据挖掘,预测分析,数据清洗 数据概述:...
    packageimg
  • 医生专长数据集

    2025年4月15日   

    医生专长数据集 数据来源:互联网公开数据 标签:医生,专长,医疗,预约,在线服务,纽约,印度,数据清洗 数据概述:...
    packageimg
  • 大型语言模型评估增强数据集

    2025年4月15日   

    大型语言模型评估增强数据集 数据来源:互联网公开数据 标签:大型语言模型,评估,安全研究,公平性,偏见,伦理,文化相关性,提示语优化 数据概述: 本数据集是专门用于评估和评估大型语言模型(LLM)的增强版数据集,基于清华大学THU-...
    packageimg
  • ICR-年龄相关疾病识别数据集

    2025年4月15日   

    ICR-年龄相关疾病识别数据集 数据来源:互联网公开数据 标签:年龄相关疾病,生物标志物,医学研究,数据预处理,特征工程,机器学习,模型构建 数据概述: 本数据集源自ICR(Identifying Age-Related Conditions)竞赛,主办方为InVitro Cell Research,...
    packageimg
  • 芝加哥自行车共享系统骑行数据原始数据集-2022年

    2025年4月15日   

    芝加哥自行车共享系统骑行数据原始数据集-2022年 数据来源:互联网公开数据 标签:自行车共享,骑行数据,芝加哥,出行分析,数据挖掘,用户行为,时间序列,Divvy 数据概述:...
    packageimg
  • 有声书平台用户评价数据清洗与分析数据集

    2025年4月15日   

    有声书平台用户评价数据清洗与分析数据集 数据来源:互联网公开数据 标签:有声书,用户评价,数据清洗,SQL,MySQL,用户行为,文本分析,情感分析 数据概述:...
    packageimg
  • 达特游戏练习数据集

    2025年4月15日   

    达特游戏练习数据集 数据来源:互联网公开数据 标签:达特游戏,501规则,练习记录,数据清理,游戏分析 数据概述: 本数据集收录了使用501规则进行练习的达特游戏记录,涵盖2023年3月21日之前的所有完整轮次游戏,数据通过手动记录并使用R语言进行处理,去除了少量不完整的游戏记录(截至2023年3月21日,共去除三局)。 数据用途概述:...
    packageimg
  • 旧金山数据字段概况数据集

    2025年4月15日   

    旧金山数据字段概况数据集 数据来源:互联网公开数据 标签:旧金山,开放数据,数据字段,数据概况,数据可视化,城市数据,数据科学 数据概述:...
    packageimg
  • 德语英语翻译数据集255817样本

    2025年4月15日   

    德语英语翻译数据集255817样本 数据来源:互联网公开数据 标签:德语,英语,翻译,自然语言处理,深度学习,数据预处理,语言模型 数据概述:...
    packageimg
  • 二手车市场价格与车辆信息数据集

    2025年4月15日   

    二手车市场价格与车辆信息数据集 数据来源:互联网公开数据 标签:二手车,汽车,价格,市场,车辆信息,数据清洗,机器学习,回归分析 数据概述: 本数据集包含了公开网站上出售的二手车信息,旨在为数据分析和机器学习实践提供素材。数据涵盖了车辆的各种关键属性,包括车型、燃油类型、发动机信息、变速箱类型、车辆所在地以及售价等。 数据用途概述:...
    packageimg
  • 财务会计数据集

    2025年4月15日   

    财务会计数据集 数据来源:互联网公开数据 标签:财务会计,金融管理,智能财务软件,数据处理,决策支持,财务指标,数据标准化 数据概述:...
    packageimg
  • ExercismR语言练习题代码实战数据集

    2025年4月15日   

    ExercismR语言练习题代码实战数据集 数据来源:互联网公开数据 标签:R语言,编程练习,代码实战,学习资源,开源项目,Exercism,编程,代码 数据概述:...
    packageimg
  • 乌尔都语与旁遮普语合并数据集

    2025年4月15日   

    乌尔都语与旁遮普语合并数据集 数据来源:互联网公开数据 标签:乌尔都语,旁遮普语,双语数据集,词性标注,词形还原,语言处理 数据概述:...
    packageimg
  • 人工智能语言检测软件训练数据集

    2025年4月15日   

    人工智能语言检测软件训练数据集 数据来源:互联网公开数据 标签:人工智能,语言检测,NLP,自然语言处理,开源软件,Naive Bayes算法,数据处理,机器学习 数据概述: 本数据集是用于训练人工智能语言检测软件的数据集合,由资深人工智能工程师Emirhan BULUT开发并公开分享。数据集涵盖了多种语言文本样本,用于训练和优化Naive...
    packageimg
  • 预处理数据集

    2025年4月15日   

    预处理数据集 数据来源:互联网公开数据 标签:数据预处理,机器学习,Transformer模型,实验设置,模型优化 数据概述: 本数据集包含了经过预处理的数据文件,这些数据已经准备好用于训练和测试Transformer模型。预处理包括数据清洗、特征提取和格式转换等步骤,以确保数据的质量和适用性。 数据用途概述:...
    packageimg