找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 数据准备编码数据集

    2025年4月14日   

    数据准备编码数据集 数据来源:互联网公开数据 标签:数据准备,编码,数据清洗,数据预处理,机器学习,人工智能 数据概述: 本数据集提供了经过初步处理、适合进一步编码的数据。数据已经进行了基本的清洗和预处理,包括处理缺失值、异常值以及数据格式的统一,旨在为后续的编码和分析提供一个良好的起点。 数据用途概述:...
    packageimg
  • 动漫详情与分类分析数据集

    2025年4月14日   

    动漫详情与分类分析数据集 数据来源:互联网公开数据 标签:动漫,分类,推荐系统,行业分析,数据清洗,数据整合 数据概述: 本数据集整合了来自MyAnimeList(MAL)和Jikan API的动漫相关信息,包含动漫详情、分类标签及其关联信息。数据集分为四个部分: 1. manga.csv - 包含动漫的基本信息,如标题、类型、评分、上映时间等。 2....
    packageimg
  • 反LGBT网络欺凌文本数据集2022

    2025年4月14日   

    反LGBT网络欺凌文本数据集2022 数据来源:互联网公开数据 标签:LGBT,网络欺凌,文本数据,机器学习,二分类,社交媒体 数据概述:...
    packageimg
  • 阿拉戈斯州坎波阿莱格雷市市政厅工资数据集2021

    2025年4月14日   

    阿拉戈斯州坎波阿莱格雷市市政厅工资数据集2021 数据来源:互联网公开数据 标签:市政厅,工资,公共员工,数据挖掘,网络爬虫,R语言,巴西,阿拉戈斯州 数据概述:...
    packageimg
  • 机器学习模型特征工程实验数据集

    2025年4月14日   

    机器学习模型特征工程实验数据集 数据来源:互联网公开数据 标签:机器学习,特征工程,模型优化,数据集生成,实验研究 数据概述:...
    packageimg
  • 法国驻韩大使馆新闻数据集

    2025年4月14日   

    法国驻韩大使馆新闻数据集 数据来源:互联网公开数据 标签:法国驻韩大使馆,新闻聚合,公开数据,缺失值,历史新闻,韩法关系 数据概述: 本数据集包含法国驻韩大使馆发布的新闻聚合信息,涵盖多个年份的历史新闻记录。数据字段主要包括新闻标题、内容文本、发布时间、相关链接等。由于部分新闻内容已失效(HTTP...
    packageimg
  • 电影推荐系统构建数据集-电影信息与用户互动数据-时间跨度不限

    2025年4月14日   

    电影推荐系统构建数据集-电影信息与用户互动数据-时间跨度不限 数据来源:互联网公开数据 标签:电影,推荐系统,数据清洗,EDA,特征工程,机器学习,用户行为,电影信息,流行度分析,电影评论 数据概述:...
    packageimg
  • 印度尼西亚邮件分类数据集2023

    2025年4月14日   

    印度尼西亚邮件分类数据集2023 数据来源:互联网公开数据 标签:邮件分类,认知服务,Text Analytics,Content Moderator,事件触发,ETL,逻辑应用,Google Drive,Kaggle 数据概述:...
    packageimg
  • CORD19任务1笔记本分析数据集2020-05

    2025年4月14日   

    CORD19任务1笔记本分析数据集2020-05 数据来源:互联网公开数据 标签:CORD19,笔记本分析,文献回顾,数据分析,链接匹配,表格统计 数据概述:...
    packageimg
  • 图书馆用户验证数据集

    2025年4月14日   

    图书馆用户验证数据集 数据来源:互联网公开数据 标签:图书馆,用户验证,数据清理,联系信息,数据整合,用户管理,数据缺失 数据概述:...
    packageimg
  • 文件-测试链接回归测试数据集

    2025年4月14日   

    文件-测试链接回归测试数据集 数据来源:互联网公开数据 标签:软件工程,持续集成,文件测试链接,回归测试,数据挖掘,版本控制,金融行业,代码分析 数据概述:...
    packageimg
  • 塔布阿特市降雨和气温数据集

    2025年4月14日   

    塔布阿特市降雨和气温数据集 数据来源:互联网公开数据 标签:降雨量,气温,塔布阿特,圣保罗州,巴西,气象数据,数据科学 数据概述:...
    packageimg
  • 葡萄牙语文本到SQL查询生成数据集2023

    2025年4月14日   

    葡萄牙语文本到SQL查询生成数据集2023 数据来源:互联网公开数据 标签:葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库 数据概述: 本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本,基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE...
    packageimg
  • GCMS验证数据集

    2025年4月14日   

    GCMS验证数据集 数据来源:互联网公开数据 标签:GCMS,气相色谱质谱联用,数据验证,化学分析,质量控制,实验室检测,标准方法 数据概述:...
    packageimg
  • 宠物收养平台宠物信息及领养预测数据集

    2025年4月14日   

    宠物收养平台宠物信息及领养预测数据集 数据来源:互联网公开数据 标签:宠物,收养,领养预测,动物福利,宠物信息,机器学习,数据分析,分类 数据概述:...
    packageimg
  • 孟加拉语动词理解数据集

    2025年4月14日   

    孟加拉语动词理解数据集 数据来源:互联网公开数据 标签:孟加拉语,动词,词根映射,词性标注,自然语言处理,语境分析,形态学分析 数据概述...
    packageimg
  • 财富500公司IT相关知识项数据集

    2025年4月14日   

    财富500公司IT相关知识项数据集 数据来源:互联网公开数据 标签:IT知识项,财富500,知识管理,数据生成,模型训练,教育培训 数据概述: 本数据集包含100条合成生成的知识项,这些知识项模拟了典型财富500强公司知识库中的内容。数据集于2024年5月28日使用Meta的Llama 3 70b模型通过Perplexity...
    packageimg
  • Goodreads书籍样本数据清洗与整理数据集

    2025年4月14日   

    Goodreads书籍样本数据清洗与整理数据集 数据来源:互联网公开数据 标签:书籍,Goodreads,数据清洗,文本分析,图书推荐,Python,数据整理 数据概述:...
    packageimg
  • PDF数据分析数据集

    2025年4月14日   

    PDF数据分析数据集 数据来源:互联网公开数据 标签:PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取 数据概述: 本数据集包含了一系列PDF文档,以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素,为研究PDF文档的内容和结构提供了基础。 数据用途概述:...
    packageimg
  • LLM提示恢复合成数据集

    2025年4月14日   

    LLM提示恢复合成数据集 数据来源:互联网公开数据 标签:LLM,提示恢复,合成数据,自然语言处理,人工智能,机器学习,数据竞赛 数据概述: 本数据集使用Gemma 7B-IT生成了1000个示例,用于LLM提示恢复竞赛。数据集基于@thedrcat的原始数据集进行扩展,包含两个额外的列:一是Gemma 7B-IT生成的原始输出,二是去除“Sure…...
    packageimg