找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 韩国语翻译数据集

    2025年4月15日   

    韩国语翻译数据集 数据来源:互联网公开数据 标签:韩国语,翻译,NLP模型,机器翻译,自然语言处理,DeepL API,英译韩,语言学习 数据概述: 本数据集提供了一组从英语翻译成韩国语的文本数据,适用于GPT4ALL、Dolly、Vicuna等NLP模型的训练与研究。数据集由nlpai-lab团队整理,通过DeepL...
    packageimg
  • 视频帧排序挑战数据集

    2025年4月15日   

    视频帧排序挑战数据集 数据来源:互联网公开数据 标签:视频帧,车辆交通,计算机视觉,图像处理,排序算法,时间序列,逻辑推理 数据概述: 本数据集来源于一段车辆交通视频的100帧图像,视频内容为车辆从右向左移动的场景。数据集中的帧图像被打乱顺序,文件名随机分配。数据集包含以下内容: 1. 随机化图像文件夹:包含被打乱顺序的帧图像。 2....
    packageimg
  • 垃圾文本分类数据集

    2025年4月15日   

    垃圾文本分类数据集 数据来源:互联网公开数据 标签:垃圾文本,文本分类,自然语言处理,市场调研,质量控制,机器学习 数据概述:...
    packageimg
  • 波兰图书评论数据集

    2025年4月15日   

    波兰图书评论数据集 数据来源:互联网公开数据 标签:图书评论,波兰,用户反馈,情感分析,文本数据,自然语言处理 数据概述: 本数据集来源于波兰最大的在线图书论坛...
    packageimg
  • 印度拼图毒评强度与严重性增强数据集1963-2021

    2025年4月15日   

    印度拼图毒评强度与严重性增强数据集1963-2021 数据来源:互联网公开数据 标签:文本增强,毒评检测,数据增强,自然语言处理,情感分析,机器学习,数据分析 数据概述: 本数据集用于增强初始的印度拼图(Jigsaw)数据集,特别针对毒评强度与严重性的分析。数据集来源于Davidson等人在2017年发表的《Automated Hate Speech...
    packageimg
  • 世界新闻热点文章文本情感分析数据集2023

    2025年4月15日   

    世界新闻热点文章文本情感分析数据集2023 数据来源:互联网公开数据 标签:世界新闻,情感分析,Reddit,新闻文本,自然语言处理,数据清洗,实体识别 数据概述: 本数据集包含了从Reddit的r/worldnews板块抓取的热门文章文本,时间范围截至2023年。数据集通过PushShift...
    packageimg
  • 热流数据集特征补全技术应用

    2025年4月15日   

    热流数据集特征补全技术应用 数据来源:互联网公开数据 标签:热流,特征补全,数据分析,建模,工程应用,科学研究 数据概述: 本数据集包含热流测量数据,并应用了前沿的特征补全技术,确保数据集的完整性和准确性。数据涵盖了不同条件和环境下的热流观测值,为热流分析和建模提供了可靠的基础。 数据用途概述:...
    packageimg
  • 德国商业分析自由职业者数据集

    2025年4月15日   

    德国商业分析自由职业者数据集 数据来源:互联网公开数据 标签:商业分析,自由职业者,德国,数据清理,探索性数据分析,自然语言处理,聚类,机器学习 数据概述:...
    packageimg
  • 综合医院数据集

    2025年4月15日   

    综合医院数据集 数据来源:互联网公开数据 标签:医院管理,医疗数据,健康分析,初级数据科学,教育培训,患者信息,医疗资源分配 数据概述:...
    packageimg
  • 罗马-乌尔都语情感分析标注数据集

    2025年4月15日   

    罗马-乌尔都语情感分析标注数据集 数据来源:互联网公开数据 标签:罗马乌尔都语,情感分析,文本标注,自然语言处理,机器学习 数据概述: 本数据集是Kaggle上已有的“Roman Urdu Sentiment Analysis”数据集的清理版本,由S....
    packageimg
  • 印度Flipkart平台10000至20000元价格区间手机数据集-2022年12月

    2025年4月15日   

    印度Flipkart平台10000至20000元价格区间手机数据集-2022年12月 数据来源:互联网公开数据 标签:Flipkart,手机,电商平台,价格区间,数据清洗,数据分析,印度市场 数据概述:...
    packageimg
  • 印度手机市场分析数据集1963-2021

    2025年4月15日   

    印度手机市场分析数据集1963-2021 数据来源:互联网公开数据 标签:手机市场,印度,数据清理,市场分析,操作系统,价格分析,性能评估 数据概述: 本数据集包含了从印度最大电子产品发现网站91...
    packageimg
  • 披萨销售数据分析集

    2025年4月15日   

    披萨销售数据分析集 数据来源:互联网公开数据 标签:SQL分析,披萨销售,订单详情,客户偏好,数据练习,营收分析,客户行为 数据概述: 本数据集专为SQL分析练习设计,包含详细的披萨销售、订单和客户偏好数据。数据集涵盖了订单数量、披萨类型及其组成等关键信息,适用于练习SQL查询、进行收入分析以及理解披萨行业的客户行为。 数据用途概述:...
    packageimg
  • 美国UCI成年人收入普查数据集

    2025年4月15日   

    美国UCI成年人收入普查数据集 数据来源:互联网公开数据 标签:收入预测,人口普查,社会经济分析,分类任务,数据挖掘,机器学习,特征工程 数据概述:...
    packageimg
  • 宝可梦全图鉴第9世代数据集

    2025年4月15日   

    宝可梦全图鉴第9世代数据集 数据来源:互联网公开数据 标签:宝可梦,游戏数据,分类分析,聚类分析,预测建模,数据清洗,特征工程 数据概述:...
    packageimg
  • 缺失值处理数据集

    2025年4月15日   

    缺失值处理数据集 数据来源:互联网公开数据 标签:缺失值,数据清洗,机器学习,数据预处理,数据分析,数据质量 数据概述: 本数据集旨在展示和处理现实世界数据集中常见的缺失值问题。缺失值通常被标识为NULL或NaN值。数据集中包含不同类型的数据特征,并故意引入了不同比例和模式的缺失值,以便用户学习和实践缺失值处理技巧。 数据用途概述:...
    packageimg
  • 数据1943谋杀案购买与居住数据集

    2025年4月15日   

    数据1943谋杀案购买与居住数据集 数据来源:互联网公开数据 标签:谋杀案,历史案例,购买记录,居住地址,数据分析,SQL查询,教育练习,犯罪调查 数据概述:...
    packageimg
  • eBay商品评论情感分析数据集

    2025年4月15日   

    eBay商品评论情感分析数据集 数据来源:互联网公开数据 标签:eBay,商品评论,情感分析,文本数据,评分,机器学习,自然语言处理 数据概述: 本数据集由作者通过Python网络爬虫脚本从eBay网站抓取,旨在用于情感分析模型的构建。数据集包含两个文件:...
    packageimg
  • 合成引言数据集

    2025年4月15日   

    合成引言数据集 数据来源:互联网公开数据 标签:合成文本,机器学习,生成模型,自然语言处理,分类任务,引言生成,深度学习 数据概述: 本数据集包含用于生成分类任务的小型复杂数据集,适用于大语言模型(LLM)生成人类风格引言的研究和验证。数据集包括500条真实引言(490条训练,10条验证)以及通过mistral-...
    packageimg
  • 德里维里物流商业数据集2021

    2025年4月15日   

    德里维里物流商业数据集2021 数据来源:互联网公开数据 标签:德里维里,物流,商业分析,数据工程,数据清洗,预测模型,商业智能 数据概述: 本数据集包含了德里维里公司在2021财年期间的物流和商业运营相关数据。数据涵盖了德里维里物流基础设施、运营效率、技术能力等多方面的信息,为理解其业务运作提供了全面的数据基础。 数据用途概述:...
    packageimg