找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 贷款申请回归分析数据集

    2025年4月14日   

    贷款申请回归分析数据集 数据来源:互联网公开数据 标签:贷款申请,回归分析,数据清洗,数据编码,金融分析,信用评估 数据概述: 本数据集包含已经处理、清理和编码的贷款申请数据,适用于直接输入回归模型进行分析,无需额外的数据预处理工作。数据集涵盖了多个贷款申请的关键特征,如借款人信息、贷款金额、还款历史等,为金融分析和信用评估提供了高质量的数据支持。...
    packageimg
  • 银行贷款历史数据集

    2025年4月14日   

    银行贷款历史数据集 数据来源:互联网公开数据 标签:银行贷款,贷款历史,数据分析,回归分析,预处理,探索性数据分析,初学者数据集 数据概述: 该数据集包含了一家虚构银行发放的贷款明细,共有2500条记录和13个字段。数据集涵盖了贷款的各种基本信息,如贷款金额、贷款期限、借款人信用评分等,适合进行回归分析、数据预处理和探索性数据分析。 数据用途概述:...
    packageimg
  • 乳腺癌肿瘤诊断分析数据集

    2025年4月14日   

    乳腺癌肿瘤诊断分析数据集 数据来源:互联网公开数据 标签:乳腺癌,肿瘤,诊断,分类,机器学习,SVM,支持向量机,医疗健康,Kaggle 数据概述: 本数据集旨在用于乳腺癌肿瘤的诊断分析,基于Breast Cancer...
    packageimg
  • 尼泊尔语与乌尔都语平行语料库

    2025年4月14日   

    尼泊尔语与乌尔都语平行语料库 数据来源:互联网公开数据 标签:尼泊尔语,乌尔都语,平行语料库,词性标注,宾夕法尼亚树库,机器翻译,语言模型,语料清洗,语言研究 数据概述:...
    packageimg
  • 航空客户评论数据集

    2025年4月14日   

    航空客户评论数据集 数据来源:互联网公开数据 标签:航空,客户评论,自然语言处理,文本清理,词元化,情感分析,预测建模 数据概述: 本数据集包含关于航空公司的客户文本评论,涵盖了乘客对航空公司服务的多方面反馈。数据集为学习、实践或测试初学者到中级的自然语言处理任务提供了丰富的资源,包括文本清理、词元化、情感分析以及基于分析结果的预测建模。...
    packageimg
  • 本田汽车传感器读数数据集

    2025年4月14日   

    本田汽车传感器读数数据集 数据来源:互联网公开数据 标签:汽车传感器,本田,车辆性能,数据预处理,缺失值,异常检测,插值测试 数据概述: 本数据集包含了本田汽车传感器的读数数据,用于测试数据预处理方法的应用效果。数据集涵盖了车辆运行状态和环境参数等信息,但存在大量缺失值和异常值,为数据清洗和插值方法的测试提供了理想的研究场景。 数据用途概述:...
    packageimg
  • 智能手机2023未清理数据集

    2025年4月14日   

    智能手机2023未清理数据集 数据来源:互联网公开数据 标签:智能手机,数据清理,数据验证,机器学习,价格预测,模型,价格,评分,SIM卡,处理器,内存,电池,显示屏,摄像头,存储卡,操作系统 数据概述:...
    packageimg
  • QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题

    2025年4月14日   

    QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题 数据来源:互联网公开数据 标签:阅读理解,多选题,自然语言处理,机器学习,文本理解,问题解答,新闻,用户故事,小说,博客 数据概述:...
    packageimg
  • 互联网公开数据集多源数据分类与分析

    2025年4月8日   

    标题:互联网公开数据集多源数据分类与分析 数据内容: 该数据集包含来自互联网公开数据的多源数据元素,主要涉及文件名(filename)和标签(label)两个核心字段。其中,文件名字段包含12600种不同的值,标签字段包含15种不同的分类值。数据内容涵盖了多种数据类型和应用场景,适用于需要对多源数据进行分类、分析和挖掘的任务。 数据来源:...
    packageimg
  • 互联网公开数据集垃圾邮件分类与文本分析

    2025年4月8日   

    标题:互联网公开数据集垃圾邮件分类与文本分析 数据内容:该数据集包含文本内容(text)和垃圾邮件分类(spam)两个字段。文本内容字段包含5695种不同的文本值,垃圾邮件分类字段包含两种不同的分类值(0和1)。 数据来源:互联网公开数据...
    packageimg
  • 互联网公开数据分类与描述数据集

    2025年4月8日   

    标题:互联网公开数据分类与描述数据集 数据内容:该数据集包含多个字段,用于描述和分类各种对象或实体。具体字段包括: - S.No.:表示序号,共有1297种不同的值。 - Description:描述字段,共有1296种不同的值。 - Sub Class:子分类字段,共有1297种不同的值。 - Class:分类字段,共有417种不同的值。 -...
    packageimg
  • 丰富多样的文本数据集

    2025年4月7日   

    标题:丰富多样的文本数据集...
    packageimg
  • 2025 年全球产品库存数据集(包含库存、价格和规格的详细产品目录)

    2025年3月6日   

    该数据集提供了产品库存的详细快照,非常适合物流优化、电子商务分析或供应链研究。它包括产品名称、类别、价格、库存数量等关键详细信息,这些信息来自假设的全球供应商数据库。 主要特点:14 栏涵盖产品规格、定价、库存和标签。 样本数据包括家用电器等多种类别。 非常适合数据清理实践、可视化或预测建模(例如库存消耗)。 潜在用例: 根据库存和到期日优化运输物流。...
    packageimg
  • 伊斯兰教词汇列表

    2025年3月5日   

    以下列出由伊斯兰教及阿拉伯传统习俗引伸出来,并用阿拉伯语表达的知名词汇。主要目的是要甄别不同的拼写方式、列出已经不再使用的拼写、为这些词汇给出简短的定义、令人可以简便地找到及了解到具体的词汇及在单一页面上为伊斯兰教的独特词汇提供指引。...
    packageimg
  • 《老友记》电视节目抄录:《老友记》每一集的台词排序

    2025年2月14日   

    创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall
    packageimg
  • 英语至阿萨姆语平行数据集

    2025年2月14日   

    此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集
    packageimg
  • 建立团队的分析方法:原神角色列表 5.2 版

    2025年2月14日   

    该数据集包含《原神》5.2 版以来的所有角色 创建此数据集是为了让像我这样的有抱负的数据分析师能够以独特而有趣的方式练习处理数据。下载数据集的用户可以练习使用数据可视化,并在玩《原神》时根据自己的需求快速访问角色信息。
    packageimg
  • 用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

    2025年2月13日   

    该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
    packageimg
  • NIH 平衡胸部 X 光检查

    2025年2月13日   

    将高度不平衡的数据集转换为具有 1024x1024 图像的平衡数据集 关于此文件 标签的独热编码格式 小路 肺不张 心脏扩大 合并 浮肿 积液 气肿 纤维化 疝 浸润 大量的 未发现 结核 胸膜增厚 肺炎 气胸
    packageimg
  • GPT GCJ 数据集:检测 LLM 编写的 Java 代码

    2025年2月13日   

    来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
    packageimg