找到10个数据集

格式: zip 标签: 数据清洗实践

过滤结果
  • 缺失值处理数据集(2015-2022)

    2025年8月20日 60 31 4

    包含缺失数据的各类数据集,涵盖多个领域,如医疗、金融、零售等 适用于数据预处理课程,学生可以进行缺失值处理、数据填充、插补等技术应用,提升数据质量,为后续分析打下基础。
    packageimg
  • 聊天记录数据集(2015-2022)

    2025年8月19日 60 131 95

    社交媒体或在线平台的聊天记录,包含文本消息、对话内容、情感标签等 适用于人工智能与自然语言处理课程,学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。
    packageimg
  • 服务器访问日志数据集(2017-2023)

    2025年8月18日 30 69 17

    包含全球多个网站的访问日志数据,记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。 适用于大数据架构与计算课程,通过Hadoop和Spark平台进行日志数据的处理与分析,学习如何使用分布式计算框架进行日志清洗、数据转换和分析,从中提取出用户行为模式和网站性能分析。
    packageimg
  • Bellabeat用户健康数据分析案例研究数据集-britaasmith

    2025年5月18日 30 195 40

    数据概述: 本数据集包含了Bellabeat公司旗下智能设备的用户健康数据,包括原始数据、清洗后的数据以及SQL查询结果表。数据以电子表格形式提供,旨在支持Tableau可视化分析和GitHub存储库中的案例研究。 数据用途概述:...
    packageimg
  • NLp专用短信垃圾邮件分类数据集

    2025年5月13日 30 106 47

    数据概述: 本数据集是一个短信垃圾邮件收集数据集,包含超过10,000条SMS短信消息,并已被标记为“垃圾邮件”(spam)或“非垃圾邮件”(ham)。数据集中的每条短信以文本字符串的形式呈现。 数据包含以下字段: text:表示每条短信的内容。 target:指示每条短信是“垃圾邮件”还是“非垃圾邮件”。 数据用途概述:...
    packageimg
  • 《老友记》电视节目抄录:《老友记》每一集的台词排序

    2025年2月14日 364 94 39

    创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall
    packageimg
  • 英语至阿萨姆语平行数据集

    2025年2月14日 287 114 104

    此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集
    packageimg
  • 用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

    2025年2月13日 300 23 0

    该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
    packageimg
  • GPT GCJ 数据集:检测 LLM 编写的 Java 代码

    2025年2月13日 300 68 6

    来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
    packageimg
  • MathQA

    2024年11月10日 30 121 59

    本数据集是通过使用一种新的表示语言对 AQuA-RAT 数据集进行注释来收集的。 AQuA-RAT 提供了问题、选项、理由和正确选项。
    packageimg