数据集 - 海数据

缺失值处理数据集（2015-2022）

2025年8月20日 60 31 4

包含缺失数据的各类数据集，涵盖多个领域，如医疗、金融、零售等适用于数据预处理课程，学生可以进行缺失值处理、数据填充、插补等技术应用，提升数据质量，为后续分析打下基础。

zip
ZIP

聊天记录数据集（2015-2022）

2025年8月19日 60 131 95

社交媒体或在线平台的聊天记录，包含文本消息、对话内容、情感标签等适用于人工智能与自然语言处理课程，学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。

zip
ZIP

服务器访问日志数据集（2017-2023）

2025年8月18日 30 69 17

包含全球多个网站的访问日志数据，记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。适用于大数据架构与计算课程，通过Hadoop和Spark平台进行日志数据的处理与分析，学习如何使用分布式计算框架进行日志清洗、数据转换和分析，从中提取出用户行为模式和网站性能分析。

zip

Bellabeat用户健康数据分析案例研究数据集-britaasmith

2025年5月18日 30 195 40

数据概述：本数据集包含了Bellabeat公司旗下智能设备的用户健康数据，包括原始数据、清洗后的数据以及SQL查询结果表。数据以电子表格形式提供，旨在支持Tableau可视化分析和GitHub存储库中的案例研究。数据用途概述：...

zip

NLp专用短信垃圾邮件分类数据集

2025年5月13日 30 106 47

数据概述：本数据集是一个短信垃圾邮件收集数据集，包含超过10,000条SMS短信消息，并已被标记为“垃圾邮件”（spam）或“非垃圾邮件”（ham）。数据集中的每条短信以文本字符串的形式呈现。数据包含以下字段： text：表示每条短信的内容。 target：指示每条短信是“垃圾邮件”还是“非垃圾邮件”。数据用途概述：...

zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日 364 94 39

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall

zip

英语至阿萨姆语平行数据集

2025年2月14日 287 114 104

此文件中有数十万个英语到阿萨姆语的平行数据集。注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集

zip

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日 300 23 0

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

GPT GCJ 数据集：检测 LLM 编写的 Java 代码

2025年2月13日 300 68 6

来自 GCJ 2020 的 76K+ Java 文件，其中 17K 由 GPT-4o 生成，用于 AI 检测 GPT Java GCJ 源代码数据集该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。随着 OpenAI...

zip
md

MathQA

2024年11月10日 30 121 59

本数据集是通过使用一种新的表示语言对 AQuA-RAT 数据集进行注释来收集的。 AQuA-RAT 提供了问题、选项、理由和正确选项。

zip

找到10个数据集

注册成功！