-
缺失值处理数据集(2015-2022)
2025年8月20日 60 31 4
包含缺失数据的各类数据集,涵盖多个领域,如医疗、金融、零售等 适用于数据预处理课程,学生可以进行缺失值处理、数据填充、插补等技术应用,提升数据质量,为后续分析打下基础。
-
聊天记录数据集(2015-2022)
2025年8月19日 60 131 95
社交媒体或在线平台的聊天记录,包含文本消息、对话内容、情感标签等 适用于人工智能与自然语言处理课程,学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。
-
服务器访问日志数据集(2017-2023)
2025年8月18日 30 69 17
包含全球多个网站的访问日志数据,记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。 适用于大数据架构与计算课程,通过Hadoop和Spark平台进行日志数据的处理与分析,学习如何使用分布式计算框架进行日志清洗、数据转换和分析,从中提取出用户行为模式和网站性能分析。
-
Bellabeat用户健康数据分析案例研究数据集-britaasmith
2025年5月18日 30 195 40
数据概述: 本数据集包含了Bellabeat公司旗下智能设备的用户健康数据,包括原始数据、清洗后的数据以及SQL查询结果表。数据以电子表格形式提供,旨在支持Tableau可视化分析和GitHub存储库中的案例研究。 数据用途概述:...
-
NLp专用短信垃圾邮件分类数据集
2025年5月13日 30 106 47
数据概述: 本数据集是一个短信垃圾邮件收集数据集,包含超过10,000条SMS短信消息,并已被标记为“垃圾邮件”(spam)或“非垃圾邮件”(ham)。数据集中的每条短信以文本字符串的形式呈现。 数据包含以下字段: text:表示每条短信的内容。 target:指示每条短信是“垃圾邮件”还是“非垃圾邮件”。 数据用途概述:...
-
《老友记》电视节目抄录:《老友记》每一集的台词排序
2025年2月14日 364 94 39
创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall
-
英语至阿萨姆语平行数据集
2025年2月14日 287 114 104
此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集
-
用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集
2025年2月13日 300 23 0
该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
-
GPT GCJ 数据集:检测 LLM 编写的 Java 代码
2025年2月13日 300 68 6
来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
-



