数据集 - 海数据

聊天记录数据集（2015-2022）

2025年8月19日 60 129 113

社交媒体或在线平台的聊天记录，包含文本消息、对话内容、情感标签等适用于人工智能与自然语言处理课程，学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。

zip
ZIP

Malimg Malware Image 数据集

2025年8月20日 110 50 3

25个恶意家族，均为Windows PE样本

zip

LITNET‑2020 Flow‑Based IDS Dataset

2025年8月20日 80 207 20

立陶宛 LITNET 教育网真实流量 + 攻击脚本 (DDoS、PortScan、BruteForce)

zip
md

建筑墙面破损等视觉缺陷识别图像数据集

2025年7月23日 30 48 22

数据来源： Building Defect Detection由研究团队采集并整理，聚焦于城市建筑环境中的墙体缺陷检测任务。原始图像均为实拍 RGB 照片，并通过专家标注六类典型结构性缺陷及正常墙体图像。为提升模型训练的效果和泛化能力，还基于原始图像生成了增强版本，构成完整的 BD3 数据集。数据内容：包含两个子集，总计 17,965 张图像：...

zip

建筑施工基坑图像多类识别数据集

2025年7月22日 30 1 0

数据来源：本数据集包含 207 张施工现场图像，集中反映地基工程中的典型结构形态与状态，特别是各类基坑（foundation pit）。图像由研究团队从实际施工现场或互联网平台获取，并进行人工筛选与标注。数据内容：所有图像按多类别分类（Multi-Class...

zip

IMDB电影推荐系统数据集 1956-2020

2025年6月13日 30 140 1

数据概述：本数据集基于TMDB电影数据集构建，专为电影推荐系统设计。数据集精选了与电影推荐相关的关键特征，涵盖了电影的基本信息、用户标签、评分等核心字段。这些特征经过优化处理，方便开发者将它们转化为标签，从而构建高效的电影推荐系统。数据集结构清晰，字段定义明确，支持快速开发和部署推荐模型。字段定义： genres：电影类型列表，如...

zip

Udacity 自动驾驶汽车数据集：用于自动驾驶物体检测的重新标记和增强

2025年2月13日 428 93 8

Udacity 自动驾驶汽车 > 固定小”数据集是经过精心策划和重新标记的图像集合，专为自动驾驶应用中的对象检测任务而设计。它通过纠正行人、骑自行车的人、车辆和交通灯等关键对象的缺失标签来解决原始 Udacity 数据集的缺点。该数据集包含 15,000 张高分辨率图像 (1920x1200) 和跨越 11 个类别的总共 97,942...

zip
ZIP

亚马逊商品图像结构信息抽取图像中商品属性数据集

2025年5月19日 30 196 125

数据概述：本数据集用于图像信息抽取任务，目标是训练一个机器学习模型，从商品图像中提取关键属性值（如重量、电压、体积、尺寸等）。该能力广泛应用于医疗、电商和内容审核等场景，尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值，并输出标准格式的预测结果。字段说明：训练数据（train.csv）包含以下字段：...

zip

车牌数据集

2025年3月9日 50 96 74

该数据集包含 1695 张图像，每张图像均带有车牌边界框注释。注释以 YOLO 文本格式提供，其中包括类标签和边界框坐标。该数据集对于车牌检测和识别等对象检测任务很有用。

zip

通过人工智能弥合沟通鸿沟：阿拉伯手语字母表 (ArSL) 数据集

2025年2月18日 270 117 63

该数据集包含 6,000 张手势图像，代表 30 个阿拉伯字母（ا 至 ي），以及一个经过训练的模型。该数据集专为手语识别研究而设计，可帮助开发人员为聋人和听力障碍者群体构建工具。包含的文件 data/：30 个阿拉伯手语字母的原始图像（总共 6 000 张图像）。 class_mapping.csv：将类别...

zip

龙珠问答数据集

2025年2月17日 200 175 116

龙珠问答语料库是一个精选数据集，旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件，每个文件都充满了结构化和非结构化文本数据，涵盖了龙珠系列的各个方面，包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。每个文本文件都经过精心组织，以确保全面涵盖不同的主题，例如：角色信息：详细的个人资料、能力和关系。故事情节和弧线：龙珠、龙珠...

zip

使用 peft 和 lora 进行 LLM 微调的合成数据

2025年2月14日 200 133 84

该数据集包含对话摘要、主题和对话，用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道，这是一种流行且轻量级的训练技术，可显着减少可训练参数的数量。该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum

zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日 364 121 120

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall

zip

英语至阿萨姆语平行数据集

2025年2月14日 287 98 16

此文件中有数十万个英语到阿萨姆语的平行数据集。注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集

zip

用于文本检测的尼泊尔手写图像：各个年龄段的详尽文本数据集

2025年2月13日 400 64 37

尼泊尔手写数据集 (NHD)，它是尼泊尔各个地区用相机捕捉的尼泊尔手写文本图像的集合。该数据集旨在为研究人员探索手写检测和识别新技术提供基准。我们还提供了使用成熟的深度学习框架进行文本定位和识别的基准结果。数据集和基准结果可在此处获得。主要特点：...

zip

核聚变实验的模拟数据

2025年2月13日 290 75 64

核能聚变实验的模拟数据集对于对核聚变领域感兴趣的研究人员和爱好者来说都是宝贵的资源。该数据集由 100,000 行组成，每行代表一个实验，并包含各种对于了解聚变反应成功或失败至关重要的参数。这些参数包括燃料密度、温度、约束时间、燃料纯度、能量输入、功率输出、压力和中子产量等。...

zip

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日 300 108 32

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

PyTorch 几何外部库

2025年2月13日 190 87 28

用于 Kaggle Env 的 PyTorch 几何外部库轮子该数据集是 PyTorch Geometric外部库的 Python wheel 包文件（只需安装PyG即可）。PyTorch pip install torch_geometricGeometric 是用于构建图神经网络的 torch...

zip

GPT GCJ 数据集：检测 LLM 编写的 Java 代码

2025年2月13日 300 166 3

来自 GCJ 2020 的 76K+ Java 文件，其中 17K 由 GPT-4o 生成，用于 AI 检测 GPT Java GCJ 源代码数据集该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。随着 OpenAI...

zip
md

DUTS 大规模图像显著性检测基准数据集

2025年2月13日 179 171 44

DUTS 是一个大规模显著性检测数据集，包含 10,553 张训练图像和 5,019 张测试图像。所有训练图像均来自ImageNet DET 训练/验证集，而测试图像则来自 ImageNet DET 测试集和SUN 数据集。训练集和测试集都包含对显著性检测非常具有挑战性的场景。精确的像素级基本事实由 50 名受试者手动注释。

zip

找到36个数据集

注册成功！