数据集 - 海数据

DeepSeek 上的推文和反应：Twitter/X 上有关 DeepSeek 模型的推文和反应

2025年2月17日

该数据集包含有关 DeepSeek 及其发布的模型的推文和反应，以及其他密切相关的关键词，例如 NVIDIA、OPENAI、ANTHROPIC、META、LLAMA 等。

csv

IMDb电影元数据的集合，包括评级、评论、类型和运行时间

2025年2月17日

该数据集包含 IMDb 电影元数据，包括电影名称、上映年份、年龄分级、类型和用户评分。它为数据分析、机器学习和推荐系统提供了宝贵的见解。 name - 电影名称 year - 电影上映年份 movie_rated - 官方年龄分级 run_length - 电影时长（分钟） types - 与电影相关的类型 release_date -...

csv

移动5G网络资源分配数据集

2025年2月14日

“5G网络资源分配数据集”，数据集概述：这个数据集就像是网络使用的“监控记录”，记录了不同时间用户怎么用网络的，包含了视频通话、游戏、流媒体、下载、网页浏览、物联网设备、紧急服务等。它记录了网络信号有多强、网速有多慢（延迟）、需要多少带宽和实际分到多少带宽，主要用来分析网络表现、优化资源分配，让大家上网更顺畅。字段对照（中英文）...

csv

电磁干扰数据集：用于 EMI 信号分类的数据集

2025年2月14日

该数据集是为分类任务设计的电磁干扰 (EMI) 信号和正常（未受影响）信号的集合，每个信号由 4000 个时间步长组成。幅度以毫伏 (mV) 表示。它包括 8 个不同类别的 EMI 信号和正常信号，代表电气状况和故障（总共 9 个类别）。特征表示为原始信号值，捕捉 EMI...

zip

皮马印第安人糖尿病数据集：根据不同的特征预测患糖尿病的可能性

2025年2月14日

最初来自美国国家糖尿病、消化和肾脏疾病研究所。该数据集的目标是根据数据集中包含的多个特征准确预测患者是否患有糖尿病。使用该数据集通过随机森林分类器获得了 92.86% 的准确度指标得分。甚至使用该训练模型开发了一个 Web 服务糖尿病预测系统。您可以探索探索性数据分析笔记本以更好地理解数据。属性正常值范围葡萄糖：葡萄糖 (< 140) =...

csv

无监督学习模型：分析二手车销售数据

2025年2月14日

使用监督和无监督学习模型分析二手车销售数据二手车市场是一个动态且非常复杂的领域，受不同标准的影响 - 制造商、车型、发动机规格、油耗、生产年份、里程和价格。在本练习中，我们将查看包含英国二手车销售事实的模拟数据。该数据由 50,000...

zip

使用 peft 和 lora 进行 LLM 微调的合成数据

2025年2月14日

该数据集包含对话摘要、主题和对话，用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道，这是一种流行且轻量级的训练技术，可显着减少可训练参数的数量。该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum

zip

混凝土强度数据集

2025年2月14日

混凝土抗压强度数据集：该数据集包含混凝土抗压强度的数据，这是建筑施工中的关键因素。它包括影响混凝土整体强度的各种输入参数，例如水泥含量、水比和养护年龄等。该数据集非常适合回归分析和机器学习模型开发，可根据输入变量预测混凝土强度。功能描述：水泥成分：描述：此特征代表混凝土混合物中使用的水泥量。...

csv
ipynb

罗斯科学文章/Рус научные статьи

2025年2月14日

从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章，这些文章被分为顶级 GRNTI（国家科学技术信息分类表）的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别，我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。标题位于说明的末尾。下载了 pdf 文件，将其转换为 txt...

rar
zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall

zip

英语至阿萨姆语平行数据集

2025年2月14日

此文件中有数十万个英语到阿萨姆语的平行数据集。注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集

zip

建立团队的分析方法：原神角色列表 5.2 版

2025年2月14日

该数据集包含《原神》5.2 版以来的所有角色创建此数据集是为了让像我这样的有抱负的数据分析师能够以独特而有趣的方式练习处理数据。下载数据集的用户可以练习使用数据可视化，并在玩《原神》时根据自己的需求快速访问角色信息。

csv

用于 NLP 任务的高质量金融新闻数据集

2025年2月13日

此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确，包括网站及其嵌入 PDF 的内容。数据集特征日期：公告日期。主题：财经新闻的主题。内容：公告的全部内容，包括网站文本和 PDF。附加处理字段我们应用先进的 Mixtral 7X8 模型来生成以下附加字段：...

md
zip

用于文本检测的尼泊尔手写图像：各个年龄段的详尽文本数据集

2025年2月13日

尼泊尔手写数据集 (NHD)，它是尼泊尔各个地区用相机捕捉的尼泊尔手写文本图像的集合。该数据集旨在为研究人员探索手写检测和识别新技术提供基准。我们还提供了使用成熟的深度学习框架进行文本定位和识别的基准结果。数据集和基准结果可在此处获得。主要特点：...

zip

皮肤癌 - HAM10000：常见色素性皮肤病变的多源皮肤镜图像

2025年2月13日

包含3个文件夹和2个文件组成，如下表所述。内容类型描述 HAM10000_images_part_1 文件夹一组训练图片的第一部分 HAM10000_images_part_2 文件夹一组训练图片的第二部分 ISIC2018_Task3_Test_Images 文件夹测试图片集 HAM10000_metadata.csv 文件...

csv

geoleaderboard 网站上使用的排行榜数据

2025年2月13日

该数据集为geoleaderboard 网站提供全面的排行榜数据，每日更新。它包括排名、用户名、国家、评级、分区、移动评级、无移动评级和 NMPZ 评级等列。非常适合跟踪玩家表现并分析 GeoGuessr 游戏中的模式。

csv

揭开社交媒体的情感面纱：Twitter 情感数据集

2025年2月13日

利用我们精心整理的数据集，深入了解通过 Twitter 消息表达的人类情感的复杂世界。这个综合集合中的每个条目都包含从 Twitter 中提取的一段文本，并附有相应的标签，表示消息传达的主要情感。情绪被精心分为六个不同的类别：悲伤 (0)、快乐 (1)、爱 (2)、愤怒 (3)、恐惧 (4) 和惊讶 (5)。...

zip

核聚变实验的模拟数据

2025年2月13日

核能聚变实验的模拟数据集对于对核聚变领域感兴趣的研究人员和爱好者来说都是宝贵的资源。该数据集由 100,000 行组成，每行代表一个实验，并包含各种对于了解聚变反应成功或失败至关重要的参数。这些参数包括燃料密度、温度、约束时间、燃料纯度、能量输入、功率输出、压力和中子产量等。...

zip

植物疾病检测数据集

2025年2月13日

植物疾病数据集由印度理工学院的一组研究人员创建，最初在一篇研究论文中进行了描述。其中一位作者 Pratik Kayal 已在GitHub上分享了该数据集，可供公众使用。PlantDoc 数据集包含 13 种不同植物物种的总共 2,569 张图像。该数据集分为 30 个不同的类别，标签指示每张图像是健康的还是患病的。数据集内共有 8,851...

zip

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

找到53,289个数据集

注册成功！