数据集 - 海数据

不同的情感文本数据集 2025

2025年2月18日

该数据集包含代表各种情绪状态的列，具体来说：愤怒无聊平静蔑视厌恶兴奋恐惧沮丧快乐中性自豪悲伤惊讶每一行可能代表记录这些情绪的实例或观察结果，可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态，从负面情绪（例如，愤怒、厌恶、悲伤）到正面情绪（例如，快乐、兴奋、自豪），以及中性或平衡状态（例如，平静、中性）。

zip

全球国家名称、首都、人口、面积数据集

2025年2月17日

该数据集提供了国家基本统计数据的结构化集合，包括国家名称、首都、人口数字、土地总面积和区域分类。它可用于人口分析、地理研究、统计建模和可视化目的。国家 – 国家官方名称。首都 – 国家首都。人口 – 国家估计总人口。面积（平方公里） – 国家土地总面积（平方公里）。地区 – 地理区域（例如亚洲、欧洲、非洲、美洲、大洋洲）。该数据集非常适合：...

csv

不明飞行物目击事件集合

2025年2月17日

包含 1949 年至 2014 年间 80,000 多条 UFO 目击记录的表格，包括城市、州、国家、纬度/经度、形状、持续时间、日期/时间和评论

csv

2019 年至 2025 年的 UBER 股票数据集

2025年2月17日

该数据集包含Uber Technologies Inc. (UBER)从2019 年 5 月 10 日到 2025 年 2 月 5 日的历史股票数据。它包括开盘价、收盘价、交易量和调整后的收盘价等重要股市指标。该数据集可用于：探索性数据分析（EDA）机器学习与时间序列预测股市趋势分析数据摘要列名称描述日期交易日打开开盘股价高...

csv

基于症状的中风风险预测数据集

2025年2月17日

该数据集经过精心策划，以支持中风风险预测研究，帮助开发估计模型：一个人是否有中风的风险（二元分类）。中风发生的百分比可能性（回归分析）。它专为医疗 AI 和预测性医疗保健中的机器学习和深度学习应用而设计。数据集是平衡的，确保 50% 的记录属于有风险的个人，50% 的记录属于没有风险的个人。数据集生成过程...

csv

英雄联盟比赛数据集（2025 年）

2025年2月17日

该数据集提供了 2025 年收集的有关英雄联盟比赛的详细信息。它涵盖了游戏的各个方面，包括玩家统计数据、团队表现和比赛元数据。该数据集非常适合统计分析、机器学习项目和电子竞技研究。数据是使用查询官方 Riot Games API 的自定义 Python 脚本获取的。此脚本从单个玩家的 PUUID...

xlsx

龙珠问答数据集

2025年2月17日

龙珠问答语料库是一个精选数据集，旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件，每个文件都充满了结构化和非结构化文本数据，涵盖了龙珠系列的各个方面，包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。每个文本文件都经过精心组织，以确保全面涵盖不同的主题，例如：角色信息：详细的个人资料、能力和关系。故事情节和弧线：龙珠、龙珠...

zip

印度热门旅游目的地综合数据集及评级

2025年2月17日

该数据集提供了印度各地热门旅游目的地的综合列表，按城市分类，并提供了有关评分、描述和最佳游览时间的附加信息。数据来自各种旅游调查平台，例如 MakeMyTrip、Holidify 和其他可靠的旅游资源。列描述 ID：数据集中每个城市的唯一标识符。城市：印度旅游目的地城市或地区的名称。...

csv

DeepSeek 上的推文和反应：Twitter/X 上有关 DeepSeek 模型的推文和反应

2025年2月17日

该数据集包含有关 DeepSeek 及其发布的模型的推文和反应，以及其他密切相关的关键词，例如 NVIDIA、OPENAI、ANTHROPIC、META、LLAMA 等。

csv

IMDb电影元数据的集合，包括评级、评论、类型和运行时间

2025年2月17日

该数据集包含 IMDb 电影元数据，包括电影名称、上映年份、年龄分级、类型和用户评分。它为数据分析、机器学习和推荐系统提供了宝贵的见解。 name - 电影名称 year - 电影上映年份 movie_rated - 官方年龄分级 run_length - 电影时长（分钟） types - 与电影相关的类型 release_date -...

csv

移动5G网络资源分配数据集

2025年2月14日

“5G网络资源分配数据集”，数据集概述：这个数据集就像是网络使用的“监控记录”，记录了不同时间用户怎么用网络的，包含了视频通话、游戏、流媒体、下载、网页浏览、物联网设备、紧急服务等。它记录了网络信号有多强、网速有多慢（延迟）、需要多少带宽和实际分到多少带宽，主要用来分析网络表现、优化资源分配，让大家上网更顺畅。字段对照（中英文）...

csv

电磁干扰数据集：用于 EMI 信号分类的数据集

2025年2月14日

该数据集是为分类任务设计的电磁干扰 (EMI) 信号和正常（未受影响）信号的集合，每个信号由 4000 个时间步长组成。幅度以毫伏 (mV) 表示。它包括 8 个不同类别的 EMI 信号和正常信号，代表电气状况和故障（总共 9 个类别）。特征表示为原始信号值，捕捉 EMI...

zip

皮马印第安人糖尿病数据集：根据不同的特征预测患糖尿病的可能性

2025年2月14日

最初来自美国国家糖尿病、消化和肾脏疾病研究所。该数据集的目标是根据数据集中包含的多个特征准确预测患者是否患有糖尿病。使用该数据集通过随机森林分类器获得了 92.86% 的准确度指标得分。甚至使用该训练模型开发了一个 Web 服务糖尿病预测系统。您可以探索探索性数据分析笔记本以更好地理解数据。属性正常值范围葡萄糖：葡萄糖 (< 140) =...

csv

无监督学习模型：分析二手车销售数据

2025年2月14日

使用监督和无监督学习模型分析二手车销售数据二手车市场是一个动态且非常复杂的领域，受不同标准的影响 - 制造商、车型、发动机规格、油耗、生产年份、里程和价格。在本练习中，我们将查看包含英国二手车销售事实的模拟数据。该数据由 50,000...

zip

使用 peft 和 lora 进行 LLM 微调的合成数据

2025年2月14日

该数据集包含对话摘要、主题和对话，用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道，这是一种流行且轻量级的训练技术，可显着减少可训练参数的数量。该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum

zip

混凝土强度数据集

2025年2月14日

混凝土抗压强度数据集：该数据集包含混凝土抗压强度的数据，这是建筑施工中的关键因素。它包括影响混凝土整体强度的各种输入参数，例如水泥含量、水比和养护年龄等。该数据集非常适合回归分析和机器学习模型开发，可根据输入变量预测混凝土强度。功能描述：水泥成分：描述：此特征代表混凝土混合物中使用的水泥量。...

csv
ipynb

罗斯科学文章/Рус научные статьи

2025年2月14日

从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章，这些文章被分为顶级 GRNTI（国家科学技术信息分类表）的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别，我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。标题位于说明的末尾。下载了 pdf 文件，将其转换为 txt...

rar
zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall