数据集 - 海数据

美国按功能系统划分的美国道路状况1992-2022

2024年11月27日

标题：美国1992-2022年道路状况数据集...

XLSX

美国智能网络流量速度协调信息数据

2024年11月13日

数据的内容：数据主要包含美国华盛顿州西雅图智能网络流量优化（INFLO）原型系统和应用程序的小规模演示数据，特别是在早高峰时段以及北向和南向的 I-5 走廊的21辆车的行驶场景。数据集中包含了由交通管理中心发送给联网车辆的速度协调消息。数据来源：互联网公开数据，来自华盛顿州西雅图的 INFLO 原型系统和应用程序...

CSV

可穿戴传感器动作分析数据集

2024年11月9日

该数据集旨在使用从可穿戴传感器收集的数据，在人机交互 (HCI) 环境中进行动作分类，并与动画设计的仿生视觉系统相结合。该数据集是作为一项研究的一部分收集的，该研究旨在改善实时人体动作识别，以增强虚拟现实 (VR) 和增强现实 (AR) 环境中的沉浸式体验。参与者：数据来自 30 名参与者（15 名男性和 15...

text/csv

空间材料结构优化数据集

2024年11月9日

此文件夹包含使用 top88 算法进行拓扑优化 (TO) 生成的数据。top88 算法有助于根据给定的体积分数优化设计空间内的材料分布，旨在实现结构最优设计。

RAR

OpenFinData开源金融评测数据集

2024年11月10日

OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求，是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景，旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。

application/zip

OCNLI中文自然语言训练数据集

2024年11月10日

OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库，紧密按照MNLI的程序收集，但具有增强的策略，旨在实现更具挑战性的推理对。我们想强调的是，我们在创建数据集时没有使用人机翻译，因此我们的中文文本是原创的，没有翻译。

RAR

SST (Stanford Sentiment Treebank)

2024年11月10日

斯坦福情感库是一个带有完全标记的解析树的语料库，可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集，由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析，包括来自这些解析树的总共 215,154 个独特的短语，每个短语由 3...

application/zip

党务问答文本数据集

2024年11月10日

党务问答数据，来自 https://wenda.12371.cn/liebiao.php 共有157,350条对话数据。

text/csv

高校调查问卷文本数据集

2024年11月10日

高校学子在填写志愿时对目标高校校园生活往往并不了解，此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据，可以直接用于训练AI模型或用于RAG的数据集

TXT

GeoQA (Geometric Question Answering)

2024年11月10日

GeoQA 是一个用于自动解决几何问题的数据集，包含 5,010 个几何问题和相应的注释程序，说明了给定问题的解决过程与另一个公开可用的数据集 GeoS 相比，GeoQA 大 25 倍，其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。

application/zip

DRCD (Delta Reading Comprehension Dataset)

2024年11月10日

一个数据集，其中包含 2,221 个来自不同学科（历史、生物学、地理和哲学）的十二年级入学考试的问题，以及来自历史在线测验的 412 个附加问题。

SFT多轮中文对话文本数据集

2024年11月10日

SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献，每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。数据组成...

RAR

综合性食谱语料库

2024年11月10日

完整的食谱语料库包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符，最小长度为10个字符。食谱由415,272位作者贡献。其中，最有生产力的作者上传5,394食谱。

ZIP

Douban Conversation Corpus豆瓣会话语料库

2024年11月10日

豆瓣会话语料库，这是第一个用于基于检索的聊天机器人的人工标记测试集。

text/plain

ChemData700K

2024年11月10日

ChemData700K 是一个包含了九项化学核心任务，730K个高质量问答的大语言模型化学能力指令微调数据集.ChemData是大模型语料数据联盟成员单位上海人工智能实验室 AI for Science团队精心构建的大规模数据集，旨在为化学语言模型的微调提供支持，从而提高、释放其全部化学潜力。

PARQUET

预测性维护 NASA 涡扇发动机数据集

2024年11月9日

事实证明，深度学习在某些领域（例如对象识别和图像分类）表现出色。它在金融等领域也越来越受欢迎，因为时间序列数据在其中发挥着重要作用。预测性维护也是一个领域，它会随时间收集数据以监控资产的状态，目的是找到预测故障的模式，这也可以从某些深度学习算法中受益。在深度学习方法中，长短期记忆 (LSTM)...

text/plain

用于 LLM 微调的土耳其农业数据集

2024年11月9日

该数据集旨在微调 T3 AI 土耳其语 LLM。它由 Barathan Aslan、Ömer Faruk Çelik 和 Batuhan Kalem 为 T3 AI Hackathon 创建。该数据集专注于土耳其农业。

CSV

NBA 2K25 球员数据集

2024年11月9日

该数据集包含 2K 开发的 NBA 2K25 游戏中列出的所有球员数据。数据集由三大部分组成，即球员的个人资料、属性和徽章。目前，由于我在代码中添加了验证过程算法，因此不再有因网络抓取工具的连接问题而导致的数据丢失。很快我将添加每个球员的热点区域的数据。

text/csv

护肤品成分数据集

2024年11月9日

对于希望有效解决特定皮肤问题的消费者来说，了解护肤成分至关重要。此数据集来自renude.co，这是一家健康科技初创公司，致力于为其用户提供有关各种日常护肤的详细信息和护肤建议。创建此数据集的主要动机是开发一个聊天机器人，可以建议用户哪些成分对他们的特定护肤需求有益。该数据集包含有关护肤成分的全面信息，包括其描述、功效、对不同皮肤类型的适用性等

CSV

蛋白质RNA文本数据集

2024年11月9日

该数据集包含从 Wikipedia API 中提取的科学文本，重点关注与 RNA 和蛋白质相关的主题。它有两个 CSV 文件：一个是葡萄牙语，另一个是英语。该项目的目标是探索使用语言模型 (LLM) 和快速工程技术来识别与可能成为药物或疫苗开发潜在候选物的蛋白质相关的关键词。此外，该数据集可用于机器学习方法，使用...

text/csv

找到9,745个数据集

注册成功！