数据集 - 海数据

印度次大陆发生的自然灾害（1990 - 2021 年）

2025年2月12日

印度的地理环境极其多样，从北部的雪山到南部的沿海平原，还有茂密的雨林和塔尔沙漠。除此之外，印度还是世界第二大人口大国（13亿人）。这种多样性带来了许多不同的自然灾害，从洪水、地震到飓风和龙卷风。更糟糕的是，由于人口众多，各种疾病传播得非常快。该数据集包含 1990 年至 2021 年印度发生的所有灾难及其信息。内容...

csv

医学对话语料库（100k+）：医学应用的生成语言模型

2025年2月12日

这个全面的开源数据集包含 10...

zip

HotpotQA维基百科问答数据集

2024年11月10日

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A...

json

CommonsenseQA文本问答数据集

2024年11月10日

CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成，每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的（括号中提供了一个示例）：人群工作人员从 ConceptNet（“河流”）和三个目标概念（“瀑布”、“桥梁”、“ Valley”）都通过相同的...

tra

XQuAD

2024年11月10日

XQuAD（Cross-lingual Question Answering Dataset）是评估跨语言问答性能的基准数据集。该数据集包含来自 SQuAD v1.1（Rajpurkar 等人，2016 年）开发集的 240 个段落和 1190...

json

MathQA

2024年11月10日

本数据集是通过使用一种新的表示语言对 AQuA-RAT 数据集进行注释来收集的。 AQuA-RAT 提供了问题、选项、理由和正确选项。

zip

FinQA财务文本数据集

2024年11月10日

FinQA 是一个新的大型数据集，由财务专家编写，在财务报告中包含问答对。该数据集包含 8,281 个财务 QA 对，以及它们的数值推理过程。

json

PERSONA-CHAT对话数文本据集

2024年11月10日

PERSONA-CHAT 数据集，这是一个新的对话数据集，由随机配对的众包工作人员之间的 162,064 个话语组成并且每个人都要求扮演给定的角色（随机分配，由另一组众包创建）。配对的工人被要求自然地聊天，并在谈话中相互了解。这会产生有趣且引人入胜的对话，我们的代理可以尝试学习模仿。

rar

SQuAD (Stanford Question Answering Dataset)问答数据集

2024年11月10日

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集，由众包工作人员在一组维基百科文章中提出的问题组成，其中每个问题的答案都是相应阅读文章或问题的一段文本或跨度可能无法回答。

json

Math23K中文数学应用题NLP数据集

2024年11月10日

Math23K 是为解决数学单词问题而创建的数据集，包含从互联网上爬取的 23、162 个中文问题。

json

航空公司评论数据集

2024年12月13日

数据名称：航空公司评论数据集数据说明：该数据集包含来自 Airline Quality ( https://www.airlinequality.com ) 网站的 2023 年排名前 10...

CSV

美国的七天带有地理标记的推文数据

2025年1月2日

数据集名称：美国的七天带有地理标记的推文数据数据数量：1 数据集关键词：数据集格式：csv

CSV

剪接基因序列数据集DNA 基因序列，核苷酸

2025年2月10日

剪接点是 DNA 序列上的点，在高等生物的蛋白质构建过程中，从这些点去除“不必要的”DNA。该数据集的问题是给定一个 DNA 序列时，识别外显子（插入后保留的 DNA 序列部分）和内含子（剪接的 DNA 序列部分）之间的边界。该问题包含两个子任务：识别外显子/内含子边界（称为 EI 位点）和定义内含子/外显子边界（IE 位点）。（在生物学界，IE...

zip

多视角角色对话HQA 数据集

2024年11月9日

这是一个基于用户聊天记录的问答数据集。我们找到了一个包含两人或多人对话的文本格式的数据集；数据集名称为“Ubuntu 对话语料库”。从该数据集中，我们根据 dialogID（代表一个唯一的聊天室）分析用户的聊天。根据...

jpg

高校招生问答数据集

2024年11月9日

数据收集过程始于对选定的高等教育机构的网站进行网络抓取，收集 2023 年 7 月至 9...

jpg

患者对特定药物及其相关情况的评论

2025年1月8日

数据集名称：患者对特定药物及其相关情况的评论数据数量：2 数据集格式：tsv

TSV

数据集包含带有积极或消极情绪标签的句子

2025年1月7日

数据集名称：数据集包含带有积极或消极情绪标签的句子数据数量：4 数据集关键词：消极情绪数据集格式：txt

TXT

区分阿尔茨海默病患者和健康人笔记数据集

2025年1月7日

数据集名称：区分阿尔茨海默病患者和健康人笔记数据集数据数量：4 数据集关键词：阿尔茨海默, 病患者, 健康人数据集格式：csv, rtf

CSV
RTF

垃圾邮件数据库

2025年1月7日

数据集名称：垃圾邮件数据库数据数量：3 数据集关键词：数据库, 垃圾邮件数据集格式：data, names, DOCUMENTATION

王者荣耀 App 评论

2024年12月24日

Google Play 商店中 51,000+ 条评论《王者荣耀》是全球最大的 MOBA 游戏之一，每月拥有数百万活跃玩家。这款游戏在亚洲尤其受欢迎，以其竞争激烈的游戏玩法和频繁的游戏内活动而闻名。玩家经常在 Google Play Store 等平台上留下评论来分享他们的体验，评论包括批评性反馈和赞扬，反映了他们对游戏的满意程度。

zip

找到16,243个数据集

注册成功！