数据集 - 海数据

印度次大陆发生的自然灾害（1990 - 2021 年）

2025年2月12日

印度的地理环境极其多样，从北部的雪山到南部的沿海平原，还有茂密的雨林和塔尔沙漠。除此之外，印度还是世界第二大人口大国（13亿人）。这种多样性带来了许多不同的自然灾害，从洪水、地震到飓风和龙卷风。更糟糕的是，由于人口众多，各种疾病传播得非常快。该数据集包含 1990 年至 2021 年印度发生的所有灾难及其信息。内容...

csv

HotpotQA维基百科问答数据集

2024年11月10日

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A...

json

SQuAD (Stanford Question Answering Dataset)问答数据集

2024年11月10日

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集，由众包工作人员在一组维基百科文章中提出的问题组成，其中每个问题的答案都是相应阅读文章或问题的一段文本或跨度可能无法回答。

json

万神殿项目：历史人气指数

2025年2月10日

用 25 种以上语言的维基百科传记记录每一位历史人物关于数据集语境万神殿是一个颂扬文化信息的项目，正是这些文化信息赋予了我们人类这些神奇的能力。为了颂扬我们的全球文化遗产，我们正在汇编、分析和可视化数据集，以帮助我们了解全球文化发展的过程。深入研究、可视化并享受。内容 Pantheon 1.0...

zip

蛋白质RNA文本数据集

2024年11月9日

该数据集包含从 Wikipedia API 中提取的科学文本，重点关注与 RNA 和蛋白质相关的主题。它有两个 CSV 文件：一个是葡萄牙语，另一个是英语。该项目的目标是探索使用语言模型 (LLM) 和快速工程技术来识别与可能成为药物或疫苗开发潜在候选物的蛋白质相关的关键词。此外，该数据集可用于机器学习方法，使用...