-
印度次大陆发生的自然灾害(1990 - 2021 年)
印度的地理环境极其多样,从北部的雪山到南部的沿海平原,还有茂密的雨林和塔尔沙漠。除此之外,印度还是世界第二大人口大国(13亿人)。这种多样性带来了许多不同的自然灾害,从洪水、地震到飓风和龙卷风。更糟糕的是,由于人口众多,各种疾病传播得非常快。 该数据集包含 1990 年至 2021 年印度发生的所有灾难及其信息。 内容...
-
-
HotpotQA维基百科问答数据集
HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A...
-
CommonsenseQA文本问答数据集
CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成,每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的(括号中提供了一个示例):人群工作人员从 ConceptNet(“河流”)和三个目标概念(“瀑布”、“桥梁”、“ Valley”)都通过相同的...
-
XQuAD
XQuAD(Cross-lingual Question Answering Dataset)是评估跨语言问答性能的基准数据集。该数据集包含来自 SQuAD v1.1(Rajpurkar 等人,2016 年)开发集的 240 个段落和 1190...
-
-
-
PERSONA-CHAT对话数文本据集
PERSONA-CHAT 数据集,这是一个新的对话数据集,由随机配对的众包工作人员之间的 162,064 个话语组成 并且每个人都要求扮演给定的角色(随机分配,由另一组众包创建)。配对的工人被要求自然地聊天,并在谈话中相互了解。这会产生有趣且引人入胜的对话,我们的代理可以尝试学习模仿。
-
SQuAD (Stanford Question Answering Dataset)问答数据集
斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作人员在一组维基百科文章中提出的问题组成,其中每个问题的答案都是相应阅读文章或问题的一段文本或跨度可能无法回答。
-
-
航空公司评论数据集
数据名称:航空公司评论数据集 数据说明:该数据集包含来自 Airline Quality ( https://www.airlinequality.com ) 网站的 2023 年排名前 10...
-
-
剪接基因序列数据集DNA 基因序列,核苷酸
剪接点是 DNA 序列上的点,在高等生物的蛋白质构建过程中,从这些点去除“不必要的”DNA。该数据集的问题是给定一个 DNA 序列时,识别外显子(插入后保留的 DNA 序列部分)和内含子(剪接的 DNA 序列部分)之间的边界。该问题包含两个子任务:识别外显子/内含子边界(称为 EI 位点)和定义内含子/外显子边界(IE 位点)。(在生物学界,IE...
-
多视角角色对话HQA 数据集
这是一个基于用户聊天记录的问答数据集。我们找到了一个包含两人或多人对话的文本格式的数据集;数据集名称为“Ubuntu 对话语料库”。从该数据集中,我们根据 dialogID(代表一个唯一的聊天室)分析用户的聊天。根据...
-
-
-
-
区分阿尔茨海默病患者和健康人笔记数据集
数据集名称:区分阿尔茨海默病患者和健康人笔记数据集 数据数量:4 数据集关键词:阿尔茨海默, 病患者, 健康人 数据集格式:csv, rtf
-
-
王者荣耀 App 评论
Google Play 商店中 51,000+ 条评论 《王者荣耀》是全球最大的 MOBA 游戏之一,每月拥有数百万活跃玩家。这款游戏在亚洲尤其受欢迎,以其竞争激烈的游戏玩法和频繁的游戏内活动而闻名。玩家经常在 Google Play Store 等平台上留下评论来分享他们的体验,评论包括批评性反馈和赞扬,反映了他们对游戏的满意程度。



