-
互联网公开数据集垃圾邮件分类与文本分析
标题:互联网公开数据集垃圾邮件分类与文本分析 数据内容:该数据集包含文本内容(text)和垃圾邮件分类(spam)两个字段。文本内容字段包含5695种不同的文本值,垃圾邮件分类字段包含两种不同的分类值(0和1)。 数据来源:互联网公开数据...
-
哈利·波特魔法世界里的魔法咒语及其效果🪄
该数据集全面收集了来自《哈利·波特》世界的 77 种咒语,包括它们的名称和效果的详细描述。数据涵盖了各种各样的魔法咒语,从简单的咒语到强大的防御咒语和复杂的变形术。该数据集来自 HP-API,为粉丝、研究人员和数据爱好者提供了一种结构化的方式来探索和分析《哈利·波特》系列的魔法系统。 该数据集的主要特征包括: 77 个正典咒语全集...
-
CommonsenseQA文本问答数据集
CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成,每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的(括号中提供了一个示例):人群工作人员从 ConceptNet(“河流”)和三个目标概念(“瀑布”、“桥梁”、“ Valley”)都通过相同的...
-
XQuAD
XQuAD(Cross-lingual Question Answering Dataset)是评估跨语言问答性能的基准数据集。该数据集包含来自 SQuAD v1.1(Rajpurkar 等人,2016 年)开发集的 240 个段落和 1190...
-
-
企业-气候风险披露、词频文本分析数据(2007-2022)
企业气候风险披露是指企业通过一定的方式,将气候变化对其影响、自身采取的应对措施等信息披露出来。这有助于投资者更准确地评估企业价值,发现投资机会,规避投资风险。解企业在气候风险方面的关注度和披露情况。...



