-
垃圾短信垃圾邮件收集数据集
2024年11月9日 30 194 94
从 Grumbletext 网站手动提取了 425 条垃圾短信。这是一个英国论坛,手机用户在此公开声明垃圾短信,但大多数用户并未报告收到的垃圾短信。 NUS SMS Corpus (NSC) 的 3,375 条随机选择的 SMS 短信子集,该数据集包含约 10,000...
-
-
梦境符号解释数据集
2024年11月9日 30 86 20
该数据集包含有关各种梦境符号解释的信息。每行都提供一个特定的梦境符号及其相应的解释。它主要用于理解梦境背后的象征意义,并可用于心理学、梦境分析甚至创意写作等领域。
-
冒犯性语言文本数据集(英文)
2024年11月9日 30 88 5
数据以CSV格式和pickled pandas数据框(Python 2.7)存储。 count = 编码每条推文的CrowdFlower用户数量(最小值为3,有时当CF判断推文不可靠时,会有更多用户编码一条推文)。 hate_speech = 判断推文为仇恨言论的CF用户数量。 offensive_language =...
-
蛋白质RNA文本数据集
2024年11月9日 60 123 34
该数据集包含从 Wikipedia API 中提取的科学文本,重点关注与 RNA 和蛋白质相关的主题。它有两个 CSV 文件:一个是葡萄牙语,另一个是英语。该项目的目标是探索使用语言模型 (LLM) 和快速工程技术来识别与可能成为药物或疫苗开发潜在候选物的蛋白质相关的关键词。此外,该数据集可用于机器学习方法,使用...



