-
马拉维公共卫生疾病监测与应对问答数据集2020
马拉维公共卫生疾病监测与应对问答数据集2020 数据来源:互联网公开数据 标签:马拉维,公共卫生,疾病监测,问答数据,文本分类,机器学习,信息检索,培训材料 数据概述:...
-
-
Reddit平台自杀相关讨论内容数据集
Reddit平台自杀相关讨论内容数据集 数据来源:互联网公开数据 标签:Reddit,社交媒体,自杀,心理健康,文本分析,情感分析,网络社区,负面情绪,情感识别 数据概述: 本数据集通过browse.ai的网络爬取技术,收集了Reddit平台上关于自杀讨论的帖子,共包含500条记录。...
-
BBC新闻文本分类与主题分析数据集2004-2005
BBC新闻文本分类与主题分析数据集2004-2005 数据来源:互联网公开数据 标签:新闻分类,文本挖掘,自然语言处理,BBC新闻,分类模型,主题分析,语言处理技术 数据概述:...
-
亚马逊商品评论与评分预测数据集
亚马逊商品评论与评分预测数据集 数据来源:互联网公开数据 标签:亚马逊,评论分析,情感分析,评分预测,文本分类,电子商务,机器学习 数据概述 本数据集来源于亚马逊网站,通过爬取亚马逊商品的用户评论及其对应的评分构建而成。数据集包含约50,000条商品评论及其对应的5分制评分。每条记录主要包含以下两个关键字段: 1....
-
推特用户性别预测数据集
推特用户性别预测数据集 数据来源:互联网公开数据 标签:推特,性别预测,自然语言处理,机器学习,文本分析,社会语言学,性别识别 数据概述: 本数据集包含2019年5月21日至2019年6月1日期间通过Twitter...
-
星际之门-SG-1剧本语料库
星际之门-SG-1剧本语料库 数据来源:互联网公开数据 标签:星际之门,SG-1,剧本,对话,电视剧,文本分析,文化研究,语言研究 数据概述: 本数据集包含了星际之门:SG-1从第一季到第六季(直到丹尼尔升天且不再为主要角色)的所有对话和指令内容。数据集覆盖了超过5年的电视剧集,为研究电视剧中的对话模式、角色互动及文化背景提供了丰富的文本材料。...
-
EC类混合酶-底物关系预测数据集
EC类混合酶-底物关系预测数据集 数据来源:互联网公开数据 标签:酶学,EC分类,底物预测,机器学习,化学信息,结构信息,数据不平衡 数据概述: 本数据集包含酶-...
-
摩门经信息提取版数据集
摩门经信息提取版数据集 数据来源:互联网公开数据 标签:摩门经,宗教文本,自然语言处理,主题建模,文本研究,文化研究 数据概述: 该数据集包含了《摩门经》的文本内容,该文本来源于美国在线图书馆的Project...
-
-
科学问答数据集-物理-化学-生物等多学科知识测试数据集
科学问答数据集-物理-化学-生物等多学科知识测试数据集 数据来源:互联网公开数据 标签:科学,问答,教育,考试,物理,化学,生物,多选题,机器学习,自然语言处理 数据概述:...
-
新冠患者临床描述文本生成数据集
新冠患者临床描述文本生成数据集 数据来源:互联网公开数据 标签:新冠,患者,临床,描述,文本生成,自然语言处理,医疗,疫情 数据概述: 本数据集包含了从CoronaWhy-Task-TIES项目生成的患者临床描述文本。这些文本由特定的notebook处理生成,旨在为新冠患者提供临床信息。数据集是该notebook最近一次成功运行的输出结果。...
-
-
动漫作品信息与用户评价数据集-2021年11月
动漫作品信息与用户评价数据集-2021年11月 数据来源:互联网公开数据 标签:动漫,动画,作品,用户评价,评分,评论,内容分析,推荐系统,娱乐 数据概述:...
-
Reddit热门梗图文化探索数据集
Reddit热门梗图文化探索数据集 数据来源:互联网公开数据 标签:Reddit, 梗图, 流行文化, 用户互动, 社交媒体, 趋势分析, 内容分析 数据概述:...
-
印地语等多种语言Quora问答对数据集
印地语等多种语言Quora问答对数据集 数据来源:互联网公开数据 标签:问答对, Quora, 多语言, 印地语, 奥里亚语, 孟加拉语, 古吉拉特语, 马拉地语, 泰米尔语, 旁遮普语, 自然语言处理, 文本分析 数据概述: 本数据集包含3300对来自原始Quora问答对数据集的问答对。...
-
关于COVID-19恢复的推文数据集
关于COVID-19恢复的推文数据集 数据来源:互联网公开数据 标签:COVID-19,恢复,推文,社交媒体,流行病学,公共健康,社交分析 数据概述:...
-
小学数学难题训练数据集-小学阶段数学问题
小学数学难题训练数据集-小学阶段数学问题 数据来源:互联网公开数据 标签:数学问题,小学教育,逻辑推理,语言模型,教育数据集,GSM8K,数学训练 数据概述: 本数据集包含一系列小学阶段的数学问题,旨在评估和提高语言模型的数学推理能力。该数据集是GSM8K的一个更具挑战性的变体,通过将数字替换为更大且较少遇到的数值来增加难度。 数据格式:...
-
电影芭比与奥本海默IMDB影评情感分析数据集
电影芭比与奥本海默IMDB影评情感分析数据集 数据来源:互联网公开数据 标签:电影评论,IMDB,情感分析,芭比,奥本海默,影评,文本数据,电影,用户评价 数据概述:...
-
阿拉伯语仇恨言论检测数据集-42k
阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。...



