-
网络爬取图像及描述数据集
网络爬取图像及描述数据集 数据来源:互联网公开数据 标签:图像描述,网络爬取,计算机视觉,自然语言处理,多模态学习,图像理解,视觉分析,文本生成,数据清洗,数据增强 数据概述: 本数据集是一个从互联网公开数据中收集的大型图像-... -
简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97
简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97 数据来源:互联网公开数据 标签:简历,技能,预测,NLTK,自然语言处理,文本分析,机器学习,教育,就业 数据概述:... -
中央银行讲话预测金融市场数据集2021-2022-keerthan27
中央银行讲话预测金融市场数据集2021-2022-keerthan27 数据来源:互联网公开数据 标签:金融市场预测,中央银行,讲话分析,自然语言处理,机器学习,数据集,预测模型 数据概述:... -
英语初学者情感分析数据集-多情感文本-生成文本-dangerousai
英语初学者情感分析数据集-多情感文本-生成文本-dangerousai 数据来源:互联网公开数据 标签:情感分析,文本生成,英语学习,自然语言处理,机器学习,情感分类,LLM,GPT-3.5,ChatGLM-4 数据概述:... -
超细粒度二元偏好学习数据集-2021-thedevastator
超细粒度二元偏好学习数据集-2021-thedevastator 数据来源:互联网公开数据 标签:超细粒度偏好,机器学习,自然语言处理,推荐系统,客户满意度,用户偏好预测 数据概述: 本数据集用于超细粒度二元偏好学习任务,包含三个不同的数据集:SFT、PPO 和... -
巴西新闻文章文本数据集-新闻内容分析-2024
巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。... -
COVID-19开放研究数据集-2021-sshikamaru
COVID-19开放研究数据集-2021-sshikamaru 数据来源:互联网公开数据 标签:COVID-19,开放研究,自然语言处理,医学研究,数据科学,科研数据,科学数据,疫情研究 数据概述:... -
亚马逊商品评论情感分析数据集-用户评论-2018
亚马逊商品评论情感分析数据集-用户评论-2018 数据来源:互联网公开数据 标签:亚马逊,商品评论,情感分析,文本分类,用户反馈,机器学习,自然语言处理,评论数据 数据概述:... -
Kaggle平台用户支持文档与LLM应用数据集-20231217
Kaggle平台用户支持文档与LLM应用数据集-20231217 数据来源:互联网公开数据 标签:Kaggle, LLM, RAG, 用户支持, 问答系统, 自然语言处理, 机器学习, 数据集 数据概述: 本数据集旨在用于测试基于LLM(大型语言模型)和RAG(检索增强生成)技术的简单应用构建。 数据用途概述:... -
俄罗斯电报频道多分类数据集
俄罗斯电报频道多分类数据集 数据来源:互联网公开数据 标签:电报频道,俄语,多分类,文本分析,社交媒体,主题分类,自然语言处理 数据概述: 本数据集包含俄罗斯语言电报频道的贴文文本及其主题标签。每个贴文可以被标注为多个主题类别,涵盖广泛的议题和内容类型。数据集旨在反映俄语社交媒体内容的多样性和复杂性,为文本分类和主题分析提供可靠的数据基础。... -
慕课视频讲座嵌入向量与主题分布数据集-200门课程-saurabhshahane
慕课视频讲座嵌入向量与主题分布数据集-200门课程-saurabhshahane 数据来源:互联网公开数据 标签:MOOC,慕课,视频讲座,自然语言处理,Word2Vec,LDA,Gensim,词嵌入,主题分布,教育,在线学习 数据概述:... -
越南劳动报新闻文章数据集-2022年5月19日
越南劳动报新闻文章数据集-2022年5月19日 数据来源:互联网公开数据 标签:新闻,越南,劳动报,NLP,文本分析,文章,爬取数据,自然语言处理 数据概述: 本数据集抓取自越南劳动报2022年5月19日的新闻文章,未经任何数据处理。数据集包含文章的多种属性,旨在为自然语言处理(NLP)任务提供数据支持。 数据包含以下字段: URL:文章链接。... -
基于深度学习的软件缺陷报告自动分类数据集-GoogleChromium-缺陷修复者预测-多版本
基于深度学习的软件缺陷报告自动分类数据集-GoogleChromium-缺陷修复者预测-多版本 数据来源:互联网公开数据 标签:软件工程,缺陷管理,机器学习,自然语言处理,深度学习,Bug报告,Google Chromium,分类,开发者分配 数据概述:... -
组合评论语料库数据集
组合评论语料库数据集 数据来源:互联网公开数据 标签:毒性评论,语言偏见,多语言分析,文本分类,自然语言处理,社会媒体,情感分析 数据概述: 本数据集整合了过去三年内的评论数据,涵盖了来自多个公开数据集的内容。数据集主要来源于三个关键的比赛任务: 1. 毒性评论分类挑战(Toxic Comment Classification... -
Reddit问答系统训练与测试数据集2011-thedevastator
Reddit问答系统训练与测试数据集2011-thedevastator 数据来源:互联网公开数据 标签:问答系统,Reddit,用户生成内容,训练数据,测试数据,自然语言处理,机器学习 数据概述:... -
卫星图像多视角描述数据集-图像与文本-训练-测试-验证集-devang1910
卫星图像多视角描述数据集-图像与文本-训练-测试-验证集-devang1910 数据来源:互联网公开数据 标签:卫星图像,图像描述,自然语言处理,计算机视觉,图像生成,文本生成,深度学习,训练数据集,测试数据集,验证数据集 数据概述:... -
-
阿拉伯语新闻综合数据集-2021-ahmeddulaimi
阿拉伯语新闻综合数据集-2021-ahmeddulaimi 数据来源:互联网公开数据 标签:阿拉伯语,新闻,文本分类,自然语言处理,文化,经济,体育,政治,艺术,社会,科技,医疗,宗教 数据概述:... -
HackerNews帖子数据分析数据集-故事-提问-展示和投票-时间跨度未知
HackerNews帖子数据分析数据集-故事-提问-展示和投票-时间跨度未知 数据来源:互联网公开数据 标签:Hacker News, 帖子, 故事, 提问, 展示, 投票, 社交媒体, 舆情分析, 数据挖掘, 自然语言处理 数据概述: 本数据集包含了从Hacker News(HN)平台抓取的所有帖子数据,涵盖了故事(Stories)、提问(Ask... -
推特情感分析数据集100万条-2023年-raj713335
推特情感分析数据集100万条-2023年-raj713335 数据来源:互联网公开数据 标签:推特,情感分析,社交媒体,自然语言处理,文本挖掘,机器学习,数据标注,情感分类 数据概述: 本数据集包含100万条从推特上提取的推文,使用推特开源API收集。每条推文已经被标注了情感极性(0 = 负面,2 = 中性,4 =...