-
谷歌新闻原始数据集
谷歌新闻原始数据集 数据来源:互联网公开数据 标签:谷歌新闻,原始数据,自然语言处理,文本分析,数据科学,新闻内容 数据概述: 本数据集包含从谷歌新闻收集的新闻文章集合,数据通过网络抓取获得,涵盖多个新闻来源的原始、未加工文本。该数据集提供了广泛的新聞内容,适用于自然语言处理项目、文本分析和其他需要原始文本数据的数据科学应用。 数据用途概述:... -
ACL会议接受论文数据集2016-2018
ACL会议接受论文数据集2016-2018 数据来源:互联网公开数据 标签:ACL会议,接受论文,自然语言处理,研究趋势,学术出版,论文分析,开源数据 数据概述:... -
AskReddit热门评论数据集-NLP文本分析
AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。... -
PDF数据分析数据集
PDF数据分析数据集 数据来源:互联网公开数据 标签:PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取 数据概述: 本数据集包含了一系列PDF文档,以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素,为研究PDF文档的内容和结构提供了基础。 数据用途概述:... -
LLM提示恢复合成数据集
LLM提示恢复合成数据集 数据来源:互联网公开数据 标签:LLM,提示恢复,合成数据,自然语言处理,人工智能,机器学习,数据竞赛 数据概述: 本数据集使用Gemma 7B-IT生成了1000个示例,用于LLM提示恢复竞赛。数据集基于@thedrcat的原始数据集进行扩展,包含两个额外的列:一是Gemma 7B-IT生成的原始输出,二是去除“Sure…... -
带水印与不带水印文本生成数据集
带水印与不带水印文本生成数据集 数据来源:互联网公开数据 标签:文本生成,水印嵌入,语言模型,OPT-350M,数据集,机器学习,自然语言处理 数据概述:... -
英语单词频率数据集
英语单词频率数据集 数据来源:互联网公开数据 标签:单词频率,英语,语料库分析,自然语言处理,文本挖掘,数据可视化,机器学习 数据概述: 本数据集基于Google... -
推特用户情感分析主题聚类数据集
推特用户情感分析主题聚类数据集 数据来源:互联网公开数据 标签:推特,社交媒体,情感分析,主题聚类,自然语言处理,文本挖掘,舆情分析 数据概述: 本数据集包含经过聚类的推特(Twitter)用户推文数据,并结合了情感分析结果。原始数据经过预处理,包括清洗和自然语言处理(NLP)等步骤。数据集的核心是推文聚类,每个聚类代表一个特定的主题或话题。... -
古兰经文本数据集1963-2021
古兰经文本数据集1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,自然语言处理,情感分析,文本分类,主题建模,语言生成,宗教文本,文化研究 数据概述:... -
航空客户评论数据集
航空客户评论数据集 数据来源:互联网公开数据 标签:航空,客户评论,自然语言处理,文本清理,词元化,情感分析,预测建模 数据概述: 本数据集包含关于航空公司的客户文本评论,涵盖了乘客对航空公司服务的多方面反馈。数据集为学习、实践或测试初学者到中级的自然语言处理任务提供了丰富的资源,包括文本清理、词元化、情感分析以及基于分析结果的预测建模。... -
QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题
QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题 数据来源:互联网公开数据 标签:阅读理解,多选题,自然语言处理,机器学习,文本理解,问题解答,新闻,用户故事,小说,博客 数据概述:... -
孟加拉每日英语新闻文章数据集
孟加拉每日英语新闻文章数据集 数据来源:互联网公开数据 标签:孟加拉,新闻,自然语言处理,文本分析,时间序列,媒体研究,信息提取 数据概述: 本数据集收录了孟加拉每日英语新闻文章,数据来源包括五个主要的孟加拉英语新闻门户:The Daily Star、The Financial Express、New Age bd、Dhaka Tribune 和... -
烹饪平台用户评论与互动信息食谱评论与评分反馈数据集
数据来源 互联网公开数据 数据字段 Recipe_Name(食谱名称):用户评价所对应的食谱标题。 Recipe_Rank(食谱排名):食谱在平台前100名榜单中的排名情况。 Recipe_ID(食谱代码):每个食谱的唯一标识符。 User_ID(用户ID):用户的唯一身份标识。 User_Name(用户名):注册用户的显示名称。... -
互联网公开文本数据集统计分析报告
标题:互联网公开文本数据集统计分析报告 数据内容: 该数据集包含两个主要字段: 1. full_text:包含1263种不同的文本内容,每条记录代表一个完整的文本段落或短文本。 2. labels:包含2种不同的标签值,可能是二分类标签,用于对文本进行分类。 数据来源: 互联网公开数据 数据用途: 该数据集可用于多个行业的文本分析任务,例如: -... -
互联网公开数据集深度洞察与应用分析
标题:互联网公开数据集深度洞察与应用分析 数据内容: 该数据集包含以下字段: 1. id:标识数据记录的唯一标识符,共有53043种不同的值。 2. statement:描述具体事件或信息的文本字段,共有51074种不同的值。 3. status:表示事件或信息的状态,共有7种不同的值。 数据来源: 互联网公开数据 数据用途:... -
互联网公开数据集深入探索多领域信息资源
标题:互联网公开数据集深入探索多领域信息资源 数据内容: 该数据集包含了丰富的互联网公开数据,具体包括以下字段: 1. Class Index:表示数据分类的索引,共有4种不同的值。 2. Title:表示数据的标题或名称,共有114,350种不同的值。 3. Description:表示数据的描述信息,共有118,723种不同的值。... -
互联网公开数据集垃圾邮件分类与文本分析
标题:互联网公开数据集垃圾邮件分类与文本分析 数据内容:该数据集包含文本内容(text)和垃圾邮件分类(spam)两个字段。文本内容字段包含5695种不同的文本值,垃圾邮件分类字段包含两种不同的分类值(0和1)。 数据来源:互联网公开数据... -
-