-
维基百科主题与类别数据集
2025年6月1日 30 20 18
维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political... -
维基百科人物内容数据集
2025年6月1日 30 66 33
维基百科人物内容数据集 数据来源:互联网公开数据 标签:维基百科,人物,内容分析,文本挖掘,知识图谱,自然语言处理,数据分析 数据概述:... -
维基百科推广文章数据集
2025年6月1日 30 72 41
维基百科推广文章数据集 数据来源:互联网公开数据 标签:推广文章,维基百科,文本分类,内容分析,数据挖掘,信息质量,自然语言处理 数据概述: 本数据集包含两类文章:一类是被用户标记为“具有推广性语气”的文章(promotional.csv),另一类是被评估为“优质文章”的文章(good.csv)。 - 每篇推广性文章可能带有多个标签,包括但不限于: -... -
维基百科-事物-主题相关页面数据分析数据集
2025年6月1日 30 4 3
维基百科-事物-主题相关页面数据分析数据集 数据来源:互联网公开数据 标签:维基百科,事物,知识图谱,文本分析,自然语言处理,主题分类,信息检索 数据概述:... -
维基百科句子拆分数据集-2023-thedevastator
2025年5月31日 30 188 177
维基百科句子拆分数据集-2023-thedevastator 数据来源:互联网公开数据 标签:维基百科,句子拆分,NLP,自然语言处理,文本分析,数据集,机器学习 数据概述:... -
维基百科标题多语言翻译数据集
2025年5月31日 30 102 68
维基百科标题多语言翻译数据集 数据来源:互联网公开数据 标签:维基百科,平行术语库,多语言翻译,印度语言,数据共享,自然语言处理 数据概述:... -
希伯来维基百科文章质量分类数据集-matankic
2025年5月31日 30 159 72
希伯来维基百科文章质量分类数据集-matankic 数据来源:互联网公开数据 标签:维基百科,希伯来语,文章质量,分类,数据集,Google Colab 数据概述: 本数据集收录了希伯来维基百科中文章的质量分类信息,数据来源于Google Colab上的Quality Groups of Hebrew Wikipedia Articles... -
维基百科页面未来流量预测数据集-tommyngx
2025年5月31日 30 147 86
维基百科页面未来流量预测数据集-tommyngx 数据来源:互联网公开数据 标签:维基百科,流量预测,时间序列,页面浏览量,机器学习,数据分析,预测模型 数据概述:... -
加利西亚维基百科页面修订与编辑数据集
2025年5月31日 30 93 67
加利西亚维基百科页面修订与编辑数据集 数据来源:互联网公开数据 标签:维基百科,加利西亚语,编辑行为,内容分析,修订历史,用户贡献,群体动态 数据概述:... -
维基百科2018-2019年网页流量数据集-sandeshbhat
2025年5月31日 30 159 7
维基百科2018-2019年网页流量数据集-sandeshbhat 数据来源:互联网公开数据 标签:维基百科,网页流量,时间序列,数据分析,预测,机器学习,多语言,数据科学,ARIMA,Prophet 数据概述:... -
维基百科页面浏览量时间序列数据集WikipediaPageviewTimeSeries-bigbang1s
2025年5月31日 30 166 65
维基百科页面浏览量时间序列数据集WikipediaPageviewTimeSeries-bigbang1s 数据来源:互联网公开数据 标签:维基百科, 页面浏览量, 时间序列, 数据分析, 预测模型, 流量分析, 趋势分析, 统计学 数据概述: 该数据集包含来自维基百科的页面浏览量数据,记录了特定页面在一段时间内的每日浏览量。主要特征如下:... -
维基百科评论区毒性文本分类数据集WikipediaCommentToxicityClassificationDataset-vineetkumar98
2025年5月31日 30 51 34
维基百科评论区毒性文本分类数据集WikipediaCommentToxicityClassificationDataset-vineetkumar98 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 恶意评论, 维基百科, 机器学习, 语料库 数据概述:... -
维基百科页面浏览量时间序列数据集WikipediaPageviewTimeSeries-leisinidan
2025年5月31日 30 166 147
维基百科页面浏览量时间序列数据集WikipediaPageviewTimeSeries-leisinidan 数据来源:互联网公开数据 标签:维基百科, 页面浏览量, 时间序列分析, 数据挖掘, 流量预测, 趋势分析, 统计分析, 数据可视化 数据概述:... -
土耳其语维基百科页面链接与内容数据集-2020年4月-korsavasci
2025年5月31日 30 65 40
土耳其语维基百科页面链接与内容数据集-2020年4月-korsavasci 数据来源:互联网公开数据 标签:维基百科,土耳其语,NLP,自然语言处理,页面链接,文本数据,知识图谱,推荐系统,语料库 数据概述: 本数据集基于2020年4月1日的土耳其语维基百科数据转储生成,旨在为土耳其语自然语言处理(NLP)任务提供支持。数据集包含两类主要文件:... -
维基百科百万标签主题分类数据集-nikbearbrown
2025年5月31日 30 40 27
维基百科百万标签主题分类数据集-nikbearbrown 数据来源:互联网公开数据 标签:维基百科,标签,主题分类,自然语言处理,主题建模,数据挖掘,研究,知识领域 数据概述:... -
奥里亚语新闻与维基百科数据集-2021-arnavs19
2025年5月31日 30 37 22
奥里亚语新闻与维基百科数据集-2021-arnavs19 数据来源:互联网公开数据 标签:奥里亚语,新闻,维基百科,语言模型,情感分析,主题建模,数据集 数据概述: 本数据集包含奥里亚语文本样本,来源包括新闻网站、维基百科和新闻语料库。数据集分为三个主要部分: 奥里亚语新闻文章:收集了19000篇近期奥里亚语新闻文章,涵盖政治、体育、娱乐等多个主题。... -
维基百科商品价格数据分析数据集WikipediaProductPriceAnalysisDataset-gabrielet
2025年5月30日 30 165 139
维基百科商品价格数据分析数据集WikipediaProductPriceAnalysisDataset-gabrielet 数据来源:互联网公开数据 标签:商品价格, 维基百科, 数据分析, 市场调研, 文本挖掘, 价格比较, 零售数据, 数据清洗 数据概述:... -
维基百科AI生成数据集-2023-arjunprakashrao
2025年5月30日 30 120 17
维基百科AI生成数据集-2023-arjunprakashrao 数据来源:互联网公开数据 标签:维基百科,AI,自然语言处理,文本生成,数据集,开源,机器学习,文本数据 数据概述: 本数据集由Aaditya... -
-
维基百科评论毒性分类数据集WikipediaCommentToxicityClassificationDataset-ashadullah
2025年5月30日 30 100 94
维基百科评论毒性分类数据集WikipediaCommentToxicityClassificationDataset-ashadullah 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 维基百科, 评论分析, 数据标注 数据概述:...