-
维基百科评论毒性分类数据集WikipediaCommentToxicityClassificationDataset-ashadullah
维基百科评论毒性分类数据集WikipediaCommentToxicityClassificationDataset-ashadullah 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 维基百科, 评论分析, 数据标注 数据概述:... -
维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson
维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 内容生成, 知识图谱, 文本分类, 机器翻译, 语料库, 维基百科 数据概述:... -
维基百科计算机科学文章数据集-mohamedamgad2002
维基百科计算机科学文章数据集-mohamedamgad2002 数据来源:互联网公开数据 标签:计算机科学,维基百科,数据集,文本分析,自然语言处理,信息检索,学术研究,知识图谱 数据概述: 该数据集包含了维基百科上关于计算机科学领域的文章数据,旨在为计算机科学领域的研究和应用提供支持。主要特征如下:... -
英国维基百科图片OCR识别数据集UKWikipediaImageOCRRecognition-thnhhunhtn
英国维基百科图片OCR识别数据集UKWikipediaImageOCRRecognition-thnhhunhtn 数据来源:互联网公开数据 标签:OCR, 图像识别, 文本识别, 维基百科, 英国, 图像数据, 自然语言处理, 数据集 数据概述:... -
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja 数据来源:互联网公开数据 标签:维基百科,泰卢固语,文本分析,自然语言处理,数据集,语言学,信息检索,文本挖掘 数据概述: 该数据集包含来自泰卢固语维基百科的文章数据,记录了泰卢固语维基百科中所有文章的详细信息。主要特征如下:... -
维基百科STEM领域文章数据集Wiki17kSTEMArticlesDataset-manchvictor
维基百科STEM领域文章数据集Wiki17kSTEMArticlesDataset-manchvictor 数据来源:互联网公开数据 标签:维基百科,STEM,数据集,文本分析,自然语言处理,机器学习,学术资源,科学教育 数据概述:该数据集包含来自维基百科的STEM领域文章,记录了17000多篇与科学、技术、工程和数学相关的内容。主要特征如下:... -
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07 数据来源:互联网公开数据 标签:人物传记, 文本数据, 维基百科, 自然语言处理, 文本分析, 传记信息, 知识图谱, 信息检索 数据概述:... -
多语言维基百科内容翻译对照数据集MultilingualWikipediaContentTranslationDataset-bamps53
多语言维基百科内容翻译对照数据集MultilingualWikipediaContentTranslationDataset-bamps53 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 多语言, 维基百科, 自然语言处理, 文本对齐, 语料库, 语言学 数据概述:... -
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037 数据来源:互联网公开数据 标签:泰米尔语,维基百科,摘要生成,自然语言处理,机器学习,文本处理,多语言,人工智能 数据概述:... -
维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami
维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami 数据来源:互联网公开数据 标签:电影,维基百科,IMDb,数据集,文本分析,信息检索,数据挖掘,关联分析 数据概述: 该数据集整合了维基百科电影条目信息和互联网电影数据库(IMDb)数据,记录了电影的详细信息及其关联。主要特征如下: 时间跨度:... -
维基百科标识符数据集Wiki-IDSDataset-useruser98
维基百科标识符数据集Wiki-IDSDataset-useruser98 数据来源:互联网公开数据 标签:维基百科,标识符,数据集,文本分析,自然语言处理,信息检索,学术研究,网络科学 数据概述:该数据集包含了来自维基百科的页面标识符数据,记录了维基百科页面的唯一标识符及其相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze
维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze 数据来源:互联网公开数据 标签:维基百科,日语,自然语言处理,数据集,文本分析,语言学,信息检索,文本解析 数据概述: 该数据集包含来自维基百科日语版的数据,记录了维基百科日语条目的初始解析结果。主要特征如下:... -
维基百科争议页面变更历史数据集-alzulas
维基百科争议页面变更历史数据集-alzulas 数据来源:互联网公开数据 标签:维基百科,争议页面,编辑历史,数据分析,自然语言处理,文本挖掘,舆情分析,社会科学 数据概述: 该数据集包含来自维基百科的争议页面变更历史数据,记录了这些页面在一段时间内的编辑活动。主要特征如下: 时间跨度:数据记录的时间范围从页面创建到最新的编辑记录。... -
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99 数据来源:互联网公开数据 标签:文本嵌入,自然语言处理,数据集,机器学习,词向量,文本分析,语言模型,维基百科 数据概述:... -
英国维基百科图片文字识别数据集UKOCRWikiImageDataset-thnhhunhtn
英国维基百科图片文字识别数据集UKOCRWikiImageDataset-thnhhunhtn 数据来源:互联网公开数据 标签:OCR, 图像识别, 文本识别, 维基百科, 英国, 文字检测, 机器学习, 数据集 数据概述: 该数据集包含来自英国维基百科的图像数据,记录了用于文字识别(OCR)任务的图像及其对应的文本内容。主要特征如下:... -
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak 数据来源:互联网公开数据 标签:维基百科,土耳其语,数据集,自然语言处理,文本分析,机器学习,语言资源,文本挖掘 数据概述: 该数据集包含来自维基百科的土耳其语文本数据,记录了维基百科平台上土耳其语条目的完整内容。主要特征如下:... -
维基百科词条点击量预测数据集WikipediaArticleClickPrediction-zacchaeus
维基百科词条点击量预测数据集WikipediaArticleClickPrediction-zacchaeus 数据来源:互联网公开数据 标签:维基百科, 点击量预测, 文本分析, 数据挖掘, 时间序列分析, 机器学习, 词条浏览, 数据统计 数据概述: 该数据集包含来自维基百科的数据,记录了词条的浏览量信息,可用于预测词条的未来点击量。主要特征如下:... -
维基百科词向量嵌入数据集WikipediaExportVectorEmbeddingsDataset-jimicy
维基百科词向量嵌入数据集WikipediaExportVectorEmbeddingsDataset-jimicy 数据来源:互联网公开数据 标签:自然语言处理,词向量,数据集,文本分析,机器学习,知识图谱,语义理解,维基百科 数据概述:... -
维基百科内容数据集WikiDataset-selcukcan
维基百科内容数据集WikiDataset-selcukcan 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,机器学习,信息检索,知识图谱,语义分析 数据概述: 该数据集包含来自维基百科的文本内容,记录了维基百科上的文章、条目及相关信息。主要特征如下: 时间跨度:数据记录的时间范围从维基百科创建至今(动态更新)。... -
天文学与地质学维基百科文章数据集AstronomyandGeologyWikipediaArticles-abdelrahmanghunemiii
天文学与地质学维基百科文章数据集AstronomyandGeologyWikipediaArticles-abdelrahmanghunemiii 数据来源:互联网公开数据 标签:维基百科, 天文学, 地质学, 文本分析, 网页抓取, 知识图谱, 信息检索, 自然语言处理 数据概述:...