-
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99 数据来源:互联网公开数据 标签:文本嵌入,自然语言处理,数据集,机器学习,词向量,文本分析,语言模型,维基百科 数据概述:... -
英国维基百科图片文字识别数据集UKOCRWikiImageDataset-thnhhunhtn
英国维基百科图片文字识别数据集UKOCRWikiImageDataset-thnhhunhtn 数据来源:互联网公开数据 标签:OCR, 图像识别, 文本识别, 维基百科, 英国, 文字检测, 机器学习, 数据集 数据概述: 该数据集包含来自英国维基百科的图像数据,记录了用于文字识别(OCR)任务的图像及其对应的文本内容。主要特征如下:... -
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak 数据来源:互联网公开数据 标签:维基百科,土耳其语,数据集,自然语言处理,文本分析,机器学习,语言资源,文本挖掘 数据概述: 该数据集包含来自维基百科的土耳其语文本数据,记录了维基百科平台上土耳其语条目的完整内容。主要特征如下:... -
维基百科词条点击量预测数据集WikipediaArticleClickPrediction-zacchaeus
维基百科词条点击量预测数据集WikipediaArticleClickPrediction-zacchaeus 数据来源:互联网公开数据 标签:维基百科, 点击量预测, 文本分析, 数据挖掘, 时间序列分析, 机器学习, 词条浏览, 数据统计 数据概述: 该数据集包含来自维基百科的数据,记录了词条的浏览量信息,可用于预测词条的未来点击量。主要特征如下:... -
维基百科词向量嵌入数据集WikipediaExportVectorEmbeddingsDataset-jimicy
维基百科词向量嵌入数据集WikipediaExportVectorEmbeddingsDataset-jimicy 数据来源:互联网公开数据 标签:自然语言处理,词向量,数据集,文本分析,机器学习,知识图谱,语义理解,维基百科 数据概述:... -
维基百科内容数据集WikiDataset-selcukcan
维基百科内容数据集WikiDataset-selcukcan 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,机器学习,信息检索,知识图谱,语义分析 数据概述: 该数据集包含来自维基百科的文本内容,记录了维基百科上的文章、条目及相关信息。主要特征如下: 时间跨度:数据记录的时间范围从维基百科创建至今(动态更新)。... -
天文学与地质学维基百科文章数据集AstronomyandGeologyWikipediaArticles-abdelrahmanghunemiii
天文学与地质学维基百科文章数据集AstronomyandGeologyWikipediaArticles-abdelrahmanghunemiii 数据来源:互联网公开数据 标签:维基百科, 天文学, 地质学, 文本分析, 网页抓取, 知识图谱, 信息检索, 自然语言处理 数据概述:... -
维基百科文章文本数据集WikipediaArticleTextData-tolgaerdogmus
维基百科文章文本数据集WikipediaArticleTextData-tolgaerdogmus 数据来源:互联网公开数据 标签:维基百科, 文本数据, 自然语言处理, 文本分析, 信息检索, 语料库, 文本挖掘, 数据集 数据概述: 该数据集包含来自维基百科的文章文本数据,记录了维基百科上收录的各种主题的文章内容。主要特征如下:... -
GPT生成维基百科简介文本对比数据集GPT-WikiIntroductionTextComparison-prakharpradhan03
GPT生成维基百科简介文本对比数据集GPT-WikiIntroductionTextComparison-prakharpradhan03 数据来源:互联网公开数据 标签:自然语言处理, 文本生成, 维基百科, GPT模型, 文本对比, 摘要生成, 语言模型, 数据集 数据概述:... -
维基百科评论文本毒性分类数据集WikipediaCommentTextToxicityClassificationDataset-zhiyuli000
维基百科评论文本毒性分类数据集WikipediaCommentTextToxicityClassificationDataset-zhiyuli000 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 机器学习, 自然语言处理, 恶意评论, 文本标注, 维基百科 数据概述:... -
维基百科旅行模板提取数据集-dkayton
维基百科旅行模板提取数据集-dkayton 数据来源:互联网公开数据 标签:维基百科,旅行,模板,文本挖掘,自然语言处理,数据集,信息提取,知识图谱 数据概述: 该数据集包含从维基百科中提取的旅行相关模板数据,记录了旅行相关的结构化信息。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于维基百科数据的更新。... -
维基百科训练数据集Wiki-TrainDataset-victoriasaz
维基百科训练数据集Wiki-TrainDataset-victoriasaz 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,维基百科,文本分类,语言模型,信息检索 数据概述: 该数据集包含来自维基百科的文本数据,主要用于训练自然语言处理模型。主要特征如下:... -
成吉思汗维基百科传记文本数据集GenghisKhanWikipediaBiographyTextDataset-mehmeteminaydin
成吉思汗维基百科传记文本数据集GenghisKhanWikipediaBiographyTextDataset-mehmeteminaydin 数据来源:互联网公开数据 标签:历史人物, 维基百科, 传记文本, 自然语言处理, 文本分析, 蒙古帝国, 历史研究, 数据清洗 数据概述:... -
维基百科评论毒性分类数据集WikipediaCommentsToxicityClassificationDataset-vedanttolia
维基百科评论毒性分类数据集WikipediaCommentsToxicityClassificationDataset-vedanttolia 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 恶意评论, 维基百科, 自然语言处理, 深度学习, 数据标注 数据概述:... -
维基百科页面入度数据集Wiki-LiteIn-degreeDataset-colinsmyth001
维基百科页面入度数据集Wiki-LiteIn-degreeDataset-colinsmyth001 数据来源:互联网公开数据 标签:网络分析,数据集,维基百科,入度分析,图论,数据挖掘,社会科学,网页结构 数据概述: 该数据集包含来自维基百科的页面入度数据,记录了维基百科页面之间的引用关系。主要特征如下: 时间跨度:... -
维基百科评论文本毒性分析数据集WikipediaCommentTextToxicityAnalysis-taishioikawa
维基百科评论文本毒性分析数据集WikipediaCommentTextToxicityAnalysis-taishioikawa 数据来源:互联网公开数据 标签: 文本分析, 毒性检测, 评论分类, 自然语言处理, 机器学习, 情感分析, 维基百科, 数据标注 数据概述:... -
维基百科元数据数据集WikipediaMetadataDataset-chankhavu
维基百科元数据数据集WikipediaMetadataDataset-chankhavu 数据来源:互联网公开数据 标签:元数据,维基百科,数据集,文本挖掘,自然语言处理,机器学习,信息检索,数据科学 数据概述: 该数据集包含来自维基百科的元数据,记录了维基百科条目的详细信息。主要特征如下: 时间跨度:数据记录的时间范围为2023年6月1日。... -
维基百科文章摘要数据集WikipediaArticlesSummary-sayedmahmoud
维基百科文章摘要数据集WikipediaArticlesSummary-sayedmahmoud 数据来源:互联网公开数据 标签:维基百科, 文本摘要, 自然语言处理, 文本分析, 信息检索, 知识图谱, 数据挖掘, 语料库 数据概述: 该数据集包含来自维基百科的文章摘要信息,记录了文章标题、正文内容及对应的URL链接。主要特征如下:... -
维基百科摘要数据集WikipediaSummaryDataset-pbhaskar2003
维基百科摘要数据集WikipediaSummaryDataset-pbhaskar2003 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,机器学习,信息检索,文本分析,维基百科,语义理解 数据概述: 该数据集包含来自维基百科的文章及其对应的摘要,旨在用于文本摘要任务。主要特征如下:... -
维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache
维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache 数据来源:互联网公开数据 标签:维基百科, 页面标题, 文本清洗, 数据预处理, 自然语言处理, 文本分析, 标题提取, 数据集 数据概述: 该数据集包含来自维基百科的页面标题数据,记录了维基百科页面标题的原始文本。主要特征如下:...