-
预处理与摘要生成数据集Pre-Proc-SumDataset-mohit3430
预处理与摘要生成数据集Pre-Proc-SumDataset-mohit3430 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,机器学习,文本预处理,信息提取,文本生成,深度学习 数据概述: 该数据集专注于文本预处理与摘要生成任务,记录了原始文本及其对应的预处理结果和自动生成的摘要。主要特征如下:... -
预处理语言数据集PreprocessingLanguageData-biatrixwang
预处理语言数据集PreprocessingLanguageData-biatrixwang 数据来源:互联网公开数据 标签:自然语言处理,文本预处理,数据集,语言模型,文本分析,数据清洗,机器学习,中文处理 数据概述: 该数据集包含经过预处理的语言数据,旨在为自然语言处理任务提供干净,规范的文本输入。主要特征如下:... -
常见教育文本预处理数据集PreprocessCommonLitDataset-mkhoatd
常见教育文本预处理数据集PreprocessCommonLitDataset-mkhoatd 数据来源:互联网公开数据 标签:教育研究,文本预处理,数据集,自然语言处理,机器学习,教育技术,文本分析,学术资源 数据概述: 该数据集包含来自CommonLit教育平台的数据,记录了常见教育文本的预处理信息。主要特征如下:... -
Quora问题重复检测预处理数据集QuoraQuestionDuplicationPreprocessingDataset-khaiurl
Quora问题重复检测预处理数据集QuoraQuestionDuplicationPreprocessingDataset-khaiurl 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,分类任务,问答系统,重复检测,文本预处理 数据概述:... -
预处理与词形还原测试数据数据集-marouanesidali
预处理与词形还原测试数据数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,数据集,文本分析,机器学习,NLP,测试数据 数据概述: 该数据集包含了经过预处理和词形还原处理的文本数据,主要用于测试和评估文本处理算法的性能。主要特征如下:... -
电影数据集用于自然语言处理文本预处理TMDBDatasetforTextPreprocessinginNLP-sugunapriya
电影数据集用于自然语言处理文本预处理TMDBDatasetforTextPreprocessinginNLP-sugunapriya 数据来源:互联网公开数据 标签:电影数据,自然语言处理,文本预处理,数据集,情感分析,机器学习,文本挖掘,数据科学 数据概述: 该数据集来自The Movie... -
机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh
机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh 数据来源:互联网公开数据 标签:机器学习,问答系统,印地语,数据集,自然语言处理,文本预处理,多语言处理,语言模型 数据概述: 该数据集包含来自机器学习与问答系统(MLQA)项目的印地语数据,记录了经过预处理的印地语文本内容。主要特征如下:... -
电影信息与分类数据集-TMDB-2023年-akshatshaw7
电影信息与分类数据集-TMDB-2023年-akshatshaw7 数据来源:互联网公开数据 标签:电影,分类,数据集,文本预处理,电影推荐,电影分析,TMDB 数据概述: 本数据集包含从The Movie Database (TMDB) API... -
词频统计数据集WordFrequenciesDataset-patricknormile
词频统计数据集WordFrequenciesDataset-patricknormile 数据来源:互联网公开数据 标签:文本分析,词频统计,自然语言处理,数据集,数据挖掘,语言学,机器学习,文本预处理 数据概述: 该数据集包含来自多个文本来源的词频统计数据,记录了不同语料库中单词出现的频率。主要特征如下:... -
文本预处理与词形还原训练数据集-marouanesidali
文本预处理与词形还原训练数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,机器学习,文本分析,数据集,NLP,训练数据 数据概述: 该数据集包含了经过预处理和词形还原的文本数据,主要用于训练和评估自然语言处理模型。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于原始文本数据集的构成。... -
法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal
法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal 数据来源:互联网公开数据 标签:法律,文本预处理,数据集,自然语言处理,法律科技,机器学习,文本分析,信息检索 数据概述: 该数据集包含经过预处理的法律文本数据,主要用于自然语言处理和机器学习任务。主要特征如下:... -
文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi
文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi 数据来源:互联网公开数据 标签:文本预处理,自然语言处理,NLP,大小写转换,过滤,分词,停用词,词干提取,文章数据集 数据概述:... -
灾难推文清理与自然语言处理数据集-nishkoder
灾难推文清理与自然语言处理数据集-nishkoder 数据来源:互联网公开数据 标签:NLP,推文清理,灾害检测,文本预处理,机器学习,数据清洗 数据概述:... -
-
自然语言处理数据集-缩略语与表情符号
自然语言处理数据集-缩略语与表情符号 数据来源:互联网公开数据 标签:自然语言处理,文本预处理,缩略语,标点符号,表情符号,情感分析,数据清洗,文本挖掘,NLP 数据概述: 本数据集为自然语言处理(NLP)和文本挖掘任务提供了丰富的资源支持,包含多个关键文件,用于文本预处理过程中的数据清洗和特征提取。数据集主要组成部分包括:... -
新闻组文章分类数据集1990-2000
新闻组文章分类数据集1990-2000 数据来源:互联网公开数据 标签:新闻组,文本分类,文本预处理,文本聚类,主题挖掘,主题分类,自然语言处理 数据概述:... -
说唱歌词NLP数据集
说唱歌词NLP数据集 数据来源:互联网公开数据 标签:说唱,歌词,NLP,文本分析,文本预处理,文本分类,音乐分析 数据概述: 本数据集收录了来自11位不同艺术家的说唱歌词,包括Drake、J. Cole、Kendrick Lamar、Eminem、Nas、Skepta、Rapsody、Nicki... -
印度移动与非移动技术文章及推文数据集2023
印度移动与非移动技术文章及推文数据集2023 数据来源:互联网公开数据 标签:移动技术,非移动技术,文章,推文,文本分类,文本预处理,翻译,音译,印度,多语言 数据概述:... -
VentHere埃塞俄比亚情绪与情感分析数据集
VentHere埃塞俄比亚情绪与情感分析数据集 数据来源:互联网公开数据 标签:情绪分析,情感分析,社交媒体,Telegram,在线社区,文本预处理,数据挖掘,机器学习 数据概述: 本数据集来源于埃塞俄比亚Telegram频道Vent... -
数据200-20新闻组文本分类数据集
数据200-20新闻组文本分类数据集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,NLP,新闻组,文本预处理,机器学习,监督学习 数据概述: 本数据集是一个经过预处理的文本数据集合,来源为scikit-learn提供的20...