数据集 - 海数据

孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57

2025年4月29日

孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57 数据来源：互联网公开数据标签：词形还原, 孟加拉语, 自然语言处理, 文本分析, 语言学, 文本预处理, 机器翻译, 词干提取数据概述：该数据集包含孟加拉语文本的词形还原数据，旨在为孟加拉语文本处理任务提供支持。主要特征如下：...

ZIP

印尼政治言论文本情感分析数据集IndonesianPoliticalDiscourseTextSentimentAnalysis-zzzpai

2025年4月29日

印尼政治言论文本情感分析数据集IndonesianPoliticalDiscourseTextSentimentAnalysis-zzzpai 数据来源：互联网公开数据标签：文本情感分析, 政治言论, 社交媒体, 自然语言处理, 情感分类, 数据清洗, 文本预处理, 印度尼西亚数据概述：...

ZIP

预处理与摘要生成数据集Pre-Proc-SumDataset-mohit3430

2025年4月26日

预处理与摘要生成数据集Pre-Proc-SumDataset-mohit3430 数据来源：互联网公开数据标签：自然语言处理，文本摘要，数据集，机器学习，文本预处理，信息提取，文本生成，深度学习数据概述：该数据集专注于文本预处理与摘要生成任务，记录了原始文本及其对应的预处理结果和自动生成的摘要。主要特征如下：...

ZIP

预处理语言数据集PreprocessingLanguageData-biatrixwang

2025年4月25日

预处理语言数据集PreprocessingLanguageData-biatrixwang 数据来源：互联网公开数据标签：自然语言处理，文本预处理，数据集，语言模型，文本分析，数据清洗，机器学习，中文处理数据概述：该数据集包含经过预处理的语言数据，旨在为自然语言处理任务提供干净，规范的文本输入。主要特征如下：...

ZIP

常见教育文本预处理数据集PreprocessCommonLitDataset-mkhoatd

2025年4月24日

常见教育文本预处理数据集PreprocessCommonLitDataset-mkhoatd 数据来源：互联网公开数据标签：教育研究，文本预处理，数据集，自然语言处理，机器学习，教育技术，文本分析，学术资源数据概述：该数据集包含来自CommonLit教育平台的数据，记录了常见教育文本的预处理信息。主要特征如下：...

ZIP

Quora问题重复检测预处理数据集QuoraQuestionDuplicationPreprocessingDataset-khaiurl

2025年4月24日

Quora问题重复检测预处理数据集QuoraQuestionDuplicationPreprocessingDataset-khaiurl 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，分类任务，问答系统，重复检测，文本预处理数据概述：...

ZIP

预处理与词形还原测试数据数据集-marouanesidali

2025年4月24日

预处理与词形还原测试数据数据集-marouanesidali 数据来源：互联网公开数据标签：文本预处理，词形还原，自然语言处理，数据集，文本分析，机器学习，NLP，测试数据数据概述：该数据集包含了经过预处理和词形还原处理的文本数据，主要用于测试和评估文本处理算法的性能。主要特征如下：...

ZIP

电影数据集用于自然语言处理文本预处理TMDBDatasetforTextPreprocessinginNLP-sugunapriya

2025年4月24日

电影数据集用于自然语言处理文本预处理TMDBDatasetforTextPreprocessinginNLP-sugunapriya 数据来源：互联网公开数据标签：电影数据，自然语言处理，文本预处理，数据集，情感分析，机器学习，文本挖掘，数据科学数据概述：该数据集来自The Movie...

ZIP

机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh

2025年4月24日

机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh 数据来源：互联网公开数据标签：机器学习，问答系统，印地语，数据集，自然语言处理，文本预处理，多语言处理，语言模型数据概述：该数据集包含来自机器学习与问答系统（MLQA）项目的印地语数据，记录了经过预处理的印地语文本内容。主要特征如下：...

ZIP

电影信息与分类数据集-TMDB-2023年-akshatshaw7

2025年4月24日

电影信息与分类数据集-TMDB-2023年-akshatshaw7 数据来源：互联网公开数据标签：电影,分类,数据集,文本预处理,电影推荐,电影分析,TMDB 数据概述：本数据集包含从The Movie Database (TMDB) API...

ZIP

词频统计数据集WordFrequenciesDataset-patricknormile

2025年4月23日

词频统计数据集WordFrequenciesDataset-patricknormile 数据来源：互联网公开数据标签：文本分析，词频统计，自然语言处理，数据集，数据挖掘，语言学，机器学习，文本预处理数据概述：该数据集包含来自多个文本来源的词频统计数据，记录了不同语料库中单词出现的频率。主要特征如下：...

ZIP

文本预处理与词形还原训练数据集-marouanesidali

2025年4月23日

文本预处理与词形还原训练数据集-marouanesidali 数据来源：互联网公开数据标签：文本预处理，词形还原，自然语言处理，机器学习，文本分析，数据集，NLP，训练数据数据概述：该数据集包含了经过预处理和词形还原的文本数据，主要用于训练和评估自然语言处理模型。主要特征如下：时间跨度：数据记录的时间范围不限，取决于原始文本数据集的构成。...

ZIP

法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal

2025年4月22日

法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal 数据来源：互联网公开数据标签：法律，文本预处理，数据集，自然语言处理，法律科技，机器学习，文本分析，信息检索数据概述：该数据集包含经过预处理的法律文本数据，主要用于自然语言处理和机器学习任务。主要特征如下：...

ZIP

文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi

2025年4月21日

文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi 数据来源：互联网公开数据标签：文本预处理,自然语言处理,NLP,大小写转换,过滤,分词,停用词,词干提取,文章数据集数据概述：...

ZIP

灾难推文清理与自然语言处理数据集-nishkoder

2025年4月21日

灾难推文清理与自然语言处理数据集-nishkoder 数据来源：互联网公开数据标签：NLP,推文清理,灾害检测,文本预处理,机器学习,数据清洗数据概述：...

ZIP

亚马逊精细食品评论数据集

2025年4月20日

亚马逊精细食品评论数据集数据来源：互联网公开数据标签：评论分析,情感分析,文本挖掘,食品行业,用户行为,自然语言处理,文本预处理数据概述：...

ZIP

自然语言处理数据集-缩略语与表情符号

2025年4月18日

自然语言处理数据集-缩略语与表情符号数据来源：互联网公开数据标签：自然语言处理,文本预处理,缩略语,标点符号,表情符号,情感分析,数据清洗,文本挖掘,NLP 数据概述：本数据集为自然语言处理（NLP）和文本挖掘任务提供了丰富的资源支持，包含多个关键文件，用于文本预处理过程中的数据清洗和特征提取。数据集主要组成部分包括：...