找到36个数据集

标签: 文本清洗

过滤结果
  • 马来语大规模文本数据集

    2025年6月1日 30 135 66

    马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
    packageimg
  • Tashkeela清理阿拉伯语带音符语料库

    2025年6月1日 30 33 7

    Tashkeela清理阿拉伯语带音符语料库 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注 数据概述:...
    packageimg
  • CORD-19文本清洗数据集

    2025年5月31日 30 78 3

    CORD-19文本清洗数据集 数据来源:互联网公开数据 标签:文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取 数据概述: 本数据集是对CORD-19(COVID-19 Open Research...
    packageimg
  • 越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung

    2025年5月30日 30 159 76

    越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung 数据来源:互联网公开数据 标签:文本分类, 自然语言处理, 越南语, 多分类, 情感分析, 文本清洗, 机器学习, 深度学习 数据概述: 该数据集包含来自越南互联网的文本数据,记录了用于多类别文本分类的越南语文本示例。主要特征如下:...
    packageimg
  • 多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

    2025年5月30日 30 120 81

    多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源:互联网公开数据 标签:文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习 数据概述:...
    packageimg
  • 阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil

    2025年5月30日 30 23 12

    阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:...
    packageimg
  • 维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen

    2025年5月29日 30 135 29

    维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...
    packageimg
  • 乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896

    2025年5月29日 30 18 0

    乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896 数据来源:互联网公开数据 标签:文本清洗, 数据预处理, 文本分析, 字符编码, 数据质量, 异常检测, 机器学习, 自然语言处理 数据概述: 该数据集包含经过预处理的文本数据,记录了经过编码处理后产生的乱码文本。主要特征如下:...
    packageimg
  • 越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll

    2025年5月28日 30 73 71

    越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll 数据来源:互联网公开数据 标签:文本分类, 越南语, 自然语言处理, 语料库, 商业, 行政, 文本清洗, 机器学习 数据概述: 该数据集包含来自越南语文本的数据,记录了越南语文本及其对应的类别标签。主要特征如下:...
    packageimg
  • 人工智能生成文本对比人类文本清洗数据集-dillonwongso

    2025年5月28日 30 202 114

    人工智能生成文本对比人类文本清洗数据集-dillonwongso 数据来源:互联网公开数据 标签:人工智能,文本生成,文本清洗,数据集,自然语言处理,机器学习,文本分析,对比研究 数据概述: 该数据集包含来自不同来源的人工智能生成文本和人类编写的文本,并经过清洗处理,旨在用于比较分析。主要特征如下:...
    packageimg
  • 简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh

    2025年5月28日 30 162 85

    简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,文本清洗,人力资源,信息提取,职业发展 数据概述: 该数据集包含经过清洗处理的简历文本数据,记录了个人简历中的关键信息。主要特征如下:...
    packageimg
  • 文本内容恶意性检测训练数据集TextContentMaliciousnessDetectionTrainingDataset-haohan01

    2025年5月18日 30 205 123

    文本内容恶意性检测训练数据集TextContentMaliciousnessDetectionTrainingDataset-haohan01 数据来源:互联网公开数据 标签:文本分类, 恶意文本, 情感分析, 自然语言处理, 机器学习, 文本清洗, 语料库, 欺诈检测 数据概述:...
    packageimg
  • 社交媒体仇恨言论检测数据集SocialMediaHateSpeechDetectionDataset-rajkariya

    2025年5月18日 30 189 45

    社交媒体仇恨言论检测数据集SocialMediaHateSpeechDetectionDataset-rajkariya 数据来源:互联网公开数据 标签:仇恨言论, 社交媒体, 文本分类, 情感分析, 恶意内容, 文本清洗, 自然语言处理, 数据标注 数据概述:...
    packageimg
  • 维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache

    2025年5月17日 30 3 1

    维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache 数据来源:互联网公开数据 标签:维基百科, 页面标题, 文本清洗, 数据预处理, 自然语言处理, 文本分析, 标题提取, 数据集 数据概述: 该数据集包含来自维基百科的页面标题数据,记录了维基百科页面标题的原始文本。主要特征如下:...
    packageimg
  • 文本清洗语料数据集TextCleaningCorpus-tayyabhussain7

    2025年5月13日 30 148 27

    文本清洗语料数据集TextCleaningCorpus-tayyabhussain7 数据来源:互联网公开数据 标签:文本清洗, 自然语言处理, 数据预处理, 语料库, 文本数据, 数据清洗, 文本分析, 语言学 数据概述: 该数据集包含经过清洗的文本数据,记录了用于文本预处理和分析的语料。主要特征如下:...
    packageimg
  • 德语新闻标题文本数据集GermanNewsHeadlinesTextData-aginator

    2025年5月12日 30 85 64

    德语新闻标题文本数据集GermanNewsHeadlinesTextData-aginator 数据来源:互联网公开数据 标签:新闻标题, 文本分析, 自然语言处理, 德语, 文本清洗, 时间序列, 语料库, 摘要生成 数据概述: 该数据集包含来自德国新闻媒体的德语新闻标题文本,记录了新闻标题及其对应的时间戳和经过清洗的文本。主要特征如下:...
    packageimg
  • 音乐歌词清洗与情感分析数据集MusicLyricsCleaningandSentimentAnalysis-dubeyabhi

    2025年5月11日 30 190 7

    音乐歌词清洗与情感分析数据集MusicLyricsCleaningandSentimentAnalysis-dubeyabhi 数据来源:互联网公开数据 标签:歌词分析, 音乐, 文本清洗, 情感分析, 自然语言处理, 文本分类, 流行音乐, 机器学习 数据概述:...
    packageimg
  • 推特文本语料清洗数据集TwitterTextCorpusCleaning-jonathancy

    2025年5月11日 30 178 150

    推特文本语料清洗数据集TwitterTextCorpusCleaning-jonathancy 数据来源:互联网公开数据 标签:推特数据, 文本清洗, 自然语言处理, 语料库, 文本分析, 数据预处理, 社交媒体, 数据挖掘 数据概述: 该数据集包含来自推特平台的文本数据,记录了推文内容,主要用于文本清洗和预处理研究。主要特征如下:...
    packageimg
  • 阿拉伯语文本预处理数据集ArabicTextPreprocessingDataset-meshaalalharthy

    2025年5月1日 30 1 0

    阿拉伯语文本预处理数据集ArabicTextPreprocessingDataset-meshaalalharthy 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 自然语言处理, 语料库, 文本清洗, 词汇分析, 字符分析, 机器学习 数据概述: 该数据集包含阿拉伯语文本,主要用于阿拉伯语文本的预处理与分析任务。主要特征如下:...
    packageimg
  • 社交媒体用户反馈数据分析SocialMediaUserFeedbackDataAnalysis-divanisfumustika

    2025年5月1日 30 26 16

    社交媒体用户反馈数据分析SocialMediaUserFeedbackDataAnalysis-divanisfumustika 数据来源:互联网公开数据 标签:用户反馈, 文本分析, 情感分析, 社交媒体, 文本清洗, 自然语言处理, 客户体验, 品牌声誉 数据概述:...
    packageimg