-
CERME_Topic_Model_Based_主题模型分析完整数据
2025年12月20日 30 47 41
数据集概述 该数据集是ESM论文的技术附录,包含CERME主题模型的相关文件,涵盖主题分布列表、可视化结果及模型生成代码,旨在确保研究透明度,为主题模型相关分析提供支持。 文件详解 文档类文件: Topic_model_CERME - pdf version.pdf: PDF格式,主题模型的PDF版本文档 ESM_CERME_technical...
-
基于OPENNLP的模型学习数据集
2025年12月15日 30 169 127
数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
-
科学教育研究主题建模数据集
2025年12月10日 30 101 16
数据集概述 本数据集包含Wiley期刊《Science Education》(前身为《General Science Quarterly》)近百年发表文章的文本数据,经清洗处理后用于自然语言处理分析,特别是潜在狄利克雷分配(LDA)主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据,并提供Jupyter...
-
商品描述文本清洗数据集
2025年9月30日 30 185 13
商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源:互联网公开数据 标签:文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注 数据概述: 该数据集包含来自电商平台或其他来源的商品描述文本,记录了经过清洗后的商品标题和要点信息。主要特征如下:...
-
印尼文本情感分析与预训练模型数据集
2025年8月13日 30 22 4
印尼文本情感分析与预训练模型数据集_Indonesian_Text_Sentiment_Analysis_and_Pre_trained_Model_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 印尼语, 预训练模型, 自然语言处理, 数据增强, 文本清洗, 机器学习 数据概述:...
-
马来语大规模文本数据集
2025年6月1日 30 147 121
马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
-
Tashkeela清理阿拉伯语带音符语料库
2025年6月1日 30 146 103
Tashkeela清理阿拉伯语带音符语料库 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注 数据概述:...
-
CORD-19文本清洗数据集
2025年5月31日 30 132 18
CORD-19文本清洗数据集 数据来源:互联网公开数据 标签:文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取 数据概述: 本数据集是对CORD-19(COVID-19 Open Research...
-
越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung
2025年5月30日 30 106 96
越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung 数据来源:互联网公开数据 标签:文本分类, 自然语言处理, 越南语, 多分类, 情感分析, 文本清洗, 机器学习, 深度学习 数据概述: 该数据集包含来自越南互联网的文本数据,记录了用于多类别文本分类的越南语文本示例。主要特征如下:...
-
多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho
2025年5月30日 30 169 8
多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源:互联网公开数据 标签:文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习 数据概述:...
-
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil
2025年5月30日 30 125 96
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:...
-
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen
2025年5月29日 30 201 128
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...
-
乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896
2025年5月29日 30 167 0
乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896 数据来源:互联网公开数据 标签:文本清洗, 数据预处理, 文本分析, 字符编码, 数据质量, 异常检测, 机器学习, 自然语言处理 数据概述: 该数据集包含经过预处理的文本数据,记录了经过编码处理后产生的乱码文本。主要特征如下:...
-
越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll
2025年5月28日 30 86 50
越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll 数据来源:互联网公开数据 标签:文本分类, 越南语, 自然语言处理, 语料库, 商业, 行政, 文本清洗, 机器学习 数据概述: 该数据集包含来自越南语文本的数据,记录了越南语文本及其对应的类别标签。主要特征如下:...
-
人工智能生成文本对比人类文本清洗数据集-dillonwongso
2025年5月28日 30 73 28
人工智能生成文本对比人类文本清洗数据集-dillonwongso 数据来源:互联网公开数据 标签:人工智能,文本生成,文本清洗,数据集,自然语言处理,机器学习,文本分析,对比研究 数据概述: 该数据集包含来自不同来源的人工智能生成文本和人类编写的文本,并经过清洗处理,旨在用于比较分析。主要特征如下:...
-
简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh
2025年5月28日 30 14 5
简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,文本清洗,人力资源,信息提取,职业发展 数据概述: 该数据集包含经过清洗处理的简历文本数据,记录了个人简历中的关键信息。主要特征如下:...
-
内容清洗数据集Content-CleanedDataDataset-trngththanhh
2025年5月28日 30 33 25
内容清洗数据集Content-CleanedDataDataset-trngththanhh 数据来源:互联网公开数据 标签:数据清洗,数据集,文本处理,自然语言处理,数据预处理,数据质量,机器学习,数据挖掘 数据概述: 该数据集包含经过清洗和标准化的文本数据,记录了从互联网公开来源收集的内容,并进行了去噪、去重和格式统一等处理。主要特征如下:...
-
文本内容恶意性检测训练数据集TextContentMaliciousnessDetectionTrainingDataset-haohan01
2025年5月18日 30 97 66
文本内容恶意性检测训练数据集TextContentMaliciousnessDetectionTrainingDataset-haohan01 数据来源:互联网公开数据 标签:文本分类, 恶意文本, 情感分析, 自然语言处理, 机器学习, 文本清洗, 语料库, 欺诈检测 数据概述:...
-
社交媒体仇恨言论检测数据集SocialMediaHateSpeechDetectionDataset-rajkariya
2025年5月18日 30 55 7
社交媒体仇恨言论检测数据集SocialMediaHateSpeechDetectionDataset-rajkariya 数据来源:互联网公开数据 标签:仇恨言论, 社交媒体, 文本分类, 情感分析, 恶意内容, 文本清洗, 自然语言处理, 数据标注 数据概述:...
-
维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache
2025年5月17日 30 186 51
维基百科页面标题清洗数据集WikipediaPageTitleCleaningDataset-mathurinache 数据来源:互联网公开数据 标签:维基百科, 页面标题, 文本清洗, 数据预处理, 自然语言处理, 文本分析, 标题提取, 数据集 数据概述: 该数据集包含来自维基百科的页面标题数据,记录了维基百科页面标题的原始文本。主要特征如下:...



