-
Telugu_Suicide_Based心理健康检测泰卢固语文本数据集
2026年2月6日 30 196 73
数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
-
DIALLS语料库的主要和次要分析报告_修订版
2026年2月1日 30 83 28
数据集概述 本数据集为DIALLS语料库的主次分析修订结果,包含一份处理后的Excel文件。数据涉及NLP文本语料库分析,可能关联医疗CT相关内容,无训练测试、数据标签或原始处理的拆分,专注于语料库的标准化分析呈现。 文件详解 文件名称:CORPUS LIGHT CODED_correct.xlsx 文件格式:XLSX...
-
PAN24_CLEF2024_Based多作者写作风格变化检测数据集
2026年1月23日 30 13 5
数据集概述 本数据集为PAN@CLEF2024共享任务“多作者写作风格分析”的专用数据,包含三种难度(Easy、Medium、Hard)的英文文档,任务为段落级内在风格变化检测。数据集分为训练集、验证集和测试集,训练集和验证集含真实标签,测试集无标签,用于算法开发与评估。 文件详解 文件名称:pan24-multi-author-...
-
HyperPhS_Based_文本嵌入数据与预训练模型_Processed
2026年1月21日 30 205 196
数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
-
塞尔维亚小说语料库2021年4月版
2025年12月4日 30 7 3
数据集概述 该数据集是2021年4月发布的塞尔维亚小说语料库(ELTeC-srp),包含90部以一级编码标注的小说文本,属于欧洲文学文本集合(ELTeC)的一部分,由COST Action项目推动构建。 文件详解 README.md(Markdown格式):包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍,帮助用户理解数据集的来源与使用规范。...
-
亚马逊机器学习挑战赛2022-23数据集
2025年6月4日 30 15 13
亚马逊机器学习挑战赛2022-23数据集 数据来源:互联网公开数据 标签:自然语言处理,产品数据分析,长度预测,机器学习竞赛,亚马逊平台,文本特征提取,包装优化 数据概述:...
-
嵌入与TF-IDF文本特征提取数据集EmbeddedandTF-IDFTextFeatureExtractionDataset-malav312
2025年5月12日 30 80 55
嵌入与TF-IDF文本特征提取数据集EmbeddedandTF-IDFTextFeatureExtractionDataset-malav312 数据来源:互联网公开数据 标签:自然语言处理,文本特征提取,机器学习,数据集,TF-IDF,词嵌入,文本分析,信息检索 数据概述:该数据集包含用于文本特征提取的嵌入和TF-...
-
邮件主题垃圾邮件分类数据集EmailSubjectSpamClassification-diazdeentr
2025年5月10日 30 41 17
邮件主题垃圾邮件分类数据集EmailSubjectSpamClassification-diazdeentr 数据来源:互联网公开数据 标签:垃圾邮件, 邮件分类, 文本挖掘, 自然语言处理, 机器学习, 文本特征提取, 邮件内容分析, 二分类 数据概述:...
-
词汇语义关联分析数据集LexicalSemanticAssociationAnalysis-murtadhayaseen
2025年4月29日 30 152 8
词汇语义关联分析数据集LexicalSemanticAssociationAnalysis-murtadhayaseen 数据来源:互联网公开数据 标签:词汇关联, 语义分析, 文本挖掘, 自然语言处理, 语料库, 词向量, 文本特征提取, 数据清洗 数据概述: 该数据集包含从多个来源收集的词汇数据,记录了词汇之间的语义关联信息。主要特征如下:...
-
文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser
2025年4月24日 30 169 156
文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser 数据来源:互联网公开数据 标签:文本分析,TF-IDF,数据集,自然语言处理,机器学习,信息检索,文本挖掘,文本特征 数据概述: 该数据集包含来自公开提交的文本特征提取数据,记录了通过TF-IDF方法提取的文本特征。主要特征如下:...
-
电子邮件分类检测垃圾邮件与非垃圾邮件数据集-brahimettanany
2025年4月21日 30 130 2
电子邮件分类检测垃圾邮件与非垃圾邮件数据集-brahimettanany 数据来源:互联网公开数据 标签:电子邮件分类,垃圾邮件,非垃圾邮件,文本分析,机器学习,数据标注,文本特征提取 数据概述:...
-
产品情感分析数据集2022
2025年4月14日 30 192 141
产品情感分析数据集2022 数据来源:互联网公开数据 标签:产品情感分析,自然语言处理,机器学习,预训练模型,情感分类,文本特征提取 数据概述:...



