-
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator
2025年6月1日 30 115 49
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator 数据来源:互联网公开数据 标签:文本数据,元数据,自然语言处理,预训练,机器学习,情感分析,文本摘要,数据集,NLP 数据概述: 本数据集“The Pile... -
文本评论毒性检测预训练数据集TextCommentToxicityDetectionPre-trainDataset-xiaoyany
2025年5月31日 30 116 64
文本评论毒性检测预训练数据集TextCommentToxicityDetectionPre-trainDataset-xiaoyany 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 机器学习, 自然语言处理, 预训练, 评论数据, 数据标注 数据概述:... -
预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai
2025年5月30日 30 32 29
预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai 数据来源:互联网公开数据 标签:自然语言处理, 预训练, 语言模型, 掩码语言模型, 文本数据, 深度学习, 文本生成, 数据集构建 数据概述:... -
鸟类声音识别竞赛2023年EfficientNetB1预训练10秒数据集BirdCLEF2023EfficientNetB1Pretrain10sData...
2025年5月30日 30 126 107
鸟类声音识别竞赛2023年EfficientNetB1预训练10秒数据集BirdCLEF2023EfficientNetB1Pretrain10sDataset-awsaf49 数据来源:互联网公开数据 标签:鸟类声音,声音识别,数据集,深度学习,EfficientNetB1,预训练,音频处理,生态研究 数据概述:... -
文本情感分类新闻数据集TextSentimentClassificationNewsDataset-premsaikumar
2025年5月30日 30 110 1
文本情感分类新闻数据集TextSentimentClassificationNewsDataset-premsaikumar 数据来源:互联网公开数据 标签:情感分析, 文本分类, 新闻, 自然语言处理, 深度学习, 语料库, 情感标签, 预训练 数据概述: 该数据集包含来自新闻报道的文本数据,记录了新闻文章的描述信息及其对应的情感类别。主要特征如下:... -
TabNet模型预训练测试数据集TabNetPretrainerTestDataset-mipypf
2025年5月29日 30 142 44
TabNet模型预训练测试数据集TabNetPretrainerTestDataset-mipypf 数据来源:互联网公开数据 标签:TabNet模型,预训练,数据集,机器学习,特征工程,模型评估,深度学习,数据科学 数据概述: 该数据集包含用于TabNet模型预训练和测试的数据,记录了模型在预训练阶段的特征工程和模型评估过程。主要特征如下:... -
大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis
2025年5月29日 30 161 51
大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,预训练,数据集,文本数据,深度学习,语言模型,人工智能 数据概述: 该数据集包含了用于大规模语言模型(LLM)预训练的文本数据,旨在为模型提供丰富的语言知识和上下文理解能力。主要特征如下: 时间跨度:... -
LSTM模型预训练数据文件数据集-cristianozhuo
2025年5月29日 30 74 20
LSTM模型预训练数据文件数据集-cristianozhuo 数据来源:互联网公开数据 标签:深度学习,自然语言处理,LSTM,预训练,文本数据,数据集,序列建模,机器学习 数据概述: 该数据集包含用于LSTM(长短期记忆网络)模型预训练的文本数据,旨在为深度学习模型提供基础的语言知识。主要特征如下:... -
基尼亚卢旺达语预训练与微调数据集-kclaude
2025年5月28日 30 157 128
基尼亚卢旺达语预训练与微调数据集-kclaude 数据来源:互联网公开数据 标签:基尼亚卢旺达语,自然语言处理,数据集,预训练,微调,语言模型,文本数据,非洲语言 数据概述: 该数据集包含了用于基尼亚卢旺达语自然语言处理任务的预训练和微调数据。主要特征如下: 时间跨度:数据记录的时间范围没有明确限制,数据集持续更新,涵盖不同时期的文本资料。... -
大规模语言模型训练数据集MasterModelData-stillcler
2025年5月28日 30 173 53
大规模语言模型训练数据集MasterModelData-stillcler 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,数据集,文本数据,机器学习,深度学习,预训练,数据清洗 数据概述: 该数据集包含用于训练大规模语言模型的海量文本数据,涵盖多种来源和语言。主要特征如下: 时间跨度:... -
TabNet预训练模型数据集TabNetPretrainerDataset-mipypf
2025年5月20日 30 29 13
TabNet预训练模型数据集TabNetPretrainerDataset-mipypf 数据来源:互联网公开数据 标签:TabNet,机器学习,预训练,数据集,表格数据,模型训练,深度学习,数据挖掘 数据概述: 该数据集包含用于 TabNet 模型预训练的数据,旨在为 TabNet 模型提供初始的参数,从而加速模型收敛并提升性能。主要特征如下:... -
语言模型预训练与评估数据集LanguageModelPretrainingandEvaluationDataset-kunihikofurugori
2025年5月5日 30 2 1
语言模型预训练与评估数据集LanguageModelPretrainingandEvaluationDataset-kunihikofurugori 数据来源:互联网公开数据 标签:自然语言处理, 语言模型, 预训练, 文本评估, 深度学习, 机器学习, 文本分析, 语料库 数据概述:... -
文本特征预训练数据集TextFeaturePretrainingData-haydenhyh
2025年5月1日 30 55 14
文本特征预训练数据集TextFeaturePretrainingData-haydenhyh 数据来源:互联网公开数据 标签:文本特征, 预训练, 自然语言处理, 机器学习, 数据集构建, 文本分析, 结构化数据, 语料库 数据概述: 该数据集包含用于文本特征预训练的数据,记录了文本的结构化特征。主要特征如下:... -
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92
2025年4月26日 30 144 91
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92 数据来源:互联网公开数据 标签:自然语言处理,预训练,数据集,文本嵌入,深度学习,语言模型,机器翻译,文本生成 数据概述: 该数据集是EEDI项目用于预训练的最终混合数据集,包含了多种来源的文本数据,旨在提升语言模型的性能。主要特征如下:... -
大型语言模型数据集LlamaDataset-simakov
2025年4月25日 30 90 14
大型语言模型数据集LlamaDataset-simakov 数据来源:互联网公开数据 标签:自然语言处理,机器学习,数据集,文本数据,语言模型,预训练,人工智能,文本生成 数据概述: 该数据集包含 Llama 项目收集的用于训练大型语言模型的数据,旨在支持文本生成,对话理解等多种自然语言处理任务。主要特征如下:... -
Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen
2025年4月25日 30 142 51
Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本生成,机器学习,Llama,Transformer,语言模型,预训练 数据概述: 该数据集包含用于 Llama 1 模型第一步训练的数据,主要用于构建基础的语言模型。主要特征如下:... -
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi
2025年4月25日 30 84 5
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi 数据来源:互联网公开数据 标签:预训练,标签,数据集,自然语言处理,文本分类,信息检索,机器学习,深度学习 数据概述: 该数据集包含了用于预训练的标签数据,旨在支持各种自然语言处理任务,例如文本分类,信息检索等。主要特征如下: 时间跨度:... -
大规模语言模型数据LLMData数据集-snehapriyaamp
2025年4月24日 30 64 56
大规模语言模型数据LLMData数据集-snehapriyaamp 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,数据集,文本数据,机器学习,预训练,语言模型,数据清洗 数据概述: 该数据集包含用于训练和评估大规模语言模型(LLM)的文本数据,涵盖多种来源和语言。主要特征如下:... -
大规模语言模型开源项目LMSYS的快速版LLaMA数据集LMSYSOpen-sourceFastLLaMADataset-rushali98
2025年4月23日 30 116 113
大规模语言模型开源项目LMSYS的快速版LLaMA数据集LMSYSOpen-sourceFastLLaMADataset-rushali98 数据来源:互联网公开数据 标签:自然语言处理,大型语言模型,数据集,LLaMA,开源,文本生成,机器学习,预训练 数据概述:... -
孟加拉语BERT语言模型预训练与基准测试数据集-reasat
2025年4月23日 30 77 22
孟加拉语BERT语言模型预训练与基准测试数据集-reasat 数据来源:互联网公开数据 标签:孟加拉语,BERT,语言模型,自然语言处理,预训练,基准测试,低资源语言 数据概述:...