数据集 - 海数据

Isaac_Sim_Based_多臂机器人平台数字孪生合成数据

2026年1月29日 30 50 19

数据集概述本数据集为基于Isaac Sim构建的多臂机器人平台数字孪生相关数据，用于合成数据生成。数据与AISciencePlatform的icra2023_synthetic_data_pretraining_for_robotics仓库相关联，包含一个压缩文件，可支持机器人学领域的合成数据研究与应用。文件详解文件名称：data.zip...

ZIP

mromanello_APh_Corpus_v2_0_自然语言处理语料库数据

2026年1月20日 30 116 88

数据集概述本数据集为APh语料库v2.0版本，由Matteo Filipponi用于瑞士联邦理工学院（EPFL）硕士项目评估。数据以压缩包形式存储，无训练测试、数据标签或原始处理数据的拆分，未提供自述文件或内容预览。文件详解文件名称：mromanello/APh_Corpus-v2.0.zip 文件格式：ZIP...

ZIP

Objaverse_Sculpture_1_Based_雕塑1多格式素材完整数据

2025年12月8日 30 48 12

数据集概述本数据集包含与“雕塑1”相关的文件，主要由图片文件和三维模型文件构成，未区分训练/测试集、数据/标签集或原始/处理数据，为雕塑相关的视觉或三维模型研究提供基础数据支持。文件详解文件名称与格式： 5个JPEG格式图片文件：thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...

ZIP

通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator

2025年6月1日 30 98 20

通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator 数据来源：互联网公开数据标签：文本数据,元数据,自然语言处理,预训练,机器学习,情感分析,文本摘要,数据集,NLP 数据概述：本数据集“The Pile...

ZIP

文本评论毒性检测预训练数据集TextCommentToxicityDetectionPre-trainDataset-xiaoyany

2025年5月31日 30 21 13

文本评论毒性检测预训练数据集TextCommentToxicityDetectionPre-trainDataset-xiaoyany 数据来源：互联网公开数据标签：文本分类, 毒性检测, 情感分析, 机器学习, 自然语言处理, 预训练, 评论数据, 数据标注数据概述：...

ZIP

预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai

2025年5月30日 30 121 40

预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai 数据来源：互联网公开数据标签：自然语言处理, 预训练, 语言模型, 掩码语言模型, 文本数据, 深度学习, 文本生成, 数据集构建数据概述：...

ZIP

鸟类声音识别竞赛2023年EfficientNetB1预训练10秒数据集BirdCLEF2023EfficientNetB1Pretrain10sData...

2025年5月30日 30 116 69

鸟类声音识别竞赛2023年EfficientNetB1预训练10秒数据集BirdCLEF2023EfficientNetB1Pretrain10sDataset-awsaf49 数据来源：互联网公开数据标签：鸟类声音，声音识别，数据集，深度学习，EfficientNetB1，预训练，音频处理，生态研究数据概述：...

ZIP

文本情感分类新闻数据集TextSentimentClassificationNewsDataset-premsaikumar

2025年5月30日 30 4 3

文本情感分类新闻数据集TextSentimentClassificationNewsDataset-premsaikumar 数据来源：互联网公开数据标签：情感分析, 文本分类, 新闻, 自然语言处理, 深度学习, 语料库, 情感标签, 预训练数据概述：该数据集包含来自新闻报道的文本数据，记录了新闻文章的描述信息及其对应的情感类别。主要特征如下：...

ZIP

TabNet模型预训练测试数据集TabNetPretrainerTestDataset-mipypf

2025年5月29日 30 136 134

TabNet模型预训练测试数据集TabNetPretrainerTestDataset-mipypf 数据来源：互联网公开数据标签：TabNet模型，预训练，数据集，机器学习，特征工程，模型评估，深度学习，数据科学数据概述：该数据集包含用于TabNet模型预训练和测试的数据，记录了模型在预训练阶段的特征工程和模型评估过程。主要特征如下：...

ZIP

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis

2025年5月29日 30 121 15

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，预训练，数据集，文本数据，深度学习，语言模型，人工智能数据概述：该数据集包含了用于大规模语言模型（LLM）预训练的文本数据，旨在为模型提供丰富的语言知识和上下文理解能力。主要特征如下：时间跨度：...

ZIP

LSTM模型预训练数据文件数据集-cristianozhuo

2025年5月29日 30 1 0

LSTM模型预训练数据文件数据集-cristianozhuo 数据来源：互联网公开数据标签：深度学习，自然语言处理，LSTM，预训练，文本数据，数据集，序列建模，机器学习数据概述：该数据集包含用于LSTM（长短期记忆网络）模型预训练的文本数据，旨在为深度学习模型提供基础的语言知识。主要特征如下：...

ZIP

基尼亚卢旺达语预训练与微调数据集-kclaude

2025年5月28日 30 142 54

基尼亚卢旺达语预训练与微调数据集-kclaude 数据来源：互联网公开数据标签：基尼亚卢旺达语，自然语言处理，数据集，预训练，微调，语言模型，文本数据，非洲语言数据概述：该数据集包含了用于基尼亚卢旺达语自然语言处理任务的预训练和微调数据。主要特征如下：时间跨度：数据记录的时间范围没有明确限制，数据集持续更新，涵盖不同时期的文本资料。...

ZIP

大规模语言模型训练数据集MasterModelData-stillcler

2025年5月28日 30 45 11

大规模语言模型训练数据集MasterModelData-stillcler 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，数据集，文本数据，机器学习，深度学习，预训练，数据清洗数据概述：该数据集包含用于训练大规模语言模型的海量文本数据，涵盖多种来源和语言。主要特征如下：时间跨度：...

ZIP

TabNet预训练模型数据集TabNetPretrainerDataset-mipypf

2025年5月20日 30 160 123

TabNet预训练模型数据集TabNetPretrainerDataset-mipypf 数据来源：互联网公开数据标签：TabNet，机器学习，预训练，数据集，表格数据，模型训练，深度学习，数据挖掘数据概述：该数据集包含用于 TabNet 模型预训练的数据，旨在为 TabNet 模型提供初始的参数，从而加速模型收敛并提升性能。主要特征如下：...

ZIP

文本特征预训练数据集TextFeaturePretrainingData-haydenhyh

2025年5月1日 30 148 120

文本特征预训练数据集TextFeaturePretrainingData-haydenhyh 数据来源：互联网公开数据标签：文本特征, 预训练, 自然语言处理, 机器学习, 数据集构建, 文本分析, 结构化数据, 语料库数据概述：该数据集包含用于文本特征预训练的数据，记录了文本的结构化特征。主要特征如下：...

ZIP

EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92

2025年4月26日 30 128 2

EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92 数据来源：互联网公开数据标签：自然语言处理，预训练，数据集，文本嵌入，深度学习，语言模型，机器翻译，文本生成数据概述：该数据集是EEDI项目用于预训练的最终混合数据集，包含了多种来源的文本数据，旨在提升语言模型的性能。主要特征如下：...

ZIP

大型语言模型数据集LlamaDataset-simakov

2025年4月25日 30 63 51

大型语言模型数据集LlamaDataset-simakov 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，文本数据，语言模型，预训练，人工智能，文本生成数据概述：该数据集包含 Llama 项目收集的用于训练大型语言模型的数据，旨在支持文本生成，对话理解等多种自然语言处理任务。主要特征如下：...

ZIP

Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen

2025年4月25日 30 177 87

Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen 数据来源：互联网公开数据标签：自然语言处理，数据集，文本生成，机器学习，Llama，Transformer，语言模型，预训练数据概述：该数据集包含用于 Llama 1 模型第一步训练的数据，主要用于构建基础的语言模型。主要特征如下：...

ZIP

预训练标签数据集Pred-trainTagsDataset-ananyaajoshi

2025年4月25日 30 176 41

预训练标签数据集Pred-trainTagsDataset-ananyaajoshi 数据来源：互联网公开数据标签：预训练，标签，数据集，自然语言处理，文本分类，信息检索，机器学习，深度学习数据概述：该数据集包含了用于预训练的标签数据，旨在支持各种自然语言处理任务，例如文本分类，信息检索等。主要特征如下：时间跨度：...