找到29个数据集

标签: 模型微调

过滤结果
  • GenBank_2022_03_古菌预训练模型数据

    2026年1月31日 30 205 42

    数据集概述 本数据集为基于GenBank 2022年03月古菌数据构建的预训练模型压缩包,包含1个归档文件,无目录层级结构,主要用于古菌相关的生物信息学训练任务,无训练测试、数据标签或原始处理数据的拆分。 文件详解 文件名称:genbank-2022.03-archaea-k51_0.80_pretrained.zip 文件格式:ZIP...
    packageimg
  • CodeGen_Based_构建系统代码生成实证研究数据集

    2026年1月30日 30 85 44

    数据集概述 本数据集为构建系统代码生成实证研究的复制包,包含用于训练和测试CodeGen大语言模型的构建文件数据。数据分为来自Apache软件基金会的专家数据集(9,426个构建文件)和来自GitHub的通用数据集(3,917个构建文件),总计13,343个Maven构建文件,用于研究大语言模型在构建系统代码预测中的应用效果。 文件详解 数据集压缩包...
    packageimg
  • AttackER_NER_Based_网络攻击归因标注数据集

    2026年1月29日 30 129 39

    数据集概述 本数据集为AttackER网络攻击归因NER数据集,包含8个文件,涵盖JSON格式和spacy格式的训练、测试、验证数据,以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型,适用于网络安全场景下的实体识别任务。 文件详解 数据文件(JSON格式)...
    packageimg
  • 数字化发现_分子动力学_信息化合成金属有机框架深度学习预测数据

    2026年1月28日 30 195 148

    数据集概述 本数据集围绕可合成金属有机框架(MOFs)的数字发现展开,包含用于分子动力学辅助的高保真深度学习模型相关文件,支持材料科学领域中MOFs合成可能性的预测研究,共5个文件。 文件详解 数据文件 文件名称:input.csv 文件格式:CSV 字段映射介绍:包含Subdir、FE_T、Year、racs_D_mc-...
    packageimg
  • Patcherizer_Based_Weight训练与微调压缩文件

    2026年1月27日 30 160 77

    数据集概述 本数据集包含用于模型训练和微调的Weight相关文件,由Patcherizer管理。数据集结构简单,仅含一个压缩文件,无训练测试、数据标签或原始处理的划分,文件类型单一为压缩格式。 文件详解 压缩文件 文件名称:weightfile.zip 文件格式:ZIP 字段映射介绍:无公开的字段映射信息,文件内容未提供预览。 适用场景...
    packageimg
  • GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

    2026年1月23日 30 85 55

    数据集概述 本数据集为722作业项目数据,包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码,旨在通过LLM模型实现PR评论的重要性过滤,提升代码审查效率。 文件详解 数据文件 文件名称:1500data.xlsx 文件格式:XLSX 字段映射介绍:包含3人标注的1500条GitHub...
    packageimg
  • HyperPhS_Based_文本嵌入数据与预训练模型_Processed

    2026年1月21日 30 166 135

    数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
    packageimg
  • DataExtraction_Source_SwinT权重及训练数据_文件集

    2026年1月20日 30 128 12

    数据集概述 本数据集为SwinT模型相关的权重及训练数据提取结果,包含3个文件,无目录结构。文件涉及kinetics400和kinetics600的训练数据JSON文件,以及SwinT最终权重PT文件,核心关联实验训练场景。 文件详解 训练数据文件 文件名称:kinetics400_train.json、kinetics600_train.json...
    packageimg
  • XYZ_Food_Reviews_Based_食品评论数据集编码与测试结果数据

    2026年1月19日 30 54 3

    数据集概述 本数据集包含XYZ食品评论的原始数据、处理后数据及相关实验代码,涵盖数据处理、模型训练与实验测试三部分内容,支持食品评论相关的自然语言处理研究,共含5个文件。 文件详解 数据文件 文件名称:Full Raw Dataset.csv 文件格式:CSV...
    packageimg
  • Fine_Tuning_Large_Language_Model_安全代码生成大语言模型微调复现数据

    2026年1月5日 30 117 73

    数据集概述 本数据集是论文“Fine Tuning Large Language Model for Secure Code Generation”的复现包,包含大语言模型微调所需的数据集及模型评估结果,用于支持安全代码生成方向的模型训练与性能验证研究,共包含3个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • Stack_Overflow协作者回答数量代码质量违规与辍学者综合预测分析复现包

    2025年12月22日 30 28 24

    数据集概述 本数据集为Stack Overflow案例研究的复现包,围绕协作者回答数量、代码质量违规及辍学者状态三个任务,对21种算法进行评估,包含数据预处理方法(如归一化、标准化等)及CodeBERT模型微调等研究相关材料。 文件详解 文件名称: Replication Package.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • AUGUSTA语音转文本语言模型训练数据集

    2025年12月22日 30 90 13

    数据集概述 该数据集包含用于微调AUGUSTA语音转文本模型的元数据和精选数据集,AUGUSTA是基于OpenAI Whisper定制的模型,可将南蒂罗尔方言语音转录为标准德语。 文件详解 文件名称: augusta_data-main.zip 文件格式: ZIP压缩包 文件内容:...
    packageimg
  • 孟加拉语AI解决数学奥林匹克问题基准数据集

    2025年12月19日 30 41 5

    数据集概述 该数据集围绕孟加拉语AI解决数学奥林匹克问题基准展开,通过评估大语言模型(LLMs)配置、微调特定数据集及应用检索增强生成(RAG)等方法,提升模型在多语言环境下的推理精度,为数学推理研究提供支持。 文件详解 文件名称:13624ijnlc04.pdf 文件格式:PDF(.pdf)...
    packageimg
  • SportsOpi_争议性体育赛事YouTube评论公众立场数据集

    2025年12月14日 30 36 27

    数据集概述 该数据集为手工整理的YouTube评论集合(约4.3万条),聚焦6起著名争议性体育事件(如腋下击球事件、曼卡德事件等),覆盖约40年历史。通过LLM模型(Llama、Deepseek)进行立场标注(支持、反对、中立),并经微调提升精度,用于公众立场检测研究。 文件详解 标签文件: Frank Lampard Ghost Goal...
    packageimg
  • 基于LLM的编码助手澄清问题设计数据集及模型权重

    2025年12月7日 30 13 8

    数据集概述 本数据集包含用于研究“通过设计激发好奇心:基于LLM的编码助手询问澄清问题”的实验数据与模型权重,涵盖用户研究样本文档、分类器训练数据、测试管道数据、合成数据集及训练后的模型权重文件,为编码助手交互机制研究提供支持。 文件详解 文档文件: Sample of User Study RQ1_ name of...
    packageimg
  • 古诺尔斯语手稿HTR模型训练与测试数据集

    2025年12月6日 30 205 175

    数据集概述 本数据集包含用于古诺尔斯语手稿手写文本识别(HTR)模型的训练与测试数据,支持DH2025论文研究。数据以ZIP压缩包形式存储,分为训练数据和测试数据两个文件夹,包含手稿图像及对应的ALTO-XML标注文件。 文件详解 压缩包文件:bifrost_01.zip(ZIP格式),包含两个子文件夹...
    packageimg
  • Lora微调模型训练数据集与代码框架

    2025年11月27日 30 106 104

    数据集概述 本数据集包含用于Lora微调模型训练的部分数据集及所使用的代码框架,涉及模型训练、测试相关的代码文件与数据文件,为模型微调任务提供数据与代码支持。 文件详解 代码文件(.py格式,共3个): Evalution.py:模型评估相关代码文件 Qwen_max_test.py:Qwen模型测试相关代码文件 Model...
    packageimg
  • 大语言模型微调问答数据集

    2025年10月22日 30 147 15

    大语言模型微调问答数据集_Large_Language_Model_Fine_tuning_Question_Answering_Dataset 数据来源:互联网公开数据 标签:大语言模型, 微调, 问答, 自然语言处理, 文本生成, 模型训练, 迁移学习, 机器学习 数据概述:...
    packageimg
  • 深度学习模型预训练数据集DSBPretrainedModelsDataset-jerrythomas

    2025年5月29日 30 21 2

    深度学习模型预训练数据集DSBPretrainedModelsDataset-jerrythomas 数据来源:互联网公开数据 标签:深度学习,预训练模型,数据集,图像识别,自然语言处理,迁移学习,模型库,人工智能 数据概述: 该数据集包含了预训练的深度学习模型,这些模型在各种数据集上进行了训练,可以用于多种下游任务。主要特征如下:...
    packageimg
  • Gemma模型微调综合编码数据集-malakafaqahmad

    2025年5月29日 30 64 21

    Gemma模型微调综合编码数据集-malakafaqahmad 数据来源:互联网公开数据 标签:编码,数据集,机器学习,自然语言处理,Gemma,模型微调,代码生成,代码理解 数据概述:该数据集包含用于Gemma模型微调的综合编码数据,旨在提升模型在代码生成、代码理解等任务上的表现。主要特征如下:...
    packageimg