数据集 - 海数据

SciRAG_QA_Based_多领域科学封闭问题问答基准数据集

2026年2月9日 30 128 48

数据集概述本数据集是用于科学问答（QA）系统基准测试的多领域封闭问题数据集，覆盖10个研究领域下的34个主题，包含108条人工标注的问答对，每条数据标注了答案类型、难度等级及带来源论文链接的黄金参考，可用于验证检索增强生成（RAG）系统在科学领域的性能。文件详解 metadata.csv 文件格式：CSV...

ZIP

GenBank_2022_03_古菌预训练模型数据

2026年1月31日 30 99 26

数据集概述本数据集为基于GenBank 2022年03月古菌数据构建的预训练模型压缩包，包含1个归档文件，无目录层级结构，主要用于古菌相关的生物信息学训练任务，无训练测试、数据标签或原始处理数据的拆分。文件详解文件名称：genbank-2022.03-archaea-k51_0.80_pretrained.zip 文件格式：ZIP...

ZIP

CodeGen_Based_构建系统代码生成实证研究数据集

2026年1月30日 30 70 66

数据集概述本数据集为构建系统代码生成实证研究的复制包，包含用于训练和测试CodeGen大语言模型的构建文件数据。数据分为来自Apache软件基金会的专家数据集（9,426个构建文件）和来自GitHub的通用数据集（3,917个构建文件），总计13,343个Maven构建文件，用于研究大语言模型在构建系统代码预测中的应用效果。文件详解数据集压缩包...

ZIP

AttackER_NER_Based_网络攻击归因标注数据集

2026年1月29日 30 148 121

数据集概述本数据集为AttackER网络攻击归因NER数据集，包含8个文件，涵盖JSON格式和spacy格式的训练、测试、验证数据，以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型，适用于网络安全场景下的实体识别任务。文件详解数据文件（JSON格式）...

ZIP

数字化发现_分子动力学_信息化合成金属有机框架深度学习预测数据

2026年1月28日 30 83 56

数据集概述本数据集围绕可合成金属有机框架（MOFs）的数字发现展开，包含用于分子动力学辅助的高保真深度学习模型相关文件，支持材料科学领域中MOFs合成可能性的预测研究，共5个文件。文件详解数据文件文件名称：input.csv 文件格式：CSV 字段映射介绍：包含Subdir、FE_T、Year、racs_D_mc-...

ZIP

Patcherizer_Based_Weight训练与微调压缩文件

2026年1月27日 30 46 28

数据集概述本数据集包含用于模型训练和微调的Weight相关文件，由Patcherizer管理。数据集结构简单，仅含一个压缩文件，无训练测试、数据标签或原始处理的划分，文件类型单一为压缩格式。文件详解压缩文件文件名称：weightfile.zip 文件格式：ZIP 字段映射介绍：无公开的字段映射信息，文件内容未提供预览。适用场景...

ZIP

GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

2026年1月23日 30 175 48

数据集概述本数据集为722作业项目数据，包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码，旨在通过LLM模型实现PR评论的重要性过滤，提升代码审查效率。文件详解数据文件文件名称：1500data.xlsx 文件格式：XLSX 字段映射介绍：包含3人标注的1500条GitHub...

ZIP

HyperPhS_Based_文本嵌入数据与预训练模型_Processed

2026年1月21日 30 59 54

数据集概述本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型，核心为三类文本嵌入JSON文件与一个模型文件，总计4个文件，无目录层级，主要用于自然语言处理相关任务的模型应用与文本分析。文件详解文本嵌入数据文件（共3个）...

ZIP

DataExtraction_Source_SwinT权重及训练数据_文件集

2026年1月20日 30 207 116

数据集概述本数据集为SwinT模型相关的权重及训练数据提取结果，包含3个文件，无目录结构。文件涉及kinetics400和kinetics600的训练数据JSON文件，以及SwinT最终权重PT文件，核心关联实验训练场景。文件详解训练数据文件文件名称：kinetics400_train.json、kinetics600_train.json...

ZIP

XYZ_Food_Reviews_Based_食品评论数据集编码与测试结果数据

2026年1月19日 30 59 16

数据集概述本数据集包含XYZ食品评论的原始数据、处理后数据及相关实验代码，涵盖数据处理、模型训练与实验测试三部分内容，支持食品评论相关的自然语言处理研究，共含5个文件。文件详解数据文件文件名称：Full Raw Dataset.csv 文件格式：CSV...

ZIP

Fine_Tuning_Large_Language_Model_安全代码生成大语言模型微调复现数据

2026年1月5日 30 151 89

数据集概述本数据集是论文“Fine Tuning Large Language Model for Secure Code Generation”的复现包，包含大语言模型微调所需的数据集及模型评估结果，用于支持安全代码生成方向的模型训练与性能验证研究，共包含3个文件。文件详解 README.md 文件格式：MD...

ZIP

Stack_Overflow协作者回答数量代码质量违规与辍学者综合预测分析复现包

2025年12月22日 30 153 131

数据集概述本数据集为Stack Overflow案例研究的复现包，围绕协作者回答数量、代码质量违规及辍学者状态三个任务，对21种算法进行评估，包含数据预处理方法（如归一化、标准化等）及CodeBERT模型微调等研究相关材料。文件详解文件名称: Replication Package.zip 文件格式: ZIP压缩包内容说明:...

ZIP

AUGUSTA语音转文本语言模型训练数据集

2025年12月22日 30 45 33

数据集概述该数据集包含用于微调AUGUSTA语音转文本模型的元数据和精选数据集，AUGUSTA是基于OpenAI Whisper定制的模型，可将南蒂罗尔方言语音转录为标准德语。文件详解文件名称: augusta_data-main.zip 文件格式: ZIP压缩包文件内容:...

ZIP

孟加拉语AI解决数学奥林匹克问题基准数据集

2025年12月19日 30 4 3

数据集概述该数据集围绕孟加拉语AI解决数学奥林匹克问题基准展开，通过评估大语言模型（LLMs）配置、微调特定数据集及应用检索增强生成（RAG）等方法，提升模型在多语言环境下的推理精度，为数学推理研究提供支持。文件详解文件名称：13624ijnlc04.pdf 文件格式：PDF（.pdf）...

ZIP

SportsOpi_争议性体育赛事YouTube评论公众立场数据集

2025年12月14日 30 41 3

数据集概述该数据集为手工整理的YouTube评论集合（约4.3万条），聚焦6起著名争议性体育事件（如腋下击球事件、曼卡德事件等），覆盖约40年历史。通过LLM模型（Llama、Deepseek）进行立场标注（支持、反对、中立），并经微调提升精度，用于公众立场检测研究。文件详解标签文件: Frank Lampard Ghost Goal...

ZIP

基于LLM的编码助手澄清问题设计数据集及模型权重

2025年12月7日 30 178 95

数据集概述本数据集包含用于研究“通过设计激发好奇心：基于LLM的编码助手询问澄清问题”的实验数据与模型权重，涵盖用户研究样本文档、分类器训练数据、测试管道数据、合成数据集及训练后的模型权重文件，为编码助手交互机制研究提供支持。文件详解文档文件： Sample of User Study RQ1_ name of...

ZIP

古诺尔斯语手稿HTR模型训练与测试数据集

2025年12月6日 30 201 199

数据集概述本数据集包含用于古诺尔斯语手稿手写文本识别（HTR）模型的训练与测试数据，支持DH2025论文研究。数据以ZIP压缩包形式存储，分为训练数据和测试数据两个文件夹，包含手稿图像及对应的ALTO-XML标注文件。文件详解压缩包文件：bifrost_01.zip（ZIP格式），包含两个子文件夹...

ZIP

Lora微调模型训练数据集与代码框架

2025年11月27日 30 67 37

数据集概述本数据集包含用于Lora微调模型训练的部分数据集及所使用的代码框架，涉及模型训练、测试相关的代码文件与数据文件，为模型微调任务提供数据与代码支持。文件详解代码文件（.py格式，共3个）： Evalution.py：模型评估相关代码文件 Qwen_max_test.py：Qwen模型测试相关代码文件 Model...

ZIP

大语言模型微调问答数据集

2025年10月22日 30 176 80

大语言模型微调问答数据集_Large_Language_Model_Fine_tuning_Question_Answering_Dataset 数据来源：互联网公开数据标签：大语言模型, 微调, 问答, 自然语言处理, 文本生成, 模型训练, 迁移学习, 机器学习数据概述：...

ZIP

深度学习模型预训练数据集DSBPretrainedModelsDataset-jerrythomas

2025年5月29日 30 184 15

深度学习模型预训练数据集DSBPretrainedModelsDataset-jerrythomas 数据来源：互联网公开数据标签：深度学习，预训练模型，数据集，图像识别，自然语言处理，迁移学习，模型库，人工智能数据概述：该数据集包含了预训练的深度学习模型，这些模型在各种数据集上进行了训练，可以用于多种下游任务。主要特征如下：...

ZIP

找到30个数据集

注册成功！