数据集 - 海数据

NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集

2026年1月28日 30 96 64

数据集概述本数据集为加泰罗尼亚语的自然语言理解（NLU）数据集，包含近1.2万条标注指令，涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图，标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。文件详解主数据集文件文件名称：NLUCat_dataset.json 文件格式：JSON...

ZIP

aspear_Source_SaferDecoding大语言模型对抗性提示防御微调数据集

2026年1月13日 30 152 136

数据集概述本数据集用于微调模型以防御jailbreak攻击，是SafeDecoding的扩展。包含252条人类生成的原始对抗性种子提示（覆盖18个有害类别），以及Llama2、Vicuna、Dolphin、Falcon、Guanaco模型针对这些提示生成的拒绝请求的响应数据。文件详解文件名称：finetune.json 文件格式：JSON...

ZIP

软件工程开源预训练模型自动分类复现包

2025年12月22日 30 158 71

数据集概述本数据集是硕士论文《软件工程开源预训练模型自动分类》的复现包，包含复现研究所需的全部材料，以压缩包形式存储，支持研究的可重复性验证与扩展分析。文件详解文件名称：PTM4SE_TFM.zip 文件格式：.zip（压缩包）...

ZIP

机器学习模型变更研究复现包2025

2025年12月16日 30 56 30

数据集概述本数据集是论文《How Do Machine Learning Models Change?》的复现包，包含在Hugging Face平台收集的超过十万个模型、六十八万次提交及两千二百五十一次版本发布数据，通过分类提交类型、分析提交序列和版本发布特征，探究机器学习模型的演化规律。文件详解...

ZIP

Hugging_Face模型到软件工程活动编目复制包

2025年12月12日 30 171 117

数据集概述该数据集是论文《Cataloguing Hugging Face Models to Software Engineering Activities: Automation and Findings》的复制包，包含复制研究所需的脚本、原始数据集、人工验证标注及最终整理数据集等相关内容。文件详解文件名称:...

ZIP

HuggingFace机器学习模型文档研究复现数据包

2025年12月9日 30 177 51

数据集概述本数据集是论文《Datasets, Bias, Licenses, and Terms of Use: A Large and Longitudinal Study on the Documentation of Hugging Face Machine Learning...

ZIP

Hugging_Face恶意预训练模型研究复现包

2025年12月9日 30 206 125

数据集概述本数据集是针对Hugging Face生态系统中恶意预训练模型（PTMs）的安全风险研究复现包，包含18195个恶意PTMs数据，涉及攻击手段、逃避策略、检测效果等分析内容，支持复现研究结果及AI模型供应链安全相关研究。文件详解该数据集由多个目录和文件组成，具体说明如下： - script/目录： -...