找到172个数据集

标签: 预训练模型

过滤结果
  • 文本序列分类数据集

    2026年3月1日 30 192 21

    文本序列分类数据集_Text_Sequence_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 序列标注, 深度学习, BERT模型, 语料库, 机器学习, 自然语言处理, 预训练模型 数据概述: 该数据集包含从公开渠道获取的文本序列数据,主要用于文本分类和序列标注任务。主要特征如下:...
    packageimg
  • 基于弱监督的裂缝检测数据集与预训练模型

    2026年2月10日 30 181 93

    数据集概述 本数据集包含弱监督裂缝检测相关的数据集文件和预训练模型文件,数据集涵盖Aigle、Crack Forest Dataset、DeepCrack三个子数据集的不同粗糙度标注,包括人工生成和合成生成的标注;预训练模型为基于Xception65的TensorFlow模型,整体用于弱监督裂缝检测研究。 文件详解 弱监督裂缝检测数据集文件...
    packageimg
  • 小型哺乳动物分类模型及训练验证测试数据_2022年

    2026年2月9日 0 23 18

    数据集概述 本数据集包含小型哺乳动物分类模型,以及用于训练、验证和测试该模型的图像数据与相关文件。数据由Hanna Böhner生成,包含六份文件,覆盖模型文件、训练/验证/测试数据文本文件、训练图像压缩包及说明文档,支持小型哺乳动物图像分类模型的复现与应用。 文件详解 说明文档...
    packageimg
  • GenBank_2022_03_古菌预训练模型数据

    2026年1月31日 30 111 49

    数据集概述 本数据集为基于GenBank 2022年03月古菌数据构建的预训练模型压缩包,包含1个归档文件,无目录层级结构,主要用于古菌相关的生物信息学训练任务,无训练测试、数据标签或原始处理数据的拆分。 文件详解 文件名称:genbank-2022.03-archaea-k51_0.80_pretrained.zip 文件格式:ZIP...
    packageimg
  • CoderEval_Based_代码生成基准评估数据集

    2026年1月31日 30 58 44

    数据集概述 本数据集为CoderEval代码生成基准数据集,包含四十二个文件,无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据,涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包,支持超越独立函数的实用代码生成能力评估。 文件详解 数据文件(.json)...
    packageimg
  • DSM_Based_神经元形态学表示与特征提取研究数据

    2026年1月30日 30 140 108

    数据集概述 本数据集为研究“DSM: Deep Sequential Model for Complete Neuronal Morphology Representation and Feature...
    packageimg
  • AttackER_NER_Based_网络攻击归因标注数据集

    2026年1月29日 30 177 60

    数据集概述 本数据集为AttackER网络攻击归因NER数据集,包含8个文件,涵盖JSON格式和spacy格式的训练、测试、验证数据,以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型,适用于网络安全场景下的实体识别任务。 文件详解 数据文件(JSON格式)...
    packageimg
  • MLMD_PAH_Based多环芳烃非谐红外光谱计算补充材料数据

    2026年1月28日 30 175 100

    数据集概述 本数据集为论文《Computing Anharmonic Infrared Spectra of Polycyclic Aromatic Hydrocarbons Using Machine-Learning Molecular...
    packageimg
  • African_News_Corpus_非洲19种语言新闻语料数据

    2026年1月27日 30 202 121

    数据集概述 本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。 文件详解 压缩文件包...
    packageimg
  • CA_SUM_Based_视频摘要预训练模型数据_ICMR2022

    2026年1月27日 0 204 183

    数据集概述 本数据集包含CA-SUM网络架构的预训练模型,该架构用于无监督视频摘要任务,源自ICMR 2022论文提出的方法。模型通过集中注意力机制结合帧的独特性与多样性估计,提升摘要质量,支持基于SumMe和TVSum基准数据集的推理应用。 文件详解 压缩包文件:pretrained_models.zip 文件格式:ZIP...
    packageimg
  • ProGen2_Generated_生物基因序列生成与适应性评估数据

    2026年1月27日 30 177 90

    数据集概述 本数据集包含预训练和微调ProGen2模型生成的基因序列,以及用于评估该模型的适应性基准数据。数据以压缩包形式存储,共2个文件,无目录结构,主要用于生物信息学领域的基因序列相关研究与模型评估。 文件详解 generated_sequences.zip 文件格式:ZIP 内容说明:包含ProGen2模型(预训练及微调版本)生成的基因序列数据...
    packageimg
  • 复现包_基于OpenAI的嵌入语义代码审查评论相似度实证分析_2025

    2026年1月23日 30 53 52

    数据集概述 本数据集是SEAA 2025会议论文《OpenAI嵌入在语义代码审查评论相似度中的实证分析》的复现包,包含所有人工标注数据及可复现论文结果和图表的Jupyter笔记本,共4个文件,支持研究人员验证和扩展相关分析。 文件详解 人工标注数据文件...
    packageimg
  • somn_Based_医学CT程序容器化预训练模型数据_updated

    2026年1月26日 30 121 120

    数据集概述 本数据集为somn程序的容器化部署提供预训练模型,包含构建Docker镜像所需的归档文件和配置文件。somn程序由Denmark Laboratory与F. Hoffmann-La Roche, AG合作开发,用于医学CT相关任务,数据集含两个核心文件,支持容器镜像构建与模型加载。 文件详解 pretrained-somn.tar.gz...
    packageimg
  • DECCS_Based_深度聚类共识表示研究_数据集与预训练模型数据

    2026年1月25日 30 88 43

    数据集概述 本数据集为论文《Deep Clustering With Consensus Representations (DECCS)》配套的数据集与预训练模型资源,包含训练实验相关的压缩文件,支持深度聚类算法的研究与应用验证。 文件详解 数据压缩包 文件名称:data.zip 文件格式:ZIP...
    packageimg
  • Pianist8_MIDI_Based_钢琴音乐风格分类训练评估数据集

    2026年1月22日 30 86 63

    数据集概述 本数据集包含来自八位艺术家的四百一十一首钢琴演奏作品,作品通过YouTube下载,用于符号域音乐风格分类的训练与评估。艺术家涵盖流行、爵士、当代、宗教等风格类别,配对MIDI文件由Kong等人2021年提出的钢琴转录模型自动生成。 文件详解 文件名称:joann8512/Pianist8-v1.0.0.zip 文件格式:ZIP(压缩包)...
    packageimg
  • AGIMA_Score_Based_药物分子亲和力预测模型数据集_最新版

    2026年1月22日 30 85 11

    数据集概述 本数据集为AGIMA-Score模型构建提供支持,包含训练、验证、测试数据集及索引文件,还提供预训练模型的Docker容器和模型预测结果。核心内容是蛋白质-配体复合物的原子属性数据与结合亲和力标签,可用于分子建模和药物发现相关研究。 文件详解 训练数据集: 文件名称:training.zip 文件格式:ZIP 内容说明:源自PDBbind...
    packageimg
  • HyperPhS_Based_文本嵌入数据与预训练模型_Processed

    2026年1月21日 30 156 74

    数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
    packageimg
  • Exploiting_Hierarchy_医疗概念嵌入_ICD_10分层数据集

    2026年1月19日 30 61 28

    数据集概述 本数据集包含基于ICD-10编码标准构建的预训练医疗概念嵌入,通过扩展Word2Vec算法融入医疗编码的分层信息。数据来自美国中大西洋地区大型综合医疗机构约60万患者的数据集,包含ICD-10代码和CCSR分类的嵌入向量,可用于医疗数据分析与分类任务,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • CPTAC_LSCC_Based_InceptionV3预训练模型WSI特征表示数据

    2026年1月18日 30 10 0

    数据集概述 本数据集包含基于ImageNet预训练的InceptionV3骨干网络生成的CPTAC-LSCC(癌症蛋白质组学研究联盟-肺鳞状细胞癌)全切片图像(WSI)的SAMPLER特征表示,为生物医学图像分析提供结构化特征数据支持。 文件详解 文件名称:CPTAC-LSCC-20X-inceptionV3.zip 文件格式:ZIP...
    packageimg
  • TSE_2020_05_0217_Based_基础设施即代码缺陷预测工具验证数据集2

    2026年1月18日 30 46 7

    数据集概述 本数据集用于验证基础设施即代码(IaC)的项目内缺陷预测工具,基于Ansible语言的85个开源GitHub仓库构建,包含仓库列表、缺陷修复提交记录、修复文件信息、易故障文件列表、指标文件及项目分析结果,支持软件缺陷预测研究。 文件详解 repositories.json 文件格式:JSON...
    packageimg