找到9个数据集

分类: 公开数据 标签: JSONL格式

过滤结果
  • CoderEval_Based_代码生成基准评估数据集

    2026年1月31日 30 82 27

    数据集概述 本数据集为CoderEval代码生成基准数据集,包含四十二个文件,无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据,涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包,支持超越独立函数的实用代码生成能力评估。 文件详解 数据文件(.json)...
    packageimg
  • AffRoDB_Based_机构字符串到ROR标识符映射数据集2024

    2026年1月26日 30 135 99

    数据集概述 本数据集是AffRoDB,包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry(ROR)标识符的人工整理映射。每条记录经专家评估,包含出版物DOI、原始机构字符串、专家判断及最终ROR ID,基于2024年1月ROR数据库版本构建,用于机构隶属关系消歧方法的评估与基准测试。...
    packageimg
  • 编程谜题源代码_Python实现_程序语义推理_自然语言标注数据_2023年10月22日

    2026年1月13日 30 198 78

    数据集概述 本数据集包含用于程序语义推理的Python语句自然语言标注,由共享文件名前缀的文件对组成。数据源自Programming Puzzles项目,以压缩包形式提供,包含标注文件和参考源代码文件两类,可支持程序语义理解相关的研究与应用。 文件详解 压缩包文件 文件名称:archive_22102023.zip 文件格式:ZIP...
    packageimg
  • SeMRA_Anatomy_Mappings_Database_解剖学命名资源景观分析数据

    2026年1月13日 30 177 35

    数据集概述 本数据集为SeMRA解剖学映射数据库,支持解剖学命名资源景观分析,包含原始与处理后的映射数据、统计文件、可视化图表及配置脚本等27个文件,覆盖Uberon、MeSH等多类解剖学本体的映射关系与统计信息,可用于解剖学命名资源的整合与分析研究。 文件详解 文档类文件 文件名称:README.md 文件格式:MD...
    packageimg
  • 全球200万SARS_CoV_2基因组数据集_Viridian_Maple0_6_11处理

    2025年12月24日 30 160 71

    数据集概述 该数据集包含经MAPLE0.6.11处理的全球200万条SARS-CoV-2基因组数据,源自Viridian平台。涵盖基因组比对、变异信息、进化树及元数据等多类型文件,为新冠病毒基因组研究提供基础数据支持。 文件详解 元数据文件:...
    packageimg
  • LLM一致性测试组合测试用例数据集

    2025年12月18日 30 133 104

    数据集概述 该数据集是用于大语言模型(LLM)一致性测试的组合测试用例集合,包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果,支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。 文件详解 核心问题文件:...
    packageimg
  • 俄罗斯姓名性别识别数据库

    2025年12月14日 30 194 65

    数据集概述 该数据集包含俄罗斯联邦范围内的姓名、姓氏及父称信息,用于训练基于全名的性别识别算法。数据以MongoDB数据库格式准备,包含BSON和JSONL格式的压缩文件,为性别识别和全名解析软件提供数据支持。 文件详解 文件名称:russiannames_db_bson.zip 文件格式:ZIP压缩包...
    packageimg
  • 基于物联网的活动检测服务生成器原型与评估数据集

    2025年12月10日 30 191 165

    数据集概述 该数据集是物联网活动检测服务生成器原型的配套数据,包含智能工厂与智慧医疗两个场景的服务生成及评估文件。按功能分为服务生成与应用评估子文件夹,提供生成服务的Python脚本、物联网输入数据、专家标注、评估用物联网日志、真值数据及检测结果等,支持复现论文中的服务生成与评估流程。 文件详解...
    packageimg
  • 技术手册问答基准数据集2025_TechManualQA_350

    2025年12月8日 30 49 41

    数据集概述 该数据集为技术手册问答基准数据集,包含来自10类技术手册的350个验证问答对,覆盖通用事实、流程指导、不可回答三类问题类型,用于评估大语言模型处理技术文档的性能,数据经自动化过滤与人工验证,确保质量可靠。 文件详解 主数据集文件:...
    packageimg