数据集 - 海数据

CoderEval_Based_代码生成基准评估数据集

2026年1月31日 30 82 27

数据集概述本数据集为CoderEval代码生成基准数据集，包含四十二个文件，无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据，涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包，支持超越独立函数的实用代码生成能力评估。文件详解数据文件（.json）...

ZIP

AffRoDB_Based_机构字符串到ROR标识符映射数据集2024

2026年1月26日 30 135 99

数据集概述本数据集是AffRoDB，包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry（ROR）标识符的人工整理映射。每条记录经专家评估，包含出版物DOI、原始机构字符串、专家判断及最终ROR ID，基于2024年1月ROR数据库版本构建，用于机构隶属关系消歧方法的评估与基准测试。...

ZIP

编程谜题源代码_Python实现_程序语义推理_自然语言标注数据_2023年10月22日

2026年1月13日 30 198 78

数据集概述本数据集包含用于程序语义推理的Python语句自然语言标注，由共享文件名前缀的文件对组成。数据源自Programming Puzzles项目，以压缩包形式提供，包含标注文件和参考源代码文件两类，可支持程序语义理解相关的研究与应用。文件详解压缩包文件文件名称：archive_22102023.zip 文件格式：ZIP...

ZIP

SeMRA_Anatomy_Mappings_Database_解剖学命名资源景观分析数据

2026年1月13日 30 177 35

数据集概述本数据集为SeMRA解剖学映射数据库，支持解剖学命名资源景观分析，包含原始与处理后的映射数据、统计文件、可视化图表及配置脚本等27个文件，覆盖Uberon、MeSH等多类解剖学本体的映射关系与统计信息，可用于解剖学命名资源的整合与分析研究。文件详解文档类文件文件名称：README.md 文件格式：MD...

ZIP

全球200万SARS_CoV_2基因组数据集_Viridian_Maple0_6_11处理

2025年12月24日 30 160 71

数据集概述该数据集包含经MAPLE0.6.11处理的全球200万条SARS-CoV-2基因组数据，源自Viridian平台。涵盖基因组比对、变异信息、进化树及元数据等多类型文件，为新冠病毒基因组研究提供基础数据支持。文件详解元数据文件：...

ZIP

LLM一致性测试组合测试用例数据集

2025年12月18日 30 133 104

数据集概述该数据集是用于大语言模型（LLM）一致性测试的组合测试用例集合，包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果，支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。文件详解核心问题文件：...

ZIP

俄罗斯姓名性别识别数据库

2025年12月14日 30 194 65

数据集概述该数据集包含俄罗斯联邦范围内的姓名、姓氏及父称信息，用于训练基于全名的性别识别算法。数据以MongoDB数据库格式准备，包含BSON和JSONL格式的压缩文件，为性别识别和全名解析软件提供数据支持。文件详解文件名称：russiannames_db_bson.zip 文件格式：ZIP压缩包...