数据集 - 海数据

Tigrinya_Analogy_Test_词嵌入模型评估数据集

2026年2月13日 30 68 42

数据集概述本数据集是提格利尼亚语版的谷歌类比测试集，用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证，剔除了不适用的条目，最终包含一万八千四百六十五条语义和句法类比条目，分为首都、货币、家庭、时态等九个测试小节。文件详解文件名称：TigrinyaAnalogyTest.zip 文件格式：ZIP...

ZIP

开源对话式大语言模型西班牙语单词知识评估数据

2026年2月1日 30 160 134

数据集概述本数据集包含一百个西班牙语词汇的开源对话式大语言模型认知评估数据，涵盖词汇使用频率、模型对词汇的认知情况、定义、例句及人工与自动验证结果。数据旨在评估不同开源大语言模型对西班牙语词汇的掌握程度，共包含十五个文件。文件详解词汇频率文件文件名称：Frequencies_100_words_CREA.xlsx 文件格式：XLSX...

ZIP

SMISENKY_metadata_基于视频分析的共享路径安全研究数据

2026年1月26日 30 81 60

数据集概述本数据集记录捷克共和国10个地点共享路径上行人与骑行者的安全相关数据。通过视频采集与算法分析，获取轨迹、速度、互动冲突等关键指标，用于研究微移动场景下的道路安全状况。数据经人工验证，按15分钟间隔分段，包含1份元数据文件。文件详解文件名称：SMISENKYmetadata.xlsx 文件格式：XLSX...

ZIP

ODDPub_Numbat_生物医学文献开放数据集检测工作流完整数据

2026年1月23日 30 23 18

数据集概述本数据集包含生物医学文献开放数据集检测工作流相关数据，涵盖2020-2021年文献的开放数据自动检测与人工验证结果、评分者间信度计算数据、数据字典及不同格式的提取表单，用于分析生物医学文献中开放数据集的判定结果与评估逻辑。文件详解开放数据评估数据集...

ZIP

IntoValue_Based_德国大学医学中心临床试验交叉注册监测研究数据集

2026年1月19日 30 60 14

数据集概述本数据集为德国大学医学中心（UMC）2009-2017年完成的临床试验交叉注册监测研究相关数据，包含中间数据集、最终交叉注册对数据集及人工验证结果三类文件，支持临床试验交叉注册的识别、验证与分析，共8个文件。文件详解中间数据集（.rds格式）文件名称：trn-registry-data.rds、title-...

ZIP

Kotlin_Refactoring_Detection_数据集与比较研究_补充材料

2026年1月18日 30 57 2

数据集概述本数据集是论文《Extending Refactoring Detection to Kotlin: A Dataset and Comparative Study》的补充材料，包含2043个经人工验证的重构实例，覆盖21种重构类型，来自10个Kotlin仓库的200次提交。数据用于支持Kotlin重构检测的研究与工具比较。文件详解...

ZIP

SGoaB_Project_Rijksmuseum文化遗产图像目标检测自动标注及人工验证数据

2026年1月17日 30 77 66

数据集概述本数据集包含荷兰国立博物馆（Rijksmuseum）文化遗产数字对象图像的目标检测标注，分为自动标注和人工验证两个子集，用于评估Saint George on a Bike项目开发的目标检测模型，模型在该数据集上实现约79.4%的精确率和65.7%的召回率。文件详解自动目标检测标注文件文件名称：SgoaB-Rijksmuseum-...

ZIP

能源领域基准数据集

2025年12月20日 30 165 10

数据集概述本数据集是来源于真实能源行业的新基准数据集，包含人工验证的、与能源领域本体对齐的真实标注数据，旨在促进可重复的评估并加速未来相关研究。文件详解文件名称: Energy Domain Data.zip 文件格式: ZIP压缩包内容说明: 该压缩包包含能源领域的基准数据集，具体文件结构与字段需解压后查看。适用场景能源领域算法开发与评估...

ZIP

基于CNN的砖石与砌体裂缝检测图像数据集

2025年12月20日 30 95 45

数据集概述本数据集为基于CNN的砖石与砌体裂缝检测模型训练而构建，核心包含汉堡市建筑航拍图像及补充的开源数据库图像，经预处理、自动筛选、人工验证后形成正负样本集，最终整合为八万余张227×227像素的图像数据集。文件详解文件名称: Dataset (RFSAT).zip 文件格式: ZIP压缩包 (.zip) 文件内容:...

ZIP

Stack_Overflow帖子人工验证版本历史数据集

2025年12月19日 30 159 23

数据集概述本数据集包含Stack Overflow帖子的人工验证版本历史，用于评估SOTorrent平台的字符串相似性指标。针对2018年11月1日和12月14日发布的版本，已对基准真值文件进行双重检查和更新，为相关技术评估提供可靠数据支持。文件详解文件类型与数量：共9个文件，无目录结构...

ZIP

Text2KGBench本体驱动文本生成知识图谱基准数据集

2025年12月13日 30 105 9

数据集概述该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准，包含Wikidata-TekGen（十个本体、一万三千四百七十四句）和DBpedia-WebNLG（十九个本体、四千八百六十句）两个子数据集，遵循本体约束提取文本事实。文件详解数据集以压缩包形式提供，内部结构及内容如下： - 压缩包文件:...

ZIP

RENAS标识符协同重命名机会优先级排序在线附录数据集

2025年12月12日 30 204 139

数据集概述本数据集是研究论文《RENAS: Prioritizing Co-Renaming Opportunities of Identifiers》的在线附录，包含论文中各项研究问题（RQ1、RQ2）及相关章节的评估结果数据，为理解RENAS方法在标识符协同重命名优先级排序中的性能提供支持。文件详解该数据集包含多个目录和文件，具体说明如下：...

ZIP

技术手册问答基准数据集2025_TechManualQA_350

2025年12月8日 30 95 91

数据集概述该数据集为技术手册问答基准数据集，包含来自10类技术手册的350个验证问答对，覆盖通用事实、流程指导、不可回答三类问题类型，用于评估大语言模型处理技术文档的性能，数据经自动化过滤与人工验证，确保质量可靠。文件详解主数据集文件：...

ZIP

MuChoMusic音乐理解多模态评估数据集

2025年12月5日 30 102 73

数据集概述该数据集是评估音频-语言多模态模型音乐理解能力的基准数据集，包含一千一百八十七道经人工验证的多选题，基于六百四十四首来自公开音乐数据集的曲目，覆盖多种音乐流派，用于测试模型对音乐概念及文化、功能语境的知识与推理能力。文件详解文件名称: muchomusic.csv 文件格式: CSV 字段映射:...

ZIP

找到14个数据集

注册成功！