数据集 - 海数据

嫦娥五号着陆相机撞击坑检测数据集

2026年2月15日 30 131 85

数据集概述本数据集包含132张嫦娥五号着陆相机的人工标注图像，每张图像中可见的撞击坑均通过边界椭圆标记，平均每张图像标注约50个撞击坑。数据集分为训练集（前100张下降过程图像）和测试集（剩余313张图像中每10张标注1张），用于月球撞击坑检测研究。文件详解 CE5-ellipse-labels 文件格式：无扩展名（joblib dump）...

ZIP

用户活动标签推理评估数据集

2026年2月12日 30 115 24

数据集概述本数据集为评估语言模型从事件语义描述生成用户活动标签的能力而构建，包含30项活动（10项含2个事件、10项含3个事件、10项含4个事件），通过余弦相似度对比模型生成标签与人工标注标签的准确性，支持用户界面交互活动的标签推理研究。文件详解 screenshots_&_soms.zip 文件格式：ZIP...

ZIP

基于弱监督的裂缝检测数据集与预训练模型

2026年2月10日 30 201 73

数据集概述本数据集包含弱监督裂缝检测相关的数据集文件和预训练模型文件，数据集涵盖Aigle、Crack Forest Dataset、DeepCrack三个子数据集的不同粗糙度标注，包括人工生成和合成生成的标注；预训练模型为基于Xception65的TensorFlow模型，整体用于弱监督裂缝检测研究。文件详解弱监督裂缝检测数据集文件...

ZIP

APIS_人文学者传记实体关系标注数据集

2026年2月9日 30 80 55

数据集概述本数据集是APIS项目子项目的成果，包含《奥地利传记词典》中151篇人文领域学者（历史学家、图书馆员、教师等）的人工标注传记。通过APIS平台标注建立了实体间关系，可用于网络可视化或统计查询，仅含一个压缩文件。文件详解文件名称：apis_dataset_mittelalter.zip 文件格式：ZIP（压缩包）...

ZIP

荷兰传记门户_生物信息_关系抽取_标注数据集

2026年2月1日 30 84 19

数据集概述本数据集为荷兰传记文本的人工标注关系抽取数据集，包含14类生物信息相关关系，如出生时间、居住地、亲属关系等。数据源自荷兰传记门户，包含测试集数据及说明文档，共2个文件，用于自然语言处理领域的关系抽取任务研究。文件详解 README.md 文件格式：.md...

ZIP

Twitter_Based_用户可信度评估数据集

2026年2月9日 30 69 36

数据集概述本数据集包含50000名Twitter用户（政治家）的特征数据及人工标注的可信度标签，基于用户社交档案、推文可信度、推文h指数等计算影响力得分，用于分类用户可信度。数据集由Python提取特征生成，结合ModAL框架的主动学习方法完成人工标注与分类。文件详解数据文件...

ZIP

cao2022_Based_培养皿蚂蚁标注图像数据

2026年2月9日 30 123 108

数据集概述本数据集包含培养皿中蚂蚁的60张标注图像，为“ANTS--ant detection and tracking”数据集的未修改子集。每张图像中的蚂蚁均以多边形形式标注，标注信息采用COCO格式存储于JSON文件中，可用于蚂蚁检测、跟踪等生物图像分析任务。文件详解文件名称：cao2022.zip 文件格式：ZIP...

ZIP

Tycho_Rays_月球表面陨石坑普查动力学分析数据

2026年2月9日 30 149 43

数据集概述本数据集为从ArcMap输出的月球表面陨石坑数据Excel文件，包含人工标注和自动化检测的陨石坑原始数据、分析用筛选数据，用于研究月球表面平衡动力学与表岩屑分层特性。文件详解 DATA_HUMA_craters_raw.xlsx 文件格式：XLSX 字段映射介绍：包含186和808...

ZIP

BabylonBee_Based_多模态讽刺幽默标注数据集

2026年1月29日 30 57 45

数据集概述本数据集为多模态（图像+文本）讽刺研究设计，包含一万零八百八十九条人工标注样本，来源于讽刺内容网站https://babylonbee.com/。数据区分讽刺内容的幽默属性及认知机制，支持多模态讽刺识别、幽默机制分析等研究，含两个核心文件。文件详解 README.docx 文件格式：DOCX...

ZIP

Gollum_Based_大规模多源知识图谱匹配金标准数据集

2026年1月29日 30 20 4

数据集概述本数据集为Gollum金标准，用于大规模多源知识图谱匹配任务评估，包含四万一千四百九十九个知识图谱间二十七万五千余条对应关系。数据源自DBpedia提取框架生成的维基农场知识图谱，提供无监督、有监督（含同一维基/不同维基训练测试集）三种版本，支持知识图谱匹配方法的有效性与可扩展性验证。文件详解 XML文件（9个，占比56.25%）...

ZIP

SciRAG_QA_Based_多领域科学封闭问题问答基准数据集

2026年2月9日 30 202 123

数据集概述本数据集是用于科学问答（QA）系统基准测试的多领域封闭问题数据集，覆盖10个研究领域下的34个主题，包含108条人工标注的问答对，每条数据标注了答案类型、难度等级及带来源论文链接的黄金参考，可用于验证检索增强生成（RAG）系统在科学领域的性能。文件详解 metadata.csv 文件格式：CSV...

ZIP

WWW2020_Based_Web表格新实体发现实验复现资源

2026年2月8日 30 25 7

数据集概述本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源，包含三个用于Web表格新实体发现、实体类型与提及解析的测试集，以及300万张表格的提及-实体、标题-属性对应关系数据，支持论文中实体链接、表格匹配、实体解析实验的复现。文件详解压缩包文件...

ZIP

CompMusic_京剧唱腔人工标注数据集

2026年2月2日 30 26 23

数据集概述本数据集包含34段京剧唱腔，通过Praat软件进行多维度人工标注，覆盖西皮、二黄两大声腔及旦、净、老旦、老生、小生五种角色类型。每段唱腔对应Praat TextGrid标注文件，包含唱腔名称、表演者、声腔、板式等层级信息，同时提供ariaInfo.txt汇总文件，支持京剧唱腔结构分析与音乐信息检索研究。文件详解...

ZIP

Bangla_Based_孟加拉语信息检索测试集数据

2026年1月31日 30 22 15

数据集概述本数据集为孟加拉语信息检索测试集，包含1182份文档（182份泰戈尔的短篇故事、小说、散文，1000份2013年《普罗托姆·阿洛》报纸文章）、94条不同复杂度的查询及查询-文档相关性判断，填补了孟加拉语信息检索标准数据集的空白。文件详解文件名称：README.txt 文件格式：TXT...

ZIP

YouTube_印度两大政党评论情感标注数据集2019

2026年1月31日 30 53 31

数据集概述本数据集包含印度两大政党（印度国民大会党、印度人民党）YouTube视频下的用户评论及人工标注的情感标签，分为正面（标签1）和负面（标签0）两类。2019年3月捐赠，共含3950条评论，其中印度人民党数据集1952条、印度国民大会党数据集1998条，两类评论数量均等，用于政治舆情相关的二元分类任务。文件详解 readme.docx...

ZIP

CoderEval_Based_代码生成基准评估数据集

2026年1月31日 30 195 140

数据集概述本数据集为CoderEval代码生成基准数据集，包含四十二个文件，无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据，涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包，支持超越独立函数的实用代码生成能力评估。文件详解数据文件（.json）...

ZIP

AD_NLP_Based阿尔茨海默病临床表型提取研究数据

2026年1月30日 30 46 6

数据集概述本数据集包含基于自然语言处理（NLP）技术从临床文本中提取阿尔茨海默病（AD）相关临床表型的研究数据，涉及医疗合并症、生物标志物、神经行为测试分数等表型类型。数据支持评估NLP提取管道的性能，可为AD风险预测模型开发提供结构化表型信息，共包含2个文件。文件详解 README.md 文件格式：MD...

ZIP

南非语言嵌入评估数据集_Simlex_和_WordSim

2026年1月30日 30 98 63

数据集概述本数据集包含针对南非语言（塞茨瓦纳语、塞佩迪语）的Simlex和WordSim评估数据，通过人工标注的单词对相似度评分，用于衡量语义相关性。单词对由英文手动翻译而来，可用于计算模型向量余弦相似度与人类评分的相关性，评估语言模型性能。数据集共含4个文件。文件详解文件名称：SimLex-999-orig - Sepedi.xlsx...

ZIP

CEEC_Based_历史英语拼写规范化人工标注测试集数据

2026年1月30日 30 37 22

数据集概述本数据集为CEEC语料库历史英语规范化测试集，包含人工生成的三组历史-现代拼写对列表：混合世纪列表、15世纪列表和18世纪列表，每组各100对。历史形式均源自CEEC语料库，总计包含一个文件。文件详解文件名称：test_set_of_normalizations.xlsx 文件格式：XLSX...