数据集 - 海数据

ARTA_Based_软件需求气味与可测试性分析数据集_v1_0_0

2026年1月27日

数据集概述本数据集是论文“Requirement testability measurement based on requirement...

ZIP

FoldIt_Public_Dataset_结肠褶皱检测分割训练数据

2026年1月26日

数据集概述本数据集是用于训练FoldIt深度学习模型的公开数据，该模型用于结肠褶皱的检测与分割。数据集包含三个训练子集：TrainA为光学结肠镜图像（OC），TrainB为叠加了结肠褶皱标注的虚拟结肠镜（VC）图像，TrainC为虚拟结肠镜图像。同时包含基于该数据集训练的FoldIt模型。文件详解...

ZIP

Biblical_Quotations_GT_圣经引文标注研究数据集

2026年1月25日

数据集概述本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据，包含标注的圣经引文及相关模式数据，由海法大学团队构建。总计56个文件，含TSV格式的标注数据、JSON格式的关系层与标签集定义文件，用于支持宗教文本中圣经引文的自动识别与分析研究。文件详解 TSV数据文件（50个）...

ZIP

LRO_Camera_Based_月球图像COCO格式目标检测数据集

2026年1月23日

数据集概述本数据集为月球勘测轨道飞行器（LRO）相机拍摄的月球图像，采用COCO格式进行标准化标注，包含陨石坑、山脉等多种月球地质特征。标注涵盖目标位置与类别信息，支持计算机视觉领域的目标检测任务，为行星科学研究提供精确的机器学习训练数据。文件详解文件名称：LRO_Craters_v4.zip 文件格式：ZIP（压缩包）...

ZIP

GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

2026年1月23日

数据集概述本数据集为722作业项目数据，包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码，旨在通过LLM模型实现PR评论的重要性过滤，提升代码审查效率。文件详解数据文件文件名称：1500data.xlsx 文件格式：XLSX 字段映射介绍：包含3人标注的1500条GitHub...

ZIP

ISO_25010_Based软件质量特征在线用户评论标注黄金标准数据

2026年1月23日

数据集概述本数据集是ISO/IEC 25010:2011软件产品质量分类体系的黄金标准标注数据，对360条应用商店用户评论（拆分后共1358个句子）按8个质量特征及31个子特征进行标注。数据覆盖6类应用（娱乐、生产力等）、3个应用商店，每条评论对应1-5星评分，由4名标注者使用ISO 25010标准完成标注。文件详解...

ZIP

Kapoorlabs_Based_人类乳腺癌细胞3D分割训练全标注数据集

2026年1月22日

数据集概述本数据集为3D分割模型训练提供全标注数据，包含原始图像块及对应的实例分割、语义分割标签。由Kapoorlabs团队从公开数据集手动整理，适用于生物医学领域乳腺癌细胞图像分割模型的训练与优化，共含2个压缩文件。文件详解 carcinoma_version2.zip 文件格式：ZIP...

ZIP

PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

2026年1月22日

数据集概述本数据集为西班牙临床病例语料库（SPACCC）的句子分割标注第一版，由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件，无目录层级，无训练/测试、数据/标签等分割，可用于西班牙语临床文本的句子分割任务研究与模型训练。文件详解文件名称：SPACCC_SPLIT.zip 文件格式：ZIP...

ZIP

Bionomia_Based_CBNA标本馆标本采集者与鉴定者关联数据包

2026年1月22日

数据集概述本数据集为CBNA标本馆标本关联采集者与鉴定者的生物多样性数据，由Bionomia志愿者标注生成，基于全球生物多样性信息机构（GBIF）聚合的标本数据。数据以Frictionless数据包格式组织，包含9个文件，主要记录标本与采集者、鉴定者的关联信息及相关问题数据。文件详解核心数据文件...

ZIP

基于系统模型和人工智能复现包的应用用户评论中非功能需求自动分类实验数据集

2026年1月21日

数据集概述本数据集是论文《基于系统模型和人工智能的应用用户评论中非功能需求自动分类》的复现包，包含实验所用的1278条标注非功能需求用户评论数据及文件说明，用于支持其他研究者复现实验，核心内容为标注后的用户评论句子及对应非功能需求类别。文件详解 dataset文件夹文件名称：dataset_user_reviews.xlsx 文件格式：XLSX...

ZIP

网络攻击角色扮演标注数据_基于法语私人即时通讯平台的大型用户群组_v3_1

2026年1月21日

数据集概述本数据集为CyberAgressionAdo-Large，包含通过角色扮演游戏收集的法语网络攻击场景标注数据，模拟私人即时通讯平台可能发生的网络攻击情况，是CyberAgressionAdo-v2的扩展版本，共含36个文件。文件详解标注场景文件文件名称：包含如scenario_homophobia_julie_fourth (Re-...

ZIP

Multi_CAST_Based_多语言口语文本标注语料库数据_v2211

2026年1月21日

数据集概述本数据集为Multi-CAST项目中的Tulil语料库，属于多语言口语文本标注语料库，由Meng, Chenxi于2022年创建，收录于班贝格大学发布的Multi-CAST版本2211中，包含医疗相关的CT语义关键词，是研究多语言口语文本标注的基础资源。文件详解文件名称：Multi-CAST/mctulil-v2211.zip...

ZIP

Herbarium_AI_Based法属圭亚那热带植物营养生长动态研究数据

2026年1月21日

数据集概述本数据集用于研究人工智能在植物标本馆馆藏中热带植物营养生长动态分析的应用，通过深度学习技术检测标本中罕见的营养生长结构（生长芽），并自动分类其生长类型（连续或节律性），为热带植物物候学研究提供支持。文件详解文件名称：herbarium-vegetative-phenology.zip 文件格式：ZIP...

ZIP

MURA_Annotations_骨科X光图像直接间接旋转估计方法标注数据

2026年1月21日

数据集概述本数据集为骨科X光图像旋转估计方法的标注数据，针对MURA数据集的AP腕部X光图像，标注桡骨中心线的起点和终点坐标，以JSON格式存储，共包含1个文件，无目录层级划分。文件详解文件名称：annotations.json 文件格式：JSON 字段映射介绍：为MURA数据集的每个标注图像文件提供条目，包含桡骨中心线的起点坐标和终点坐标信息。...

ZIP

Serial_Speakers_Source_TV剧集标注数据集_2020

2026年1月21日

数据集概述本数据集包含《绝命毒师》《权力的游戏》《纸牌屋》3部电视剧的人工标注数据，涵盖剧集的季、集、场景、镜头及语音片段等结构化信息，所有文件为JSON格式，语音文本因版权加密处理，可通过指定工具恢复。文件详解文件名称：bb.json 文件格式：JSON...

ZIP

Bionomia_Based_UAM标本馆与隐花植物馆藏采集者鉴定者关联数据

2026年1月20日

数据集概述本数据集包含UAM Herbarium (ALA)和Cryptogam Collection (Arctos)自然历史标本与采集者、鉴定者的关联数据，由Bionomia志愿者标注生成，基于全球生物多样性信息机构（GBIF）聚合的标本数据，采用Frictionless Data数据包格式组织，共包含九个文件。文件详解数据文件包描述文件...

ZIP

BanglaAbuseMeme_Based_孟加拉语辱骂表情包分类标注数据集

2026年1月20日

数据集概述本数据集为针对孟加拉语辱骂表情包分类任务构建的标注数据集，包含从网络获取的4000个数据点。旨在解决低资源语言环境下孟加拉语辱骂表情包检测模型缺乏基准数据的问题，支持相关AI模型的训练与评估，助力社交媒体平台的在线安全治理。文件详解文件名称：BanglaAbuseMeme.zip 文件格式：ZIP（压缩包）...

ZIP

DisinfoAppear_Based_在线虚假信息链接分类任务数据集_V1

2026年1月20日

数据集概述本数据集针对在线虚假信息传播的新型链接分类任务构建，聚焦于事实核查文章中出现的链接，将其按文本语境分为虚假信息出现、支持证据、其他三类。包含训练集、测试集、说明文档及代码文件，可用于虚假信息传播相关的链接分类研究，共5个文件。文件详解数据文件文件名称：GS_train.json、GS_test.json 文件格式：JSON...

ZIP

Starostin_Karen_Based语族斯瓦迪士词表标注数据集2017

2026年1月20日

数据集概述本数据集为CLDF格式，源自Starostin 2017年发布的《Karen语族标注斯瓦迪士词表》，包含该语族的斯瓦迪士词表标注内容，支持语言词汇统计学研究，仅含一个压缩文件。文件详解文件名称：lexibank/starostinkaren-v1.0.zip 文件格式：ZIP...

ZIP

Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新

2026年1月20日

数据集概述本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据，包含PNG和XML文件，将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建，用于训练Transkribus平台的PyLaia模型，涵盖16至19世纪的梵语与纽瓦语手稿，支持古文字OCR模型的开发与优化。文件详解...

ZIP

找到269个数据集

注册成功！