数据集 - 海数据

Sri_Lankan_分类广告匹配检索研究数据集

2026年2月1日 30 208 162

数据集概述本数据集为斯里兰卡分类广告市场的广告匹配、语义检索及意图对齐研究开发，包含54489个广告对，来源覆盖五大平台，含人类验证真实样本与LLM生成样本。覆盖电子、车辆、房产三大类及20个子类，支持低资源子类别模型泛化训练评估。文件详解...

ZIP

YAGO4_LP_Based知识图谱链接预测数据集

2026年1月31日 30 23 20

数据集概述...

ZIP

MTARSI_INNAR_航空图像飞机类型分类数据集

2026年1月31日 30 87 3

数据集概述本数据集为MTARSI-INNAR，经精心整理确保无交叉污染，包含27类飞机类型的训练集数据、含未见过样本的开发集，以及16类飞机类型的测试集，各集合飞机类型分布均衡，适用于航空、人工智能及图像分析领域的模型训练与评估。文件详解压缩包文件文件名称：MTARSI-INNAR.zip 文件格式：ZIP...

ZIP

InstructIE_Based_双语指令信息抽取数据集

2026年1月30日 30 28 17

数据集概述本数据集为InstructIE双语指令信息抽取数据集，包含中文和英文两种语言的指令调优数据，覆盖事件、自然科学、建筑结构等多个类别。数据集由9个文件组成，主要文件格式为JSON和MD，适用于信息抽取任务的模型训练与评估。文件详解说明文档文件名称：README_ZH.md、README.md 文件格式：MD...

ZIP

CompactIE_Based开放信息抽取紧凑事实数据集

2026年1月30日 30 17 6

数据集概述本数据集为论文“CompactIE: Compact Facts in Open Information Extraction”配套数据，包含开放信息抽取任务中紧凑事实提取相关内容，仅含一个JSON格式文件，无训练测试、数据标签或原始处理数据拆分。文件详解文件名称：benchmark.json 文件格式：JSON...

ZIP

ChiWUG_Based_中文历时词使用图数据集_2023

2026年1月29日 30 197 118

数据集概述本数据集包含中文历时词使用图（WUGs），聚焦词汇语义的历时变化分析。数据提供了图结构格式的词汇使用记录，可用于研究中文词汇在不同时间维度的语义演变规律，为中文词汇语义变化检测任务提供支撑。文件详解文件名称：chiwug.zip 文件格式：ZIP...

ZIP

ALS_Based_荷兰濒危蝴蝶精细尺度栖息地偏好识别_数据与代码

2026年1月27日 30 31 21

数据集概述本数据集包含利用机载激光扫描（ALS）数据研究荷兰濒危蝴蝶精细尺度栖息地偏好的相关数据与代码。通过机器学习算法构建物种分布模型，分析不同植被结构LiDAR指标对草地和林地蝴蝶栖息地选择的影响，为生态位研究和无脊椎动物-栖息地关系分析提供支持。文件详解 ReadMe_LiDAR_processing.docx 文件格式：DOCX...

ZIP

GEO_Bench_Based_地理空间实验m_NeonTree数据集

2026年1月26日 30 88 54

数据集概述本数据集是GEO-Bench数据集的一部分，基于Weinstein等人2019年的原始NeonTreeEvaluation数据集修改而来，所有修改在指定链接有记录。数据集包含14个文件，以JSON格式为主，涉及训练分区、波段统计、任务规格等内容，用于地理空间相关的模型训练与评估。文件详解文档类文件文件名称：README、LICENSE...

ZIP

HHD_v0_2_Updated_Based_希伯来字符手写图像数据集

2026年1月26日 30 190 111

数据集概述本数据集是HHD_v0的更新版本，修正了部分错误标签，包含从手写表格中收集的孤立希伯来字符图像，以及训练集和测试集的划分信息，为希伯来手写字符识别研究提供结构化图像数据。文件详解文件名称：hhd_dataset.zip 文件格式：ZIP...

ZIP

CrowdTruth_Based_众包命名实体黄金标准数据_v1_0

2026年1月23日 30 91 6

数据集概述本数据集包含通过混合多命名实体识别（Multi-NER）众包增强方法，在英文维基百科句子中识别和分类命名实体的实验结果，提供众包标注的命名实体黄金标准数据，支持自然语言处理领域的相关研究与应用。文件详解文件名称：CrowdTruth/Crowdsourcing-NamedEntities-GoldStandard-v1.0.zip...

ZIP

GEO_Bench_Based_地理基准测试m_nz_cattle数据集

2026年1月22日 30 194 101

数据集概述本数据集是GEO-Bench数据集的一个子集，由ServiceNow基于Abuaiadah等人2022年的原始数据修改而来。包含14个文件，涵盖数据集说明、许可信息、任务规格、不同比例的训练分区、波段统计及数据压缩包等内容，适用于地理基准测试相关的模型训练与评估。文件详解说明与许可文件文件名称：README、LICENSE...

ZIP

Sentinel2_SDGSAT_Based_船舶检测遥感影像标注数据集

2026年1月21日 30 200 10

数据集概述本数据集包含Sentinel2-Ship和SDGSAT-Ship两个船舶检测子数据集，提供训练、验证、测试相关数据。标注采用长边定义的旋转框格式，所有数据封装为单个压缩文件，无分层目录结构，可用于遥感影像船舶目标检测任务的模型训练与评估。文件详解文件名称：data.zip 文件格式：ZIP...

ZIP

Reddit_Comments_Dataset_文本风格迁移任务评论数据集

2026年1月21日 30 27 20

数据集概述本数据集为文本风格迁移任务准备，包含Reddit评论及其正式语言翻译。数据来自20个Subreddits，通过GPT-2筛选高困惑度评论进行翻译，分为原始评论、带标签翻译及带风格示例的翻译文件，共5个文件，支持风格迁移模型训练与评估。文件详解 reddit_comments.csv 文件格式：CSV...

ZIP

DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

2026年1月20日 30 197 131

数据集概述本数据集为DWUG DE词汇使用数据的子集，包含德语词汇的历史词义标注，涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签，可用于词汇语义归纳与语义变化检测研究，版本为1.0.1。文件详解文件名称：dwug_de_sense.zip 文件格式：ZIP 字段映射介绍：压缩包内包含三类核心文件：...

ZIP

Open_Unmix_Pytorch_SDXDB21标签噪声基线模型训练数据

2026年1月20日 30 18 0

数据集概述本数据集为SDXDB21标签噪声基线相关数据，包含Open-Unmix-Pytorch模型训练的配置信息、验证集歌曲ID及训练生成的模型文件。数据集涉及音频源分离任务，针对 vocals、bass、drums、other 四类音频源分别训练模型，共包含13个文件，支持音频源分离模型的训练与评估。文件详解模型与配置文件...

ZIP

DCASE_2024_Task_9_Based_语言查询音频源分离开发集数据

2026年1月20日 30 111 95

数据集概述本数据集是DCASE 2024 Task 9的开发集，由FSD50K和Clotho v2数据集的音频样本组成。FSD50K含51k+音频片段，通过AudioSet Ontology的200个类别手动标注；Clotho...

ZIP

DeepSTARR_manuscript_Based_基因组区域DNA序列与活性数据

2026年1月18日 30 170 152

数据集概述本数据集包含训练和评估DeepSTARR模型所用的基因组区域DNA序列数据、序列活性数据，以及已训练的DeepSTARR模型文件。数据集共8个文件，涵盖训练集、验证集、测试集的序列与活性信息，支持基因组学相关模型的训练与性能评估。文件详解序列数据文件...

ZIP

Leveraging_Natural_Language_图形程序合成数据集_2020

2026年1月18日 30 53 20

数据集概述本数据集为程序合成数据集，包含图形程序任务及语言注释（含合成注释与人工注释），用于支持自然语言在程序搜索与抽象学习中的应用研究。该数据集关联论文目前处于NeurIPS 2020审稿阶段，审稿后将进行匿名解除处理。文件详解文件名称：logo.zip 文件格式：ZIP...

ZIP

M3NSCT5_Based_Stack_Overflow帖子多样化标题生成实验数据集

2026年1月18日 30 70 62

数据集概述本数据集是论文“Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer”的配套数据，包含训练、验证、测试三类文件，覆盖八种编程语言的Stack...

ZIP

Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

2026年1月15日 30 22 0

数据集概述本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据，包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型，适用于低资源语言情感分析研究。文件详解情感标注数据文件文件名称：sentiment_eval_data.json 文件格式：JSON...

ZIP

找到35个数据集

注册成功！