-
Sri_Lankan_分类广告匹配检索研究数据集
2026年2月1日 30 208 162
数据集概述 本数据集为斯里兰卡分类广告市场的广告匹配、语义检索及意图对齐研究开发,包含54489个广告对,来源覆盖五大平台,含人类验证真实样本与LLM生成样本。覆盖电子、车辆、房产三大类及20个子类,支持低资源子类别模型泛化训练评估。 文件详解...
-
-
MTARSI_INNAR_航空图像飞机类型分类数据集
2026年1月31日 30 87 3
数据集概述 本数据集为MTARSI-INNAR,经精心整理确保无交叉污染,包含27类飞机类型的训练集数据、含未见过样本的开发集,以及16类飞机类型的测试集,各集合飞机类型分布均衡,适用于航空、人工智能及图像分析领域的模型训练与评估。 文件详解 压缩包文件 文件名称:MTARSI-INNAR.zip 文件格式:ZIP...
-
InstructIE_Based_双语指令信息抽取数据集
2026年1月30日 30 28 17
数据集概述 本数据集为InstructIE双语指令信息抽取数据集,包含中文和英文两种语言的指令调优数据,覆盖事件、自然科学、建筑结构等多个类别。数据集由9个文件组成,主要文件格式为JSON和MD,适用于信息抽取任务的模型训练与评估。 文件详解 说明文档 文件名称:README_ZH.md、README.md 文件格式:MD...
-
CompactIE_Based开放信息抽取紧凑事实数据集
2026年1月30日 30 17 6
数据集概述 本数据集为论文“CompactIE: Compact Facts in Open Information Extraction”配套数据,包含开放信息抽取任务中紧凑事实提取相关内容,仅含一个JSON格式文件,无训练测试、数据标签或原始处理数据拆分。 文件详解 文件名称:benchmark.json 文件格式:JSON...
-
ChiWUG_Based_中文历时词使用图数据集_2023
2026年1月29日 30 197 118
数据集概述 本数据集包含中文历时词使用图(WUGs),聚焦词汇语义的历时变化分析。数据提供了图结构格式的词汇使用记录,可用于研究中文词汇在不同时间维度的语义演变规律,为中文词汇语义变化检测任务提供支撑。 文件详解 文件名称:chiwug.zip 文件格式:ZIP...
-
ALS_Based_荷兰濒危蝴蝶精细尺度栖息地偏好识别_数据与代码
2026年1月27日 30 31 21
数据集概述 本数据集包含利用机载激光扫描(ALS)数据研究荷兰濒危蝴蝶精细尺度栖息地偏好的相关数据与代码。通过机器学习算法构建物种分布模型,分析不同植被结构LiDAR指标对草地和林地蝴蝶栖息地选择的影响,为生态位研究和无脊椎动物-栖息地关系分析提供支持。 文件详解 ReadMe_LiDAR_processing.docx 文件格式:DOCX...
-
GEO_Bench_Based_地理空间实验m_NeonTree数据集
2026年1月26日 30 88 54
数据集概述 本数据集是GEO-Bench数据集的一部分,基于Weinstein等人2019年的原始NeonTreeEvaluation数据集修改而来,所有修改在指定链接有记录。数据集包含14个文件,以JSON格式为主,涉及训练分区、波段统计、任务规格等内容,用于地理空间相关的模型训练与评估。 文件详解 文档类文件 文件名称:README、LICENSE...
-
HHD_v0_2_Updated_Based_希伯来字符手写图像数据集
2026年1月26日 30 190 111
数据集概述 本数据集是HHD_v0的更新版本,修正了部分错误标签,包含从手写表格中收集的孤立希伯来字符图像,以及训练集和测试集的划分信息,为希伯来手写字符识别研究提供结构化图像数据。 文件详解 文件名称:hhd_dataset.zip 文件格式:ZIP...
-
CrowdTruth_Based_众包命名实体黄金标准数据_v1_0
2026年1月23日 30 91 6
数据集概述 本数据集包含通过混合多命名实体识别(Multi-NER)众包增强方法,在英文维基百科句子中识别和分类命名实体的实验结果,提供众包标注的命名实体黄金标准数据,支持自然语言处理领域的相关研究与应用。 文件详解 文件名称:CrowdTruth/Crowdsourcing-NamedEntities-GoldStandard-v1.0.zip...
-
GEO_Bench_Based_地理基准测试m_nz_cattle数据集
2026年1月22日 30 194 101
数据集概述 本数据集是GEO-Bench数据集的一个子集,由ServiceNow基于Abuaiadah等人2022年的原始数据修改而来。包含14个文件,涵盖数据集说明、许可信息、任务规格、不同比例的训练分区、波段统计及数据压缩包等内容,适用于地理基准测试相关的模型训练与评估。 文件详解 说明与许可文件 文件名称:README、LICENSE...
-
Sentinel2_SDGSAT_Based_船舶检测遥感影像标注数据集
2026年1月21日 30 200 10
数据集概述 本数据集包含Sentinel2-Ship和SDGSAT-Ship两个船舶检测子数据集,提供训练、验证、测试相关数据。标注采用长边定义的旋转框格式,所有数据封装为单个压缩文件,无分层目录结构,可用于遥感影像船舶目标检测任务的模型训练与评估。 文件详解 文件名称:data.zip 文件格式:ZIP...
-
Reddit_Comments_Dataset_文本风格迁移任务评论数据集
2026年1月21日 30 27 20
数据集概述 本数据集为文本风格迁移任务准备,包含Reddit评论及其正式语言翻译。数据来自20个Subreddits,通过GPT-2筛选高困惑度评论进行翻译,分为原始评论、带标签翻译及带风格示例的翻译文件,共5个文件,支持风格迁移模型训练与评估。 文件详解 reddit_comments.csv 文件格式:CSV...
-
DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1
2026年1月20日 30 197 131
数据集概述 本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。 文件详解 文件名称:dwug_de_sense.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类核心文件:...
-
Open_Unmix_Pytorch_SDXDB21标签噪声基线模型训练数据
2026年1月20日 30 18 0
数据集概述 本数据集为SDXDB21标签噪声基线相关数据,包含Open-Unmix-Pytorch模型训练的配置信息、验证集歌曲ID及训练生成的模型文件。数据集涉及音频源分离任务,针对 vocals、bass、drums、other 四类音频源分别训练模型,共包含13个文件,支持音频源分离模型的训练与评估。 文件详解 模型与配置文件...
-
DCASE_2024_Task_9_Based_语言查询音频源分离开发集数据
2026年1月20日 30 111 95
数据集概述 本数据集是DCASE 2024 Task 9的开发集,由FSD50K和Clotho v2数据集的音频样本组成。FSD50K含51k+音频片段,通过AudioSet Ontology的200个类别手动标注;Clotho...
-
DeepSTARR_manuscript_Based_基因组区域DNA序列与活性数据
2026年1月18日 30 170 152
数据集概述 本数据集包含训练和评估DeepSTARR模型所用的基因组区域DNA序列数据、序列活性数据,以及已训练的DeepSTARR模型文件。数据集共8个文件,涵盖训练集、验证集、测试集的序列与活性信息,支持基因组学相关模型的训练与性能评估。 文件详解 序列数据文件...
-
Leveraging_Natural_Language_图形程序合成数据集_2020
2026年1月18日 30 53 20
数据集概述 本数据集为程序合成数据集,包含图形程序任务及语言注释(含合成注释与人工注释),用于支持自然语言在程序搜索与抽象学习中的应用研究。该数据集关联论文目前处于NeurIPS 2020审稿阶段,审稿后将进行匿名解除处理。 文件详解 文件名称:logo.zip 文件格式:ZIP...
-
M3NSCT5_Based_Stack_Overflow帖子多样化标题生成实验数据集
2026年1月18日 30 70 62
数据集概述 本数据集是论文“Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer”的配套数据,包含训练、验证、测试三类文件,覆盖八种编程语言的Stack...
-
Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023
2026年1月15日 30 22 0
数据集概述 本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据,包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型,适用于低资源语言情感分析研究。 文件详解 情感标注数据文件 文件名称:sentiment_eval_data.json 文件格式:JSON...



