数据集 - 海数据

Webis_SMC_12_用户搜索任务标注语料库_2012版

2026年1月29日

数据集概述本数据集为Webis Search Mission Corpus 2012（Webis-SMC-12），包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务，初始分歧通过讨论达成共识。数据集仅含1个压缩文件，无目录结构。文件详解文件名称：corpus-webis-...

ZIP

SEConvo_Based_社交工程对话模拟数据集_2024

2026年1月29日

数据集概述本数据集包含1400条基于聊天的社交工程对话，模拟LinkedIn场景中的真实沟通，覆盖学术合作、学术资助、新闻采访、招聘等场景。所有对话由GPT-4-Turbo生成，包含单LLM模拟和双智能体交互两种模式，其中400条对话经过人工标注，可用于社交工程攻击防御相关的研究与分析。文件详解 README.md 文件格式：MD...

ZIP

SIMPITIKI_GITHUB_意大利语文本简化语料库数据

2026年1月29日

数据集概述本数据集为意大利语文本简化语料库SIMPITIKI，包含两组简化文本对：第一组通过半自动方式从意大利语维基百科获取，第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件，无训练测试、数据标签或原始处理数据的划分。文件详解文件名称：simpitiki-v2.xml 文件格式：XML...

ZIP

GRN_MARVEL_Based_音视频人群计数原始标注数据

2026年1月29日

数据集概述本数据集包含从马耳他西海岸乡村小镇Mgarr的IP摄像头采集的原始音视频数据，已对行人进行人工标注。数据集共2个文件，无目录层级，包含压缩包和元数据文档两类文件，可用于音视频人群计数相关研究。文件详解压缩包文件文件名称：GRN_MARVEL_AUDIO_VISUAL_CROWD_COUNTING.zip 文件格式：ZIP...

ZIP

EconBiz_Based_经济学学术图表文本提取图像数据集

2026年1月29日

数据集概述本数据集是经济学领域的学术图表文本提取语料库，包含121张学术图表，随机抽取自EconBiz的288,000篇开放获取出版物。图表类型涵盖条形图、饼图、折线图、地图、散点图等，所有图表均经过人工标注形成黄金标准，用于评估文本提取工具。文件详解文件名称：EconBiz.zip 文件格式：ZIP...

ZIP

ASR_Based_牙科记录自动语音识别转录准确性研究数据集

2026年1月29日

数据集概述本数据集为牙科记录自动语音识别转录准确性研究的分析数据集，包含支持相关分析的所有数据。初始仅向审稿阶段的编辑和同行评审人员开放，论文接收后将提供无限制访问。数据集含1个文件。文件详解文件名称：oaisr data2.xlsx 文件格式：XLSX...

ZIP

数据11K_Hands_Based_手部珠宝分割掩码标注数据

2026年1月29日

数据集概述本数据集为11K Hands数据集补充了手部珠宝的分割掩码数据，包含经筛选的3179张带珠宝的手部图像的人工标注掩码，掩码与原始图像尺寸、文件名一致，以PNG格式存储，像素值0代表背景、1代表珠宝，用于图像分割任务。文件详解文件名称：segmentation_mask.zip 文件格式：ZIP（压缩包）...

ZIP

PCI_2023_Based_GDPR时代希腊隐私政策数据集

2026年1月29日

数据集概述本数据集包含希腊语隐私政策文本及相关分析数据，覆盖希腊访问量较高且提供希腊语隐私政策的网站。数据结合GDPR框架下的用户权利维度，可用于隐私合规性分析、政策文本特征研究等场景，总计包含十七份文件。文件详解隐私政策基础信息文件文件名称：ranked_domains_gr_dataset-nodupl.csv 文件格式：CSV...

ZIP

CroQS_Based_跨模态查询建议基准数据集_v1_0_0

2026年1月28日

数据集概述本数据集为CroQS (Cross-modal Query Suggestion) v1.0.0基准数据集，用于评估文本到图像检索场景中，基于视觉结果生成优化文本查询的方法。包含初始文本查询、图像结果语义簇及对应查询建议，支持跨模态查询建议任务研究。文件详解文件名称：CroQS_Benchmark_v1.0.0.json...

ZIP

DeepForest_Based_街道树木RGB深度学习数据集

2026年1月28日

数据集概述本数据集为DeepForest街道树木数据集，用于重现街道数据，支持论文补充材料3的研究。数据包含俄勒冈州公园和娱乐部提供的街道树木数据，以及经裁剪的训练、测试影像和人工标注文件，可用于RGB深度学习树木冠层 delineation 模型的训练与测试。文件详解文件名称：StreetTrees.zip 文件格式：ZIP...

ZIP

OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

2026年1月28日

数据集概述本数据集包含5篇奥克语传统书面民间故事文本摘录，均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集，每篇约1500词，用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能，由ExpressioNarration项目产出。文件详解文件名称：OWT-...

ZIP

YouTube_API_Based_马拉地语食谱频道评论标注数据集

2026年1月27日

数据集概述本数据集通过YouTube API采集马拉地语食谱频道评论，覆盖Anjali Recipe Marathi等12个热门频道。评论经人工标注为感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与查询7类，包含标注类别及对应样本量，为分析马拉地语食谱频道用户互动提供结构化数据。文件详解数据文件文件名称：devnagiri.csv...

ZIP

复制包_重新审视测试气味问题_自动生成测试用例_测试气味评估数据集

2026年1月27日

数据集概述本数据集是论文“Revisiting Test Smells in Automatically Generated Tests: Limitations, Pitfalls, and...

ZIP

AdoVoc_Pro_Based_弗拉门戈声乐资源音频及标注数据集

2026年1月27日

数据集概述本数据集包含弗拉门戈演唱专家（两名女歌手和一名男歌手）录制的单音和复音音频文件，涵盖常见弗拉门戈声乐资源，对单音内容进行了时间位置和识别的人工标注，附数据集结构说明文件，用于弗拉门戈声乐资源自动检测研究。文件详解文件名称：AdoVoc Pro.zip 文件格式：ZIP...

ZIP

FireXPosts_Based_X平台消防检测标注数据_2024

2026年1月27日

数据集概述本数据集为FireXPosts消防检测数据，包含希腊语和英语两种语言的X平台帖子数据，通过标注指南对帖子进行消防相关标注，同时提供图像和概念检测结果，用于支持应急响应人员的消防事件检测工作，共包含6个文件。文件详解数据文件（JSON格式）...

ZIP

CodeSmell_Based_C_长方法与大类代码异味人工标注数据集

2026年1月26日

数据集概述本数据集包含采用C#编程语言编写的开源项目代码，针对长方法（Long Method）和大类（Large Class，文中亦称God Class）两种代码异味进行人工标注。每个标注实例由至少两名标注员独立完成，数据集包含标注结果及标注依据的启发式信息，共4个Excel文件，可用于代码异味检测模型训练与评估、代码质量分析等场景。文件详解...

ZIP

Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集

2026年1月26日

数据集概述本数据集收集自印度两大知名Youtube烹饪频道（Nisha Madhulika和Kabita’s Kitchen）的观众评论，核心为Hinglish语言评论，包含4900条/频道的标注数据，共划分7类标签（感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问），所有标注为人工完成，支持文本分类任务。文件详解数据文件（CSV格式）...

罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据

2026年1月26日

数据集概述本数据集为2023年生成，基于2022年从MEDLINE（科学文献）和Event Registry（新闻）收集的数据，支持罕见病挖掘项目。包含16种罕见病的人工标注文献，涉及科学论文和新闻文章的标注及分类器评估数据，用于相关研究论文的开发。文件详解 JSON文件文件名称：preproc2-input-...

ZIP

DCASE2024_Task9_Based_语言查询音频源分离验证集数据

2026年1月21日

数据集概述本数据集是DCASE 2024挑战赛Task 9（语言查询音频源分离）的验证集，包含1000个来自Freesound的音频文件及对应元数据，支持模型开发阶段的性能评估。音频已处理为10秒16kHz片段，每个文件配3条人工标注字幕，标签参考FSD50K规范，可用于生成无重叠类别的合成混合音频。文件详解 lass_validation.zip...