-
Webis_SMC_12_用户搜索任务标注语料库_2012版
数据集概述 本数据集为Webis Search Mission Corpus 2012(Webis-SMC-12),包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务,初始分歧通过讨论达成共识。数据集仅含1个压缩文件,无目录结构。 文件详解 文件名称:corpus-webis-...
-
SEConvo_Based_社交工程对话模拟数据集_2024
数据集概述 本数据集包含1400条基于聊天的社交工程对话,模拟LinkedIn场景中的真实沟通,覆盖学术合作、学术资助、新闻采访、招聘等场景。所有对话由GPT-4-Turbo生成,包含单LLM模拟和双智能体交互两种模式,其中400条对话经过人工标注,可用于社交工程攻击防御相关的研究与分析。 文件详解 README.md 文件格式:MD...
-
SIMPITIKI_GITHUB_意大利语文本简化语料库数据
数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
-
GRN_MARVEL_Based_音视频人群计数原始标注数据
数据集概述 本数据集包含从马耳他西海岸乡村小镇Mgarr的IP摄像头采集的原始音视频数据,已对行人进行人工标注。数据集共2个文件,无目录层级,包含压缩包和元数据文档两类文件,可用于音视频人群计数相关研究。 文件详解 压缩包文件 文件名称:GRN_MARVEL_AUDIO_VISUAL_CROWD_COUNTING.zip 文件格式:ZIP...
-
EconBiz_Based_经济学学术图表文本提取图像数据集
数据集概述 本数据集是经济学领域的学术图表文本提取语料库,包含121张学术图表,随机抽取自EconBiz的288,000篇开放获取出版物。图表类型涵盖条形图、饼图、折线图、地图、散点图等,所有图表均经过人工标注形成黄金标准,用于评估文本提取工具。 文件详解 文件名称:EconBiz.zip 文件格式:ZIP...
-
ASR_Based_牙科记录自动语音识别转录准确性研究数据集
数据集概述 本数据集为牙科记录自动语音识别转录准确性研究的分析数据集,包含支持相关分析的所有数据。初始仅向审稿阶段的编辑和同行评审人员开放,论文接收后将提供无限制访问。数据集含1个文件。 文件详解 文件名称:oaisr data2.xlsx 文件格式:XLSX...
-
数据11K_Hands_Based_手部珠宝分割掩码标注数据
数据集概述 本数据集为11K Hands数据集补充了手部珠宝的分割掩码数据,包含经筛选的3179张带珠宝的手部图像的人工标注掩码,掩码与原始图像尺寸、文件名一致,以PNG格式存储,像素值0代表背景、1代表珠宝,用于图像分割任务。 文件详解 文件名称:segmentation_mask.zip 文件格式:ZIP(压缩包)...
-
PCI_2023_Based_GDPR时代希腊隐私政策数据集
数据集概述 本数据集包含希腊语隐私政策文本及相关分析数据,覆盖希腊访问量较高且提供希腊语隐私政策的网站。数据结合GDPR框架下的用户权利维度,可用于隐私合规性分析、政策文本特征研究等场景,总计包含十七份文件。 文件详解 隐私政策基础信息文件 文件名称:ranked_domains_gr_dataset-nodupl.csv 文件格式:CSV...
-
CroQS_Based_跨模态查询建议基准数据集_v1_0_0
数据集概述 本数据集为CroQS (Cross-modal Query Suggestion) v1.0.0基准数据集,用于评估文本到图像检索场景中,基于视觉结果生成优化文本查询的方法。包含初始文本查询、图像结果语义簇及对应查询建议,支持跨模态查询建议任务研究。 文件详解 文件名称:CroQS_Benchmark_v1.0.0.json...
-
DeepForest_Based_街道树木RGB深度学习数据集
数据集概述 本数据集为DeepForest街道树木数据集,用于重现街道数据,支持论文补充材料3的研究。数据包含俄勒冈州公园和娱乐部提供的街道树木数据,以及经裁剪的训练、测试影像和人工标注文件,可用于RGB深度学习树木冠层 delineation 模型的训练与测试。 文件详解 文件名称:StreetTrees.zip 文件格式:ZIP...
-
OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库
数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
-
YouTube_API_Based_马拉地语食谱频道评论标注数据集
数据集概述 本数据集通过YouTube API采集马拉地语食谱频道评论,覆盖Anjali Recipe Marathi等12个热门频道。评论经人工标注为感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与查询7类,包含标注类别及对应样本量,为分析马拉地语食谱频道用户互动提供结构化数据。 文件详解 数据文件 文件名称:devnagiri.csv...
-
复制包_重新审视测试气味问题_自动生成测试用例_测试气味评估数据集
数据集概述 本数据集是论文“Revisiting Test Smells in Automatically Generated Tests: Limitations, Pitfalls, and...
-
AdoVoc_Pro_Based_弗拉门戈声乐资源音频及标注数据集
数据集概述 本数据集包含弗拉门戈演唱专家(两名女歌手和一名男歌手)录制的单音和复音音频文件,涵盖常见弗拉门戈声乐资源,对单音内容进行了时间位置和识别的人工标注,附数据集结构说明文件,用于弗拉门戈声乐资源自动检测研究。 文件详解 文件名称:AdoVoc Pro.zip 文件格式:ZIP...
-
FireXPosts_Based_X平台消防检测标注数据_2024
数据集概述 本数据集为FireXPosts消防检测数据,包含希腊语和英语两种语言的X平台帖子数据,通过标注指南对帖子进行消防相关标注,同时提供图像和概念检测结果,用于支持应急响应人员的消防事件检测工作,共包含6个文件。 文件详解 数据文件(JSON格式)...
-
CodeSmell_Based_C_长方法与大类代码异味人工标注数据集
数据集概述 本数据集包含采用C#编程语言编写的开源项目代码,针对长方法(Long Method)和大类(Large Class,文中亦称God Class)两种代码异味进行人工标注。每个标注实例由至少两名标注员独立完成,数据集包含标注结果及标注依据的启发式信息,共4个Excel文件,可用于代码异味检测模型训练与评估、代码质量分析等场景。 文件详解...
-
Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集
数据集概述 本数据集收集自印度两大知名Youtube烹饪频道(Nisha Madhulika和Kabita’s Kitchen)的观众评论,核心为Hinglish语言评论,包含4900条/频道的标注数据,共划分7类标签(感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问),所有标注为人工完成,支持文本分类任务。 文件详解 数据文件(CSV格式)...
-
罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据
数据集概述 本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。 文件详解 JSON文件 文件名称:preproc2-input-...
-
DCASE2024_Task9_Based_语言查询音频源分离验证集数据
数据集概述 本数据集是DCASE 2024挑战赛Task 9(语言查询音频源分离)的验证集,包含1000个来自Freesound的音频文件及对应元数据,支持模型开发阶段的性能评估。音频已处理为10秒16kHz片段,每个文件配3条人工标注字幕,标签参考FSD50K规范,可用于生成无重叠类别的合成混合音频。 文件详解 lass_validation.zip...
-
Mapping_plague_Based_自然语言处理鼠疫地理映射数据集
数据集概述 本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码,包含基于Sticker(1908)和Biraben(1975)两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集,用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。 文件详解 核心数据文件...



