找到122个数据集

标签: 人工标注

过滤结果
  • CyberSecNews_Based_德英网络安全新闻人工分类标注数据集

    2026年1月21日   

    数据集概述 本数据集包含457篇德语和英语新闻文章,通过RSS源从各类新闻网站和博客收集。每篇文章经AIT数字安全与安全中心同事人工分类,标注为“网络安全”“非网络安全”或“不确定”,并提供文章标题、内容、语言、来源、发布时间、版权声明及参与者分类结果等信息,无缺失值。 文件详解 文件名称:cybersec_news_de_en.json...
    packageimg
  • 数据20Newsgroup_Based_机器学习解释评估人工标注词权重数据

    2026年1月21日   

    数据集概述 本数据集是论文“Quantitative Evaluation of Machine Learning Explanations: A Human-Grounded...
    packageimg
  • M1_Serinus_canaria_家养金丝雀2016春季标记鸣唱数据集

    2026年1月21日   

    数据集概述 本数据集包含2016年5月24日至6月15日记录的一只雄性家养金丝雀(M1)约3小时的标记鸣唱数据,共459首鸣唱。鸣唱经人工专家标注并通过自动化程序校验,标注涵盖音节、叫声、无关声音及沉默等类别,适用于鸟类鸣唱行为模式的分析研究。 文件详解 音频文件包 文件名称:M1-2016-sping_audio.zip...
    packageimg
  • UI_Components_Based_桌面环境UI组件语义描述标注数据集

    2026年1月21日   

    数据集概述 本数据集包含桌面环境UI组件的语义描述标注信息,用于评估视觉语言模型(VLMs)提取UI元素语义描述的能力。数据涵盖100张截图中的559个手动标注UI元素,记录其交互事件、位置、类别等属性,支持UI交互分析与模型性能验证。 文件详解 screenshots_&_soms.zip 文件格式:ZIP...
    packageimg
  • DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

    2026年1月20日   

    数据集概述 本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。 文件详解 文件名称:dwug_de_sense.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类核心文件:...
    packageimg
  • GitHub_Human_centric_用户中心问题讨论标注数据集2021

    2026年1月20日   

    数据集概述 本数据集为人工标注的用户中心问题讨论数据,包含从6个GitHub仓库中随机选取的1244条问题评论。数据聚焦于GitHub平台上多样化的用户中心问题讨论,为研究代码协作平台中的用户需求提供结构化标注资源,仅包含一个文件。 文件详解 文件名称:Human-centric-issues-GitHub-552021.xlsx 文件格式:XLSX...
    packageimg
  • SegCODEBRIM_Based_混凝土桥梁缺陷图像语义分割数据集_2024

    2026年1月20日   

    数据集概述 本数据集为SegCODEBRIM,是用于混凝土裂缝语义分割的桥梁缺陷图像数据集。图像源自CODEBRIM数据集并经人工标注,旨在支持混凝土裂缝的语义分割任务,相关内容在WACV 2024会议论文中呈现。 文件详解 文件名称:SegCODEBRIM.zip 文件格式:ZIP...
    packageimg
  • DepthMars_Based_祝融号火星表面图像深度增强语义分割数据集_v1

    2026年1月20日   

    数据集概述 本数据集源自“DepthFormer”相关研究论文,包含祝融号火星车 traverse 过程中采集的火星表面图像、由立体图像生成的深度图像,以及对应的人工标注图像,用于火星表面图像的语义分割任务。 文件详解 文件名称:DepthMars_Simulated 4D Martain Surface Images with Depth...
    packageimg
  • Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集

    2026年1月19日   

    数据集概述 本数据集收集自印度两大知名Youtube烹饪频道(Nisha Madhulika和Kabita’s Kitchen)的观众评论,核心为Hinglish语言评论,包含4900条/频道的标注数据,共划分7类标签(感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问),所有标注为人工完成,支持文本分类任务。 文件详解 数据文件(CSV格式)...
    packageimg
  • Swinemünder_Badeanzeiger_历史报纸表格OCR人工标注数据集

    2026年1月18日   

    数据集概述 本数据集为历史报纸《Swinemünder Badeanzeiger》表格信息提取的人工标注真值数据,按年份组织文件夹,每个年份文件夹含原始图像ID命名的子文件夹,包含分割表格图像、人工转录的结构化JSON标注及条目与表格行关联的索引JSON,另有汇总所有条目的JSON文件,用于OCR信息提取模型训练与评估。 文件详解...
    packageimg
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日   

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • Webis_Clickbait_Based_2016年Twitter推文标注数据集

    2026年1月15日   

    数据集概述 本数据集为Webis Clickbait Corpus 2016,包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文,由三位独立标注者手动标注是否为clickbait,其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值,是该领域首个数据集。 文件详解...
    packageimg
  • Sentiment_Analysis_Based_荷兰语推文自动与人工情感分析对比数据

    2026年1月14日   

    数据集概述 本数据集为Lynette Joosten学士论文所用,包含荷兰语推文的情感分析相关数据,对比了自动与人工情感分析的结果。数据以六个Excel文件呈现,分别对应ING、Rabobank等不同对象的情感分析内容,适用于NLP情感分析方法的效果验证与对比研究。 文件详解 荷兰语推文情感分析文件集(共6个) 文件名称:ING...
    packageimg
  • Alive_and_Dead_Trees_Based_哈尔茨山脉多时序遥感单木分类数据集

    2026年1月13日   

    数据集概述 本数据集包含哈尔茨山脉2009、2016、2022年三个年份的人工标注树冠数据,区分活树与死树,用于单木检测。数据涵盖RGBI航空影像、地面采样距离20厘米的归一化数字表面模型(nDSM)及对应标注,分为训练集和测试集。 文件详解 文件名称:ML_TreeDetection_Harz.zip 文件格式:ZIP...
    packageimg
  • replicAnt_Based_动物行为研究3D模型数据_Unreal_Engine_5兼容版

    2026年1月12日   

    数据集概述 本数据集包含replicAnt项目所用的动物3D模型,用于生成复杂环境下带标注的动物合成图像。模型通过开源摄影测量平台scAnt生成,已预处理并转换为Unreal Engine 5兼容的.uasset格式,可配合GitHub上的replicAnt项目使用,支持深度学习计算机视觉方法在动物行为研究中的应用。 文件详解...
    packageimg
  • Relation_Extraction_Based_生物与天然产物关系抽取评估数据集_test

    2026年1月11日   

    数据集概述 本数据集是针对生物与天然产物之间关系的端到端关系抽取任务构建的人工标注评估数据集,包含对化学实体、生物实体及两者间明确关系的结构化标注,为生物信息学领域的关系抽取模型提供测试基准。 文件详解 文件名称:curated_test_set.json 文件格式:JSON 字段映射介绍:包含人工标注的实体与关系信息,主要分为三类标注内容:...
    packageimg
  • GBIF_Bionomia_Based厄瓜多尔南部Enyalioides属蜥蜴新物种标本关联数据

    2026年1月8日   

    数据集概述 本数据集为厄瓜多尔南部鬣蜥科蜥蜴新物种(Enyalioides属)研究的标本关联数据,包含标本采集者、鉴定者信息及相关文献、记录。数据由Bionomia志愿者标注,基于GBIF聚合的标本数据集,以Frictionless Data数据包格式组织,共9个文件,用于支持爬行动物分类学研究与标本信息追溯。 文件详解 压缩文件(共8个)...
    packageimg
  • Age_Inclusive_Mobile_App_Reviews_年龄包容性移动应用评论分析数据

    2026年1月8日   

    数据集概述 本数据集为年龄包容性移动应用评论研究项目的相关文件集合,包含用户评论的人工标注数据、基于GPT、Gemini、LLAMA等模型的自动标注结果,以及对应的分析代码笔记本和说明文档,用于支持移动应用评论的年龄包容性研究。 文件详解 文档文件 文件名称:README.txt.md 文件格式:.md...
    packageimg
  • SO_Solution_Snippets_Stack_Overflow解决方案片段呈现与复用研究数据

    2026年1月5日   

    数据集概述 本数据集为Stack Overflow平台解决方案片段研究的支撑数据,包含两类人工标注文件:一类是对含解决方案片段的问题的分类数据,另一类是对解决方案片段的标注数据。数据用于分析Stack Overflow中解决方案片段的呈现方式及复用适配方法,为提升知识共享效率和优化生成式AI工具提供参考。 文件详解 Manual-...
    packageimg
  • AMOR_Corpus_Spanish_Morality_Corpus_西班牙语在线评论道德标注数据集

    2026年1月3日   

    数据集概述 本数据集是AMOR项目产出的首个可发布版本西班牙语在线评论道德基础标注语料库,包含从西班牙语Reddit社区提取并经人工筛选的评论,由训练后的标注者通过Qualtrics平台完成标注。数据涵盖标注文本及标注者档案两部分,适用于计算语言学和社会科学领域关于西班牙语在线话语中道德语言与价值表达的研究。 文件详解 语料库文件(Corpus...
    packageimg