找到29个数据集

标签: 标注一致性

过滤结果
  • Open_TG_GATEs_大鼠肝脏切片坏死与有丝分裂标注数据集

    2026年2月13日 30 1 0

    数据集概述 本数据集包含Open TG-GATEs数据集230张大鼠肝脏全切片图像的多边形标注,由拜耳病理学家与Aignostics GmbH合作完成。标注内容涵盖坏死、有丝分裂等17类病理特征,包括区域和单细胞级别的病变,可用于病理图像分析模型训练与验证。 文件详解 压缩包文件 文件名称:by-tggates-annotations.zip...
    packageimg
  • AGREE_Based_古希腊语义模型评估基准数据集

    2026年1月31日 30 143 25

    数据集概述 本数据集为AGREE基准,用于评估古希腊语义模型,包含两项专家任务的原始数据、最终基准数据集及问卷原始答案。数据基于专家对古希腊词汇语义相关性的判断构建,支持语义模型性能验证,总计包含5个文件。 文件详解 1_agree_task1.json(JSON格式)...
    packageimg
  • Appen_Based_产品发布未来信息标注网页数据集

    2026年2月7日 30 176 153

    数据集概述 本数据集为标注数据集,包含约三万条网页数据,由众包标注员完成标注。每条网页由四至六名标注员标记是否包含未来产品发布信息,标注结果含置信度评分,基于标注员间一致性及信任分数计算。数据可用于识别网页中的未来产品发布相关文本。 文件详解 压缩文件: 文件名称:product_releases_v1_dataset.csv.zip 文件格式:ZIP...
    packageimg
  • 生物多样性研究_评估深度学习方法的可重复性数据

    2026年2月1日 30 42 7

    数据集概述 本数据集围绕生物多样性研究中深度学习模型的方法可重复性评估展开,包含5个文件,涵盖变量信息、学术出版物数据、最终数据及标注一致性处理后的数据,为分析深度学习模型在该领域的可重复性提供结构化支持。 文件详解 Variable_info_WA_v1.csv(CSV格式):包含出版物编号、标题、DOI及V1-V7、R、S1-S2等变量的取值信息...
    packageimg
  • SKG_Based_70篇AI论文并行标注与金标准数据

    2026年1月31日 30 195 40

    数据集概述 本数据集包含4个主流科学知识图谱(OpenAlex、OpenAIRE、ORKG、Papers with Code)对70篇AI相关论文的并行类别标注,以及人工整理的语义准确的金标准标注,用于评估SKG标注质量与一致性。 文件详解 initial_dataset.json 文件格式:JSON 字段映射介绍:直接从SKG的API或数据 dump...
    packageimg
  • Twitter_Fakenews_2016美国大选病毒式推文数据

    2026年1月28日 30 110 61

    数据集概述 本数据集包含2016年美国大选期间(2016年11月8日至2017年3月)达到1000次转发阈值的病毒式推文,通过Twitter流API以特定标签和用户句柄获取,内容涉及虚假新闻相关分类标注,共1个文件。 文件详解 文件名称:twitter_fakenews_USElections_2016.xlsx 文件格式:XLSX...
    packageimg
  • NewsNinja_Based_媒体偏见众包标注数据集_2023

    2026年1月28日 30 99 85

    数据集概述 本数据集是通过News Ninja游戏收集的众包标注数据,用于提升语言媒体偏见的自动检测能力。数据包含玩家标注的句子偏见标签、专家对比标注及玩家人口统计信息,所有数据匿名化处理,可支持媒体偏见检测模型训练与标注一致性分析。 文件详解 ExportNewsNinja.csv 文件格式:CSV...
    packageimg
  • Fleiss_Kappa_Based生物医学协议标注一致性评估数据

    2026年1月27日 30 2 0

    数据集概述 本数据集为生物医学自然语言处理社区提供研究资源,包含经完全标注的协议集合。每份全文由三位领域专家手动标注,共有三十四位标注者参与。数据集用于评估标注一致性,支持生物医学文本处理相关研究,仅含一个文件。 文件详解 文件名称:table - fleisskappa of protocols.xlsx 文件格式:XLSX...
    packageimg
  • adpossessive_UDW_2020_领属结构类型学研究数据集

    2026年1月26日 30 133 95

    数据集概述 本数据集包含领属结构类型学研究的相关数据及脚本,源自Sinnemäki与Haakana 2020年发表于UDW 2020研讨会的论文。数据用于分析通用依存标注中的变体,聚焦领属结构的标记基类型学案例研究,可支持语言学与自然语言处理领域的相关研究。 文件详解 文件名称:udw2020-adpossessive-...
    packageimg
  • CodeSmell_Based_C_长方法与大类代码异味人工标注数据集

    2026年1月26日 30 66 50

    数据集概述 本数据集包含采用C#编程语言编写的开源项目代码,针对长方法(Long Method)和大类(Large Class,文中亦称God Class)两种代码异味进行人工标注。每个标注实例由至少两名标注员独立完成,数据集包含标注结果及标注依据的启发式信息,共4个Excel文件,可用于代码异味检测模型训练与评估、代码质量分析等场景。 文件详解...
    packageimg
  • Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集

    2026年1月22日 30 51 18

    数据集概述 本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。 文件详解 文件名称:dataset.zip 文件格式:ZIP...
    packageimg
  • TestWUG_EN_Based_英语词汇使用图测试数据集_v1_2_0

    2026年1月22日 0 100 32

    数据集概述 本数据集为英语测试词汇使用图(TestWUG EN),包含人工创建或从现有数据集中选取的特定测试案例,用于词汇语义分析相关测试。数据涉及afternoon_nn、arm、plane_nn、target四个词汇案例,涵盖不同标注来源、使用量、判断数及聚类结构等特征,版本为1.2.0(2023年6月30日)。 文件详解...
    packageimg
  • CyberSecNews_Based_德英网络安全新闻人工分类标注数据集

    2026年1月21日 30 29 14

    数据集概述 本数据集包含457篇德语和英语新闻文章,通过RSS源从各类新闻网站和博客收集。每篇文章经AIT数字安全与安全中心同事人工分类,标注为“网络安全”“非网络安全”或“不确定”,并提供文章标题、内容、语言、来源、发布时间、版权声明及参与者分类结果等信息,无缺失值。 文件详解 文件名称:cybersec_news_de_en.json...
    packageimg
  • DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

    2026年1月20日 30 73 0

    数据集概述 本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。 文件详解 文件名称:dwug_de_sense.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类核心文件:...
    packageimg
  • RP_Mod_RP_Crowd_Based_德语新闻评论审核与众包标注数据集

    2026年1月20日 30 147 32

    数据集概述 本数据集是目前最大的德语辱骂性语言新闻评论标注数据集,包含专业审核员(RP-Mod)和众包(RP-Crowd)两种标注来源的数据。数据覆盖德语新闻评论的文本内容及对应的辱骂性标签,支持自然语言处理模型的训练与评估,总计十五个文件,以CSV格式为主。 文件详解 CSV文件(共13个) 部分文件名称:RP-Crowd-1.csv、RP-...
    packageimg
  • heureCLÉA_Compared_Public_时间标注比较数据集_v1_1

    2026年1月19日 30 178 79

    数据集概述 本数据集为heureCLÉA项目产出的公开时间标注比较数据,版本为v1.1,包含一个压缩文件,记录了项目内创建的公共时间标注对比信息,可用于时间标注相关的分析研究。 文件详解 文件名称:heureclea/time-annotations-compared-public-v1.1.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Paired_Human_and_LLM_free_text_survey_data

    2026年1月18日 30 68 18

    数据集概述 本数据集包含两组配对数据,模拟公众咨询场景。人类数据集涵盖约一千名英国居民对五个类公众咨询问题的自由文本回答,包含受访者自标主题标签及三名众包工作者的标注;LLM数据集基于人类回答生成,包含同一问题下的合成回复,由预设主题、角色设定及人类回答示例引导生成。 文件详解 人类调查数据文件...
    packageimg
  • Rhyme_Annotation_Evaluation_全唐诗全宋诗押韵标注人工评估样本

    2026年1月13日 30 157 130

    数据集概述 本数据集为全唐诗与全宋诗的押韵标注评估人工样本,包含三个JSON文件,记录了人工标注的诗歌押韵信息,旨在支持诗歌押韵标注任务的评估与人工标注一致性分析,是古典诗歌韵律研究的结构化参考资料。 文件详解 hand_annotated_sample.json 文件格式:JSON...
    packageimg
  • Vidgen_Recalibrating_classifiers_辱骂内容检测分类器校准数据集_2020

    2025年12月31日 30 141 81

    数据集概述 本数据集包含论文《Recalibrating classifiers for interpretable abusive content...
    packageimg
  • Ethereum_Smart_Contract_Vulnerability_Labeled_Dataset

    2025年12月30日 30 205 68

    数据集概述 本数据集包含以太坊智能合约代码弱点与漏洞特征的标注数据,覆盖CVE、SWC、Stack Overflow和GitHub四个数据源。通过专家标注明确漏洞类别,支持智能合约安全研究与分析,总计包含五个文件。 文件详解 标注数据文件(XML格式)...
    packageimg