找到31个数据集

标签: 标注指南

过滤结果
  • FireXPosts_Based_X平台消防检测标注数据_2024

    2026年1月27日 30 187 169

    数据集概述 本数据集为FireXPosts消防检测数据,包含希腊语和英语两种语言的X平台帖子数据,通过标注指南对帖子进行消防相关标注,同时提供图像和概念检测结果,用于支持应急响应人员的消防事件检测工作,共包含6个文件。 文件详解 数据文件(JSON格式)...
    packageimg
  • NLM_Chem_Based_生物医学文献化学实体识别标注语料库与指南

    2026年1月23日 30 108 65

    数据集概述 本数据集为NLM-Chem语料库,包含150篇PubMed全文文献,由十位NLM专家索引员双重标注,含约五千个独特化学名称标注及对应约两千个MeSH标识符,用于支持化学实体识别工具的开发与评估,解决现有工具在全文中性能较低的问题,挖掘文献中更详细的化学信息。 文件详解 NLM-Chem-corpus.zip 文件格式:ZIP...
    packageimg
  • AuCoPro_Semantics_Based_复合词语义自动分析数据集

    2026年1月22日 30 196 108

    数据集概述 本数据集用于复合词的自动语义分析,包含荷兰语和南非荷兰语的语义标注名词-名词复合词(NN),每种语言分两轮标注,标注指南基于Ó Séaghdha(2008)的标准;还包含荷兰语其他名词性复合词(XN),采用新开发的标注方案。数据集以压缩包形式提供,共1个文件。 文件详解 文件名称:AUCOPRO.Semantics.zip 文件格式:ZIP...
    packageimg
  • ENHG_Annotation_Based_中世纪采矿文献TEI标注数据集

    2026年1月21日 30 170 35

    数据集概述 本数据集包含历史采矿文献《Verleihbuch der Rattenberger Bergrichter》(TLA Hs....
    packageimg
  • Islamophobic_Hate_Speech_Based社交媒体强弱仇恨言论检测数据2019

    2026年1月11日 30 50 3

    数据集概述 本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据,包含数据、代码及标注指南,共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源,可用于分析不同强度仇恨言论的特征与识别方法。 文件详解 文档文件...
    packageimg
  • Vidgen_Recalibrating_classifiers_辱骂内容检测分类器校准数据集_2020

    2025年12月31日 30 178 45

    数据集概述 本数据集包含论文《Recalibrating classifiers for interpretable abusive content...
    packageimg
  • ENHG_TMAMMT_Based_Schwazer_Berglehenbuch采矿文献TEI实体标注数据

    2025年12月30日 30 209 67

    数据集概述 本数据集包含1515年左右的历史采矿文献《Schwazer Berglehenbuch》(TLA Hs. 1587)的TEI标注数据,由因斯布鲁克大学“Text Mining Medieval Mining Texts”项目团队生成,标注实体包括人物、地点、矿山、日期,存储于奥地利蒂罗尔地区档案馆。 文件详解...
    packageimg
  • NERdME_Based_命名实体识别任务完整数据集

    2025年12月20日 30 95 34

    数据集概述 本数据集包含NERdME相关的压缩文件和标注指南文档,为命名实体识别任务提供数据及操作参考,支持相关算法训练或研究分析。 文件详解 文件名称: NERdME.zip 文件格式: ZIP压缩包 内容说明: 包含NERdME相关的原始或处理后的数据文件,具体内容需解压后查看 文件名称:...
    packageimg
  • NewsEye_READ_AS_19世纪芬兰报纸训练数据集

    2025年12月24日 30 7 3

    数据集概述 该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。 文件详解 文件名称: Article GT guidelines for...
    packageimg
  • 媒体偏见标注专家数据集

    2025年12月22日 30 2 1

    数据集概述 本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。 文件详解 专家标注文件: annotations_expert1.xlsx:...
    packageimg
  • 业务流程描述中歧义检测的标注数据集

    2025年12月21日 30 83 54

    数据集概述 本数据集包含七十一条业务流程描述的歧义标注数据,采用Franceschetti等人提出的业务流程管理(BPM)歧义分类体系进行标注,涵盖声明式和命令式两种流程描述类型,为研究业务流程文本中的歧义识别提供标注资源。 文件详解 综合标注数据文件: Ambiguity Annotations - All...
    packageimg
  • 数据中心API误用数据集2024

    2025年12月21日 30 94 38

    数据集概述 本数据集聚焦数据中心的API误用问题,包含完整的误用数据、分类标签、影响类型及统计信息。数据集结构清晰,以Excel表格存储核心数据,辅以标注指南文档和代码示例压缩包,为研究API误用模式、影响及修复方法提供系统性支持。 文件详解 该数据集由三个文件组成,具体说明如下: - 核心数据文件: - Misuse collection -...
    packageimg
  • 印地语文本宣传数据集2023_Prop_HiT

    2025年12月21日 30 12 1

    数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
    packageimg
  • 开发者情感分析基准研究数据集

    2025年12月20日 30 132 126

    数据集概述 该数据集是一项关于软件提交信息情感与情绪分析的基准研究数据,包含实验代码、预处理脚本、模型实现文件、数据压缩包及标注指南文档,为分析开发者在代码提交过程中的情感倾向提供技术实现与数据支持。 文件详解 代码文件(.ipynb格式,共11个): sentiment_PLMs.ipynb:基于预训练语言模型(PLMs)的情感分析实验代码...
    packageimg
  • dinG语料库AMR标注数据集

    2025年12月19日 30 167 122

    数据集概述 本数据集是采用抽象意义表示(AMR)标注的dinG语料库,dinG语料库由Boritchev和Amblard于2022年提出,包含语料库的数据声明和标注指南,为语义分析相关研究提供标注资源。 文件详解 文件名称: ding-01.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg
  • 古希腊语到英语翻译对齐标注指南与黄金标准数据集

    2025年12月15日 30 96 50

    数据集概述 该数据集包含古希腊语文本与英语翻译对齐的标注指南及黄金标准,标注覆盖荷马史诗、雅典散文、柏拉图对话等文本,经测试标注者间一致性达百分之八十及以上,可用于翻译对齐的执行、评估及自动化模型训练。 文件详解 文件名称: eng.txt 文件格式: TXT (.txt) 内容说明:...
    packageimg
  • 二氧化碳排放标注的黄金标准与标注数据集

    2025年12月15日 30 79 32

    数据集概述 本数据集是用于从企业年度及可持续发展报告中提取温室气体排放数据的基准数据集,包含黄金标准数据集与标注数据集,涵盖三个阶段的标注结果,为相关研究提供标准化数据支持。 文件详解 数据文件:...
    packageimg
  • 头巾相关数字极化分析的YouTube评论标注数据集

    2025年12月15日 30 102 19

    数据集概述 本数据集围绕头巾相关话题的数字极化现象,收集并标注了YouTube平台的用户评论,包含原始数据、语料库文件及一致性检验文件,为研究社交媒体上的观点极化提供支持。 文件详解 数据文件(.xlsx格式): Raw Data.xlsx:原始YouTube评论数据 Corpus 1.xlsx:第一部分标注语料库 Corpus...
    packageimg
  • DISCERN_Based_中文健康信息质量评估完整标注数据

    2025年12月15日 30 73 31

    数据集概述 该数据集为DISCERN标注数据集,包含收集的中文健康信息文本、网页元数据、DISCERN评分结果及补充文件,涉及校准示例、评分者信度、标注指南等内容,为健康信息质量评估研究提供数据支持。 文件详解 数据文件(.xlsx格式): Webpage meta.xlsx:网页元数据文件 rater1.xlsx:第一位评分者的DISCERN评分数据...
    packageimg
  • 休闲领域复杂已知项搜索请求标注指南与数据集

    2025年12月14日 30 132 3

    数据集概述 本数据集包含休闲领域(书籍、电影、游戏)的已知项搜索请求标注数据,标注内容包括搜索请求帖、正确答案帖及原帖主确认帖,同时提供标注流程说明文档,支持相关检索研究。 文件详解 标注指南文件: 文件名称:Annotation_Guidelines.pdf 文件格式:PDF 内容:详细说明已知项搜索请求的标注流程与规则...
    packageimg