-
黑客马拉松_TF_TG_关系_注释_黄金标准语料库
2026年1月31日 30 114 35
数据集概述 本数据集为TF-TG关系标注黄金标准语料库,包含130个PMID对应的生物医学文献标注数据,以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究,提供原始摘要文本与BRAT格式的术语及关系标注文件,支持生物医学文本挖掘相关分析。 文件详解 压缩包文件 文件名称:TFTG_V3.zip 文件格式:ZIP...
-
NLPContributionGraph_SemEval2021_学术论文贡献结构化标注数据集
2026年1月12日 30 41 36
数据集概述 本数据集为SemEval-2021 Task 11首次发布的NLPContributionGraph任务数据,包含自然语言处理学术论文的结构化贡献标注,支持知识图谱构建。标注内容分为贡献句子、科学术语及关系、三元组三类,三元组对应ResearchProblem等12个信息单元,可集成至开放研究知识图谱等基础设施。 文件详解...
-
法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集
2025年12月15日 30 91 15
数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
-
DrugProt语料库_BioCreative_VII_Track1_药物化学物质_蛋白质相互作用文本挖掘数据集
2025年12月4日 30 47 39
数据集概述 该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。 文件详解 训练集文件夹...



