化学命名实体识别标注数据集ChemTok标注版
数据来源:互联网公开数据
标签:化学命名实体,IOB标注,医学生物文本,ChemTok,药物识别,生物信息学,文本挖掘
数据概述:
该数据集基于CHEMDNER语料库提取,专门用于化学命名实体的识别,采用IOB(Inside-Outside-Beginning)标注方法。数据集分为训练集、验证集和评估集三个部分,每个部分包含使用ChemTok工具从CHEMDNER语料库中提取的标记化文本,并附带相应的IOB标注。具体内容包括每条记录的PubMed标识符(PMID)及其类型(如标题或摘要)、句子索引、ChemTok提取的标记词及其对应的IOB标注。
数据用途概述:
该数据集适用于化学命名实体识别(Chemical Named Entity Recognition, CNER)的研究和开发,包括训练和评估化学命名实体识别模型。研究者可以利用此数据集优化和验证其CNER算法,提高识别的准确性;生物信息学研究者可使用该数据集分析药物和化学物质在医学文献中的分布和使用情况;医疗信息处理领域也可从此数据集中受益,促进相关技术的进步和应用。
举例:
数据集中的一条记录可能如下所示:
PMID_Type: 12345678 T
Sentence_Index: 3
Token: ascorbic
Tag: B-Chemical
这条记录表明,在PubMed标识符为12345678的文献标题中,第三句话的“ascorbic”一词被标注为化学实体的开始(B-Chemical)。