数据集概述
本数据集包含进化表型描述的黄金标准语料库(源自系统发育研究的特征状态描述)及专家标注的实体质量(EQ)本体注释,可支持机器推理以量化表型描述的语义相似度,同时包含相关本体文件及用于评估机器标注工具性能的人工与机器生成注释。
文件详解
- 文档类文件:
- README.md:Markdown格式,说明数据集核心内容、结构及使用背景
- Author-surveys and instructions.pdf:PDF格式,包含作者调查内容及标注操作说明
- MD5CHECKSUMS.txt:TXT格式,提供核心数据文件的MD5校验值,用于验证文件完整性
- 归档类文件:
- SQL-database-dumps.zip:压缩包格式,可能包含数据集的SQL数据库备份文件
- ontologies.zip:压缩包格式,包含表型注释所用的本体文件(含原始、增强及合并版本)
- CharaParser-Annotations.zip:压缩包格式,包含机器工具Semantic Charaparser生成的EQ注释数据
- Curator-Annotations.zip:压缩包格式,包含人类专家标注的EQ注释数据
- 数据类文件:
- GS-categories.xls:Excel格式,可能包含黄金标准语料的分类信息
- GS-categories.tsv:TSV格式,包含参考注释指南、特征描述、实体及质量标签等字段的分类数据
- Gold_Standard-final.xml:XML格式,进化表型描述的黄金标准语料最终版本
适用场景
- 生物信息学研究:用于训练和评估表型描述的自然语言处理标注工具
- 进化生物学分析:通过EQ注释的语义相似度量化,研究不同物种表型特征的进化关系
- 本体工程应用:验证表型本体在机器推理和语义分析中的有效性
- 计算生物学研究:开发基于本体注释的表型数据挖掘与分析算法