数据集概述
本数据集为IPSP-CYPRESS多用途克隆数据集的关联扩展数据,包含自然历史标本与采集者、鉴定者的关联信息,由Bionomia志愿者标注生成,基于全球生物多样性信息 facility(GBIF)聚合的标本数据构建,采用Frictionless Data数据包格式,共含11个文件。
文件详解
- 数据包描述文件
- 文件名称:datapackage.json
- 文件格式:JSON
- 字段映射介绍:Frictionless Data数据包的元数据文件,包含数据集的结构、字段定义及文件清单等描述信息
- 关联数据文件(压缩包格式)
- 文件名称:citations.csv.zip、attributions.csv.zip、not_them_assertions.csv.zip、articles.csv.zip、problem_collector_dates.csv.zip、occurrences.csv.zip、problem_determiner_dates.csv.zip、missing_attributions.csv.zip
- 文件格式:CSV(ZIP压缩)
- 字段映射介绍:包含标本与采集者/鉴定者的关联属性、引用信息、标注断言、问题日期记录、缺失关联记录等核心数据,具体字段需解压后查看原始CSV结构
数据来源
Global Biodiversity Information Facility(GBIF)数据集(编号:18e92f1b-5474-4e33-a782-63ae8d276827)、Bionomia志愿者标注
适用场景
- 生物标本数据溯源研究:通过采集者与鉴定者关联信息,追溯IPSP-CYPRESS克隆标本的采集历史与鉴定过程
- 生物多样性标注质量分析:利用problem_collector_dates、problem_determiner_dates等文件,评估志愿者标注数据的准确性与问题点
- 标本关联网络构建:基于attributions、occurrences等数据,构建标本-采集者-鉴定者的关联网络
- 生物数据标准化研究:以Frictionless Data数据包格式为案例,研究生物多样性数据的标准化封装方法