数据集概述
本数据集为坎特伯雷博物馆蜉蝣标本的采集者与鉴定者关联数据,由志愿者通过Bionomia平台基于全球生物多样性信息机构(GBIF)聚合的标本数据生成,包含标本关联的人员归属、文献引用、问题日期记录等内容,采用Frictionless Data数据包格式,共9个文件。
文件详解
- 核心数据文件(.zip格式,共8个)
- 文件名称:citations.csv.zip、problem_determiner_dates.csv.zip、problem_collector_dates.csv.zip、articles.csv.zip、not_them_assertions.csv.zip、attributions.csv.zip、occurrences.csv.zip、users.csv.zip
- 文件格式:ZIP压缩包(内含CSV文件)
- 字段映射介绍:分别对应标本相关的文献引用、鉴定者日期问题记录、采集者日期问题记录、关联文章、非归属声明、人员归属、标本 occurrence 数据、用户信息等结构化数据
- 数据包描述文件
- 文件名称:datapackage.json
- 文件格式:JSON
- 字段映射介绍:遵循Frictionless Data标准的数据包元数据文件,包含数据集的结构、字段定义、格式规范等描述信息
数据来源
Bionomia平台(志愿者基于GBIF数据集https://gbif.org/dataset/93e4d24c-92f0-40b7-84e3-ba054886b1c3生成)
适用场景
- 生物标本元数据研究:分析蜉蝣标本采集者与鉴定者的关联关系及数据质量问题
- 自然历史数据标准化:基于Frictionless Data格式优化生物多样性标本数据的存储与交换
- 生物多样性人员网络分析:通过attributions.csv等文件研究标本关联人员的协作网络
- 标本数据质量控制:利用problem_determiner_dates.csv等文件识别并修正标本日期类元数据错误