数据集概述
本数据集包含美国自然历史博物馆(AUMNH)爬虫类凭证标本收藏中与采集者、鉴定者关联的生物标本数据。数据由志愿者通过Bionomia平台基于全球生物多样性信息设施(GBIF)聚合的标本数据生成,以Frictionless Data数据包格式组织,包含9个文件,支持标本数据与人员信息的关联查询。
文件详解
- 核心数据文件(.zip格式)
- 文件名称:citations.csv.zip、users.csv.zip、occurrences.csv.zip、articles.csv.zip、attributions.csv.zip、not_them_assertions.csv.zip、problem_collector_dates.csv.zip、problem_determiner_dates.csv.zip
- 文件格式:ZIP压缩包(内含CSV文件)
- 字段映射介绍:分别包含引用信息、用户信息、标本 occurrence 数据、文献文章数据、人员归属信息、非本人声明数据、采集者日期问题数据、鉴定者日期问题数据等关联字段
- 数据包描述文件
- 文件名称:datapackage.json
- 文件格式:JSON
- 字段映射介绍:遵循Frictionless Data标准的数据包元数据,包含数据集结构、文件清单、字段定义等描述信息
数据来源
Global Biodiversity Information Facility(GBIF)数据集(编号:3cc72eb1-0f9e-496d-96e9-3cf6f7d94b0a),由Bionomia平台志愿者Scribes生成
适用场景
- 生物标本数据关联分析:用于连接爬虫类标本记录与采集者、鉴定者的人员信息,完善标本元数据
- 自然历史标本管理:支持AUMNH爬虫类凭证标本收藏的数字化管理与人员信息追溯
- 生物多样性研究:为爬虫类物种分布、采集历史等研究提供带人员关联的标本数据支撑
- 数据质量校验:通过problem_collector_dates、problem_determiner_dates等文件分析标本日期字段的质量问题
- 科学贡献归因:利用attributions.csv.zip等文件明确标本采集与鉴定过程中的人员贡献