数据集概述
本数据集为Magdalena大学生物收藏中软体动物标本的采集者与鉴定者关联数据,由Bionomia志愿者标注生成,基于GBIF聚合的标本数据。包含11个文件,以压缩包和JSON格式存储,涵盖标本记录、人员关联及问题数据等内容,用于生物标本数据的人员信息关联分析。
文件详解
- 核心数据文件
- 文件名称:occurrences.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射介绍:推测包含软体动物标本的基础记录信息,如标本编号、物种名称、采集信息等
- 文件名称:users.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射介绍:推测包含标注志愿者(Scribes)的用户信息
- 关联与问题数据文件
- 文件名称:citations.csv.zip、articles.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射介绍:推测包含标本相关的文献引用信息
- 文件名称:problem_determiner_dates.csv.zip、problem_collector_dates.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射介绍:包含鉴定者、采集者日期信息存在问题的记录
- 文件名称:users_unresolved.csv.zip、not_them_assertions.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射介绍:包含未解决的用户关联记录及非对应人员的断言记录
- 元数据文件
- 文件名称:datapackage.json
- 文件格式:JSON
- 字段映射介绍:数据集的元数据描述,遵循Frictionless Data规范
数据来源
Bionomia平台(志愿者Scribes标注)、Global Biodiversity Information Facility(GBIF)聚合的标本数据
适用场景
- 生物标本数据标准化: 用于完善软体动物标本的采集者、鉴定者信息关联,提升标本数据质量
- 生物多样性研究: 支持基于标本记录的物种分布、采集历史等生物多样性分析
- 科学数据治理: 分析标本数据中人员信息的常见问题(如日期错误、人员匹配错误),优化数据治理流程
- 志愿者标注行为研究: 通过用户数据研究生物标本数据众包标注的模式与效果