数据集概述
本数据集是论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》(TDWG 2023 SYM05)中使用的物种分布测试集,包含原始数据、处理后数据及结果文件,用于验证ChatGPT在生物多样性相关信息任务中的应用效果,共24个文件,覆盖物种分类、地理分布等核心字段。
文件详解
- 原始数据(raw目录)
- 文件名称:records.zip
- 文件格式:ZIP
- 字段映射介绍:包含物种分布原始记录压缩包
- 哈希数据(data目录)
- 文件名称:遵循
data/[哈希前缀]/[完整哈希值]模式(如data/fd/1c/fd1c8a5304508981a02481a31dc88ad429356a26dff6f89d24fe47fc60a275a4)
- 文件格式:无扩展名
- 字段映射介绍:共13个哈希命名的原始数据文件
- 处理后数据(processed目录)
- 文件名称:如t1-1-presence.tsv、t1-2-absence.tsv、taxon-counts.tsv等
- 文件格式:TSV
- 字段映射介绍:包含kingdom(界)、phylum(门)、family(科)、genus(属)、specificepithet(种加词)、country(国家)、stateprovince(州/省)、county(县)等物种分类与地理分布字段
- 结果数据(results目录)
- 文件名称:如t1-1-presence.tsv、t1-2-absence.tsv等
- 文件格式:TSV
- 字段映射介绍:在处理后数据基础上增加query(查询)、responses(响应)、input token count(输入token数)、output token count(输出token数)、question number(问题编号)等任务相关字段
数据来源
论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》(TDWG 2023 SYM05)
适用场景
- 生物多样性信息任务评估:验证大语言模型在物种分布查询、分类鉴定等任务中的准确性与可靠性
- 物种分布数据标准化研究:对比原始数据与处理后数据的格式差异,优化生物多样性数据清洗流程
- 大语言模型生态应用研究:分析模型输入输出token数与任务效果的关联,探索模型在生态领域的适配策略
- 生物分类学辅助工具开发:基于测试集结果优化物种分类信息提取算法,支持自动化分类鉴定工具研发