TDWG_2023_Species_Occurrence_Test_Set_生物多样性信息任务评估数据

数据集概述

本数据集是论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》(TDWG 2023 SYM05)中使用的物种分布测试集,包含原始数据、处理后数据及结果文件,用于验证ChatGPT在生物多样性相关信息任务中的应用效果,共24个文件,覆盖物种分类、地理分布等核心字段。

文件详解

  • 原始数据(raw目录)
  • 文件名称:records.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含物种分布原始记录压缩包
  • 哈希数据(data目录)
  • 文件名称:遵循data/[哈希前缀]/[完整哈希值]模式(如data/fd/1c/fd1c8a5304508981a02481a31dc88ad429356a26dff6f89d24fe47fc60a275a4)
  • 文件格式:无扩展名
  • 字段映射介绍:共13个哈希命名的原始数据文件
  • 处理后数据(processed目录)
  • 文件名称:如t1-1-presence.tsv、t1-2-absence.tsv、taxon-counts.tsv等
  • 文件格式:TSV
  • 字段映射介绍:包含kingdom(界)、phylum(门)、family(科)、genus(属)、specificepithet(种加词)、country(国家)、stateprovince(州/省)、county(县)等物种分类与地理分布字段
  • 结果数据(results目录)
  • 文件名称:如t1-1-presence.tsv、t1-2-absence.tsv等
  • 文件格式:TSV
  • 字段映射介绍:在处理后数据基础上增加query(查询)、responses(响应)、input token count(输入token数)、output token count(输出token数)、question number(问题编号)等任务相关字段

数据来源

论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》(TDWG 2023 SYM05)

适用场景

  • 生物多样性信息任务评估:验证大语言模型在物种分布查询、分类鉴定等任务中的准确性与可靠性
  • 物种分布数据标准化研究:对比原始数据与处理后数据的格式差异,优化生物多样性数据清洗流程
  • 大语言模型生态应用研究:分析模型输入输出token数与任务效果的关联,探索模型在生态领域的适配策略
  • 生物分类学辅助工具开发:基于测试集结果优化物种分类信息提取算法,支持自动化分类鉴定工具研发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 191.79 MiB
最后更新 2026年1月3日
创建于 2026年1月3日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。