数据集

TDWG_2023_Species_Occurrence_Test_Set_生物多样性信息任务评估数据

数据集概述

本数据集是论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》（TDWG 2023 SYM05）中使用的物种分布测试集，包含原始数据、处理后数据及结果文件，用于验证ChatGPT在生物多样性相关信息任务中的应用效果，共24个文件，覆盖物种分类、地理分布等核心字段。

文件详解

原始数据（raw目录）
文件名称：records.zip
文件格式：ZIP
字段映射介绍：包含物种分布原始记录压缩包
哈希数据（data目录）
文件名称：遵循data/[哈希前缀]/[完整哈希值]模式（如data/fd/1c/fd1c8a5304508981a02481a31dc88ad429356a26dff6f89d24fe47fc60a275a4）
文件格式：无扩展名
字段映射介绍：共13个哈希命名的原始数据文件
处理后数据（processed目录）
文件名称：如t1-1-presence.tsv、t1-2-absence.tsv、taxon-counts.tsv等
文件格式：TSV
字段映射介绍：包含kingdom（界）、phylum（门）、family（科）、genus（属）、specificepithet（种加词）、country（国家）、stateprovince（州/省）、county（县）等物种分类与地理分布字段
结果数据（results目录）
文件名称：如t1-1-presence.tsv、t1-2-absence.tsv等
文件格式：TSV
字段映射介绍：在处理后数据基础上增加query（查询）、responses（响应）、input token count（输入token数）、output token count（输出token数）、question number（问题编号）等任务相关字段

数据来源

论文《Using ChatGPT with Confidence for Biodiversity-Related Information Tasks》（TDWG 2023 SYM05）

适用场景

生物多样性信息任务评估：验证大语言模型在物种分布查询、分类鉴定等任务中的准确性与可靠性
物种分布数据标准化研究：对比原始数据与处理后数据的格式差异，优化生物多样性数据清洗流程
大语言模型生态应用研究：分析模型输入输出token数与任务效果的关联，探索模型在生态领域的适配策略
生物分类学辅助工具开发：基于测试集结果优化物种分类信息提取算法，支持自动化分类鉴定工具研发

数据与资源

8417791.zipZIP
191.79 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	191.79 MiB
最后更新	2026年1月3日
创建于	2026年1月3日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。