数据集概述
本数据集为论文“Identifying the knowledge and capacity gaps in Southeast Asian insect conservation”配套数据,包含整理后的昆虫相关数据集、GBIF原始昆虫分布数据、spaCy分类器分析所用数据与模型,以及对应说明文档,共7个文件,支持东南亚昆虫保护领域的知识缺口与能力分析研究。
文件详解
- 整理数据集压缩包
- 文件名称:Curated_Datasets.zip
- 文件格式:ZIP
- 字段映射介绍:包含昆虫分布、原始文献、作者信息、资金数据、Twitter数据5类子数据集,具体信息可参考README_curated_datasets.txt
- GBIF原始昆虫分布数据压缩包
- 文件名称:GBIF_Raw_Insect_Occurrences.zip
- 文件格式:ZIP
- 字段映射介绍:来自GBIF的原始昆虫分布数据,具体信息可参考README_GBIF_Raw_Insect_Occurrences.txt
- spaCy分析数据压缩包
- 文件名称:spaCy_Data.zip
- 文件格式:ZIP
- 字段映射介绍:包含spaCy分类器分析所用数据,如twitter_spaCy_train_data.csv(含12362条#conservation推文训练数据,字段包括tweet_id、user_username、text等)
- spaCy最优模型压缩包
- 文件名称:spaCy_Model_Best.zip
- 文件格式:ZIP
- 字段映射介绍:spaCy分类器分析所用的最优模型文件,具体信息可参考README_spacy.txt
- 说明文档
- 文件名称:README_curated_datasets.txt、README_GBIF_Raw_Insect_Occurrences.txt、README_spacy.txt
- 文件格式:TXT
- 字段映射介绍:分别对应整理数据集、GBIF原始数据、spaCy分析数据与模型的说明及术语定义
数据来源
论文“Identifying the knowledge and capacity gaps in Southeast Asian insect conservation”
适用场景
- 昆虫保护知识缺口分析: 利用整理数据集的文献、作者及资金数据,研究东南亚昆虫保护领域的知识分布与研究空白
- 昆虫分布数据挖掘: 基于GBIF原始昆虫分布数据,分析东南亚昆虫的地理分布特征与多样性现状
- 社交媒体内容分析: 通过spaCy分类器及Twitter训练数据,挖掘公众对昆虫保护的关注趋势与讨论热点
- 生物多样性保护策略制定: 整合多源数据,为东南亚地区昆虫保护的能力建设与政策制定提供数据支持
- 自然语言处理模型训练: 利用spaCy分类器数据与模型,开展昆虫保护相关文本的自动分类与主题识别研究