蘑菇网络数据集

蘑菇网络数据集 数据来源:互联网公开数据 标签:蘑菇, 数据集, 生物信息学, 分类, 合成数据, 毒性分析, 模拟数据

数据概述: 蘑菇网络数据集是一个全面的合成数据集,基于对基础的原始蘑菇数据集进行详细模拟而生成。原始数据集及其相关元数据包含在提供的压缩文件中,为理解模拟数据的来源和结构提供了必要的背景信息。本数据集包含61,069个假设的蘑菇样本,每个样本代表来自173种不同种类的蘑菇的特征。每种蘑菇种类由353个样本代表。蘑菇根据其可食用性被分类为三类:肯定可食用、肯定有毒、未知可食用性和不推荐食用。出于分析目的,未知可食用性和不推荐食用的蘑菇类别与肯定有毒的类别合并,强调了处理未识别蘑菇种类时的谨慎和潜在风险。

数据用途概述: 该数据集适用于蘑菇分类研究、毒性分析、生物信息学研究等多种场景。研究人员可以利用此数据进行蘑菇种类和可食用性的分析;生物学家和医生可以使用数据评估蘑菇的潜在风险;教育工作者可以借助数据进行蘑菇分类的教学。此外,数据集也适合用于机器学习和数据科学的教育培训,帮助学习者理解数据模拟和生成的过程。

举例: 该数据集生成于马尔堡菲利普斯大学生物信息学系的一个学士论文项目,由G. Hattab博士指导,D. Wagner(dwagner93 '@' gmx.de)为主要贡献者。项目的主要成就包括一个名为secondary_data_generation.py的自定义Python模块,通过随机化变量生成了高逼真度的蘑菇数据。数据集提供了两种版本:按物种组织的详细版本和随机化版本,以满足不同的分析需求。对于希望进一步探索或复制该项目的研究人员,可通过提供的链接访问完整的代码仓库和数据集。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 17:24 (UTC)
创建于 四月 14, 2025, 17:24 (UTC)