ONE_DATA_数据科学工作流_机器学习工作流数据集

数据集概述

本数据集包含ONE DATA平台的815个独特数据科学工作流的16035个时间有序版本,以节点异构有向无环图(DAG)形式呈现,含156种节点类型,分为加载、保存、转换、定量方法、高级方法5类。另有过滤版本ODDS,含弱连通且至少5个版本、5个节点的工作流,均为JSON格式节点-链接图。

文件详解

  • 文件名称:ODDS_full.json
  • 文件格式:JSON
  • 字段映射介绍:包含815个完整工作流的16035个版本,以节点异构DAG形式存储,包含各版本工作流的结构与节点类型信息,无额外元数据
  • 文件名称:ODDS.json
  • 文件格式:JSON
  • 字段映射介绍:过滤后的工作流数据集,仅包含弱连通且至少有5个版本、5个节点的工作流,结构与ODDS_full一致,适合监督与无监督学习使用

适用场景

  • 机器学习工作流演化分析: 研究数据科学工作流随时间的结构变化与版本迭代规律
  • 工作流节点类型分布研究: 分析加载、保存、转换等5类节点在工作流中的使用频率与组合模式
  • 工作流拓扑结构分析: 基于DAG结构探索机器学习工作流的复杂性与设计模式
  • 工作流推荐系统训练: 利用工作流版本数据训练模型,为用户推荐相似或优化的机器学习流程
  • 自动化工作流生成研究: 基于现有工作流的节点组合规律,探索自动生成数据科学工作流的方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 318.12 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。