GoogleFastOrSlowTile-XLA训练数据集-2021-rishabh15virgo

GoogleFastOrSlowTile-XLA训练数据集-2021-rishabh15virgo 数据来源:互联网公开数据 标签:Google, Tile-XLA, 机器学习训练数据, 运行时预测, 高性能计算, 数据分析, 深度学习, TPU, 图神经网络, 配置优化

数据概述: 本数据集包含用于训练机器学习模型的运行时数据,旨在预测在不同配置下图的运行时间。数据集包含多个.npz文件,每个文件代表一个图(内核),并包含拓扑排序的节点特征、节点操作码、边索引以及配置特征等信息。此外,每个图在不同配置下的运行时间和默认配置下的运行时间也被记录下来,用于评估不同配置的性能优劣。

具体字段信息如下:

  • node_feat: 包含形状为 (n, 140) 的浮点矩阵,其中第 u 行代表节点 u 的特征向量。
  • node_opcode: 包含形状为 (n, ) 的整数向量,其中第 u 项代表节点 u 的操作码。
  • edge_index: 包含形状为 (m, 2) 的整数矩阵,其中第 i 行 [u, v] 表示从节点 u 到节点 v 的有向边,u 消耗 v 的输出。
  • config_feat: 包含形状为 (c, 24) 的浮点矩阵,其中第 j 行代表第 j 个配置的特征向量。
  • config_runtime: 包含长度为 c 的整数向量,其中第 j 项代表图在第 j 个配置下的运行时间(纳秒)。
  • config_runtime_normalizers: 包含长度为 c 的整数向量,其中第 j 项代表图在默认配置下的运行时间(纳秒),用于归一化比较不同配置的性能。

数据集的训练目标是预测每个图的最佳配置索引,即最小化 d["config_runtime"] / d["config_runtime_normalizers"] 的配置。

数据用途概述: 该数据集适用于训练机器学习模型,特别是针对图神经网络和配置优化的场景。研究人员和开发人员可以使用此数据集来探索图的运行时行为,并优化配置以提高性能。此外,数据集还适用于教育和培训,帮助学习者理解机器学习在高性能计算中的应用。对于Google内部的研究团队,此数据集可用于进一步改进Tile-XLA编译器的性能优化算法。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 17:44 (UTC)
创建于 四月 23, 2025, 17:44 (UTC)