卡勒-约阿基尼四维流形配置矩阵与霍奇数数据集
数据来源:互联网公开数据
标签:卡勒-约阿基尼,四维流形,配置矩阵,霍奇数,机器学习,神经网络,物理学,数学
数据概述:
本数据集包含了完整交集卡勒-约阿基尼四维流形(CICY4)的配置矩阵及其四个霍奇数。数据集旨在用于机器学习霍奇数的问题,配置矩阵作为输入提供给神经网络模型。原始数据来源于论文“Topological Invariants and Fibration Structure of Complete Intersection Calabi-Yau Four-Folds”,arXiv:1405.2073,并可以从以下链接下载文本或Mathematica格式的数据:
https://www-thphys.physics.ox.ac.uk/projects/CalabiYau/Cicy4folds/index.html
数据集中的完整CICY4数据以npy格式(conf.npy, hodge.npy, direct.npy)提供,通过运行脚本'create_data.py'(来源:https://github.com/robin-schneider/cicy-fourfolds)生成。基于这些完整数据,还创建了两个额外的数据集,训练比例分别为72%和80%。
在72%的数据分割中:
- 训练集包含文件:(conf_Xtrain.npy, hodge_ytrain.npy)
- 验证集包含文件:(conf_Xvalid.npy, hodge_yvalid.npy)
- 测试集包含文件:(conf_Xtest.npy, hodge_ytest.npy)
在80%的数据分割中:
- 训练集包含文件:(conf_Xtrain_80.npy, hodge_ytrain_80.npy)
- 验证集包含文件:(conf_Xvalid.npy, hodge_yvalid.npy)
- 测试集包含文件:(conf_Xtest_80.npy, hodge_ytest.npy)
新的训练集和测试集是从旧的数据集中形成的:旧的测试集被分为两部分,比例为(0.6, 0.4)。0.6部分成为新的测试集,0.4部分与旧的训练集合并形成新的训练集。
训练的神经网络模型及其训练/验证损失:
在72%的数据集上训练了12个模型,其检查点存储在文件夹'trained_models'中。这12个模型的训练+验证损失值记录在'train-validation-losses'文件夹中的12个csv文件中。
在80%的数据分割中,使用72%数据集中表现最好的3个模型进行了再训练,其检查点存储在'trained_models_80pc_split'文件夹中,同时包含这3个模型在训练阶段的损失值记录在3个csv文件中。
推理笔记本:
使用该数据集进行推理的Kaggle笔记本:
https://www.kaggle.com/code/lorresprz/cicy4-training-results-inference-all-models
出版物:
该数据集用于研究“Deep Learning Calabi-Yau four folds with hybrid and recurrent neural network architectures”,详见:https://arxiv.org/abs/2405.17406
数据用途概述:
该数据集适用于机器学习、深度学习研究、神经网络模型训练与评估等场景。研究人员可以利用此数据集训练神经网络模型以预测霍奇数,从而探索卡勒-约阿基尼四维流形的拓扑不变量和纤维化结构。此外,数据集也可用于教育和培训,帮助学习者理解相关数学和物理概念。