数据集概述
本数据集包含CsSn(Cl/Br/I)3钙钛矿合金的密度泛函理论(DFT)计算数据,用于训练能量预测机器学习模型。数据分为四个子集:sp_train_set、sp_test_set、al_data和relax_test_set,涵盖单点计算、主动学习和弛豫测试等场景,支持机器学习模型的训练与验证。
文件详解
- sp_train_set
- 文件名称:sp_train_set.xyz、sp_train_set.json
- 文件格式:XYZ、JSON
- 字段映射介绍:XYZ文件为ASE扩展格式,含原子结构、总能量和力数据;JSON文件提供空间群等结构附加信息,包含16000个算法生成的钙钛矿结构。
- sp_test_set
- 文件名称:sp_test_set.xyz、sp_test_set.json
- 文件格式:XYZ、JSON
- 字段映射介绍:XYZ文件含单点DFT计算的原子结构与能量数据;JSON文件提供结构附加信息,包含2600个用于模型测试的结构。
- al_data
- 文件名称:al_data.xyz、al_data.json
- 文件格式:XYZ、JSON
- 字段映射介绍:XYZ文件含主动学习运行中的DFT弛豫结构快照;JSON文件提供结构附加信息,共4230个快照。
- relax_test_set
- 文件名称:relax_test_set_initial.xyz、relax_test_set_relaxed.xyz、relax_test_set.json
- 文件格式:XYZ、JSON
- 字段映射介绍:XYZ文件含初始和最终弛豫原子几何结构;JSON文件含晶格类型、元素数量、总能量等信息,共2881个快照。
- 说明文件
- 文件名称:README.txt
- 文件格式:TXT
- 字段映射介绍:数据集说明文档,含数据背景、子集描述和使用方法。
数据来源
GitLab仓库(https://gitlab.com/cest-group/learnsolar-cssnclbri)
适用场景
- 钙钛矿合金机器学习模型训练: 利用sp_train_set和al_data训练能量预测与结构弛豫模型。
- 模型性能验证: 通过sp_test_set和relax_test_set测试模型的预测精度与泛化能力。
- 钙钛矿结构性质研究: 分析不同空间群、元素组成对CsSn(Cl/Br/I)3能量与结构的影响。
- 主动学习算法优化: 基于al_data探索主动学习策略在材料计算中的应用效果。
- 材料设计辅助: 利用训练后的模型快速预测钙钛矿合金的能量与结构,加速材料筛选。