月球着陆器v2强化学习环境数据集-2023年-jaypradipshah
数据来源:互联网公开数据
标签:OpenAI Gym,月球着陆器,强化学习,模拟环境,数据集,动作空间,奖励机制,观测数据
数据概述:
本数据集包含使用OpenAI Gym环境“LunarLander-v2”生成的4000个月球着陆器模拟降落任务的数据。数据集模拟了“Lunar Lander”(着陆器)在月球表面两个旗帜之间的着陆过程。每个观测记录了着陆器的状态信息及对应的执行动作。生成的数据分为两个文件:“data.csv”和“Reward.csv”。
“data.csv”文件包含10列数据如下:
1) Episode No - 观测所属的集数编号
2) X Coordinate - 着陆器的X坐标
3) Y Coordinate - 着陆器的Y坐标
4) Linear Velocity X - 着陆器在X方向的线性速度
5) Linear Velocity Y - 着陆器在Y方向的线性速度
6) Angle - 着陆器的角度
7) Angular Velocity - 着陆器的角速度
8) Leg1 - 布尔变量,指示着陆器的第一个着陆腿是否触地
9) Leg2 - 布尔变量,指示着陆器的第二个着陆腿是否触地
10) Action - 该观测对应的着陆器执行的动作
“Reward.csv”文件包含所有4000个集数的累计奖励值。
数据用途概述:
该数据集适用于强化学习算法的研究、教学和演示。研究者可以使用这些数据来训练和评估不同的强化学习模型,了解其在复杂任务中的表现;教师可以利用数据集演示强化学习的基本原理和应用;学生可以通过数据分析加深对强化学习算法的理解,并应用于实际问题的解决。此外,该数据集还适用于模拟环境下的机器人控制、自主导航等领域的研究。