月球着陆器v2强化学习环境数据集-2023年-jaypradipshah

月球着陆器v2强化学习环境数据集-2023年-jaypradipshah 数据来源:互联网公开数据 标签:OpenAI Gym,月球着陆器,强化学习,模拟环境,数据集,动作空间,奖励机制,观测数据

数据概述: 本数据集包含使用OpenAI Gym环境“LunarLander-v2”生成的4000个月球着陆器模拟降落任务的数据。数据集模拟了“Lunar Lander”(着陆器)在月球表面两个旗帜之间的着陆过程。每个观测记录了着陆器的状态信息及对应的执行动作。生成的数据分为两个文件:“data.csv”和“Reward.csv”。

“data.csv”文件包含10列数据如下: 1) Episode No - 观测所属的集数编号 2) X Coordinate - 着陆器的X坐标 3) Y Coordinate - 着陆器的Y坐标 4) Linear Velocity X - 着陆器在X方向的线性速度 5) Linear Velocity Y - 着陆器在Y方向的线性速度 6) Angle - 着陆器的角度 7) Angular Velocity - 着陆器的角速度 8) Leg1 - 布尔变量,指示着陆器的第一个着陆腿是否触地 9) Leg2 - 布尔变量,指示着陆器的第二个着陆腿是否触地 10) Action - 该观测对应的着陆器执行的动作

“Reward.csv”文件包含所有4000个集数的累计奖励值。

数据用途概述: 该数据集适用于强化学习算法的研究、教学和演示。研究者可以使用这些数据来训练和评估不同的强化学习模型,了解其在复杂任务中的表现;教师可以利用数据集演示强化学习的基本原理和应用;学生可以通过数据分析加深对强化学习算法的理解,并应用于实际问题的解决。此外,该数据集还适用于模拟环境下的机器人控制、自主导航等领域的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 10.81 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。