TicTacToe Q 学习表数据集

这是一个 json 文件,包含井字游戏的所有 5890 个有效配置。最初应该有 19,683 个配置,但在删除所有不可能的组合后,我们只剩下这个数字 5890这个数据集的独特之处在于它不知道 AI 扮演什么位置。但建议让 AI(代理)扮演 X(第一步),以便让它领先一步。显然,如果你想让代理在学会扮演 X 之后扮演 O,你需要另一个相同的 q 表,并反转要在贝尔曼方程中实现的奖励系统,以更新此 q 表。

packageimg

数据与资源

附加信息

字段
数据集大小 1.08 MiB
最后更新 2024年11月9日
创建于 2024年11月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。