俄罗斯方块的强化学习

Reinforced Learning for Tetris

我明白了如何做的要点,但我似乎无法理解我如何保存(状态,值)对与俄罗斯方块具有如此多的不同状态以至于使用哈希映射本机不工作因为记忆。也许您可以将不同的状态映射到一个状态,或者是否有其他技巧?还是我只是有错误的想法?

Table-based RL 不会扩展到大状态 spaces - 你是完全正确的。这就是为什么使用 approximations,既非常简单,如将状态映射到值的线性模型,又非常复杂,如深度(有时是循环的)神经网络(深度 Q-Networks 等。 ).换句话说,不是让状态->值映射,而是通过放置(例如对于 Q 值)Q(state | parameters) = value 来模拟这两者之间的 functional 依赖关系,您优化参数以最适合观察到的实际 state/value 对。值得注意的是,这不仅仅是关于内存,如果您使用表格方法,您实际上需要 观察所有状态 以获得一个好的模型,而 functional/approximated方法 - 您也许能够找到可以被利用的状态 space 的实际结构。