在强化学习中利用策略的方法

Ways to utilize policy learned in reinforcement learning

我想核对一下我对强化学习的理解。如何 easy/difficult 或常见地训练一个策略,然后在以后重用学习到的策略?到目前为止我的理解是,当我们停止训练并再次开始时,它需要从头开始,即无法从学到的策略中受益。谢谢。

具体要看你用的是什么方法,但一般来说,学习方法一旦收敛,就不需要“训练”了。例如,在 Q-learning 的情况下,这是一种无模型的非策略学习方法,在算法收敛之前,代理必须仍然采取随机行动以确保 Q(s ,a) space 已经探索过了。但是每个单独的步骤都利用了从之前的情节中获得的经验,所以说你从头开始每一集是不正确的。