如何针对经典控制问题实施近端策略优化 (PPO) 算法?

How to implement Proximal Policy Optimization (PPO) Algorithm for classical control problems?

我正在尝试为经典控制任务(如将室温、电池充电等保持在一定限度内)实施剪裁 PPO 算法。到目前为止,我只看到了游戏环境中的实现。我的问题是,在裁剪 PPO 算法的实现方面,游戏环境和经典控制问题是不同的吗?如果是,请提供有关如何针对我的案例实施算法的帮助和提示。

我是从一般强化学习的角度回答你的问题,我认为特定算法 (PPO) 对这个问题没有任何影响。

我觉得没有本质区别,都可以看成是离散控制问题。在游戏中,你观察状态,然后选择一个动作并根据它行动,并获得奖励和对后续状态的观察。

现在,如果您处理一个简单的控制问题,而不是游戏,您可能有一个模拟(或只是一个非常简单的动态模型)来描述您的问题的行为。例如倒立摆的运动方程(另一个经典控制问题)。在某些情况下,您可能会直接与真实系统交互,而不是它的模型,但这种情况很少见,因为它可能非常慢,而且 RL 算法的典型样本复杂性使得在真实(物理)系统上学习不太实用。

本质上,您与问题模型的交互方式与您与游戏的交互方式相同:您观察一个状态,采取行动并采取行动,然后观察下一个状态。唯一的区别是,虽然在游戏中奖励通常是预先定义的(一些分数或目标状态),但您可能需要为您的问题定义奖励函数。但同样,在许多情况下,您还需要为游戏定义奖励,因此这也不是主要区别。