如何针对经典控制问题实施近端策略优化 (PPO) 算法？

How to implement Proximal Policy Optimization (PPO) Algorithm for classical control problems?

我正在尝试为经典控制任务（如将室温、电池充电等保持在一定限度内）实施剪裁 PPO 算法。到目前为止，我只看到了游戏环境中的实现。我的问题是，在裁剪 PPO 算法的实现方面，游戏环境和经典控制问题是不同的吗？如果是，请提供有关如何针对我的案例实施算法的帮助和提示。

我是从一般强化学习的角度回答你的问题，我认为特定算法 (PPO) 对这个问题没有任何影响。

我觉得没有本质区别，都可以看成是离散控制问题。在游戏中，你观察状态，然后选择一个动作并根据它行动，并获得奖励和对后续状态的观察。

现在，如果您处理一个简单的控制问题，而不是游戏，您可能有一个模拟（或只是一个非常简单的动态模型）来描述您的问题的行为。例如倒立摆的运动方程（另一个经典控制问题）。在某些情况下，您可能会直接与真实系统交互，而不是它的模型，但这种情况很少见，因为它可能非常慢，而且 RL 算法的典型样本复杂性使得在真实（物理）系统上学习不太实用。

本质上，您与问题模型的交互方式与您与游戏的交互方式相同：您观察一个状态，采取行动并采取行动，然后观察下一个状态。唯一的区别是，虽然在游戏中奖励通常是预先定义的（一些分数或目标状态），但您可能需要为您的问题定义奖励函数。但同样，在许多情况下，您还需要为游戏定义奖励，因此这也不是主要区别。

如何针对经典控制问题实施近端策略优化 (PPO) 算法？

How to implement Proximal Policy Optimization (PPO) Algorithm for classical control problems?

python

reinforcement-learning

keras