二维动作和二维状态的 Q 学习

Q-learning with 2D actions and 2D states

我的问题如下:

智能体应该在每个状态下,调整电厂锅炉的水流量和风扇速度,以接收双状态的反馈:当前温度、排放量。

如果我的代理有一个动作元组和一个状态元组,这是否意味着我应该将我的 q-learning 问题分成 2 个,其中 1 个代理将有一个用于 water/temperature 环境的 Q 和 R 矩阵以及排放环境的风扇 speed/amount 的另一个代理?或者有没有一种方法可以表示最初描述的代理的 R 和 Q 矩阵?

状态和动作是多维的是正常的。您所做的是让您的智能体了解当前温度和排放量的所有组合的水流量和风扇速度的所有组合的值。如果这使 table 变得笨拙,那么您将需要对其进行近似,而这本身就是一个完整的领域。