在 Q-learning 中添加约束并在违反约束时分配奖励
Adding constraints in Q-learning and assigning rewards if constraints are violated
我最近参加了 RL 课程,我正在为电源管理应用程序编写 Q 学习控制器,其中我有连续状态和离散动作。我正在使用神经网络(Q 网络)来近似动作值和 selecting 最大动作值。像任何控制系统一样,我对代理人不能违反的变量有一定的约束或界限。比如说,如果我的控制器(代理)的动作是对电池进行放电或充电,则产生的能量不能分别小于 0 或大于最大容量。
我想了解如何在动作 selection 或值近似例程中添加此类约束?我想到了两种方法
(1) 假设我是 运行 T 步的一集。在每一步,我都将我的当前状态和 select 最大动作值输入到 Q 网络。采取此操作后,如果我的约束被违反,我可以分配一个巨大的负奖励,否则我可以分配相关的奖励。最终,所有获得巨大负回报(对应于不良行为)的行为都将被避免,因此代理将在模型约束内运行。但是,如果我从优化的角度考虑,则永远不应采取此类操作,因为它们不属于允许的区域。所以理想情况下,我应该在那里停止迭代,因为所有顺序操作都是不可接受的。这会造成严重的数据浪费。
(2) 其次,我将当前状态提供给 Q 网络,select 对应于最大 Q 值的动作并检查约束。如果违反,我将采取对应于第二高 Q 值的操作并重复直到满足我的约束。但这会导致最优吗?
我认为这可能是训练涉及多个变量约束的自主控制系统时反复出现的问题。非常高兴收到您的反馈!
我会说选项 (1) 更可取,通常也是这样做的。如果您真的不想执行某项操作,那就不要执行并停止情节(并给予巨大的负面奖励)。关于选项(2),我不认为它会导致最优。
此外,Q-learning 是一种离策略算法。这意味着您可以使用其他一些 samplers 策略 收集的样本来训练您的 target policy,这可以是 "safer" 并避免危险操作.但是,由于探索减少,这可能需要更多时间。
无论如何,这在 RL 中是一个非常普遍的问题。我建议你看看 Google 上的 "cost sensitive exploration",你会发现一些关于你的问题的有趣研究。
回复评论
我不太明白。你已经有元组 (s,a,r,s')
的数据集了吗? (由任何代理/政策收集)。如果是这样,请不要停止情节并继续学习(使用批处理算法,如拟合 Q 迭代)。如果你必须在线收集数据,我建议你停止:你收集一个动作,通过 Q-learning 更新规则更新策略,然后继续这一集。如果是这样,并且安全是你最关心的问题,只要发生不允许的事情就停止这一集。
我看到的与 "it will take to much to learn" 相关的唯一问题是,如果你的真正目标是 "far in time"(例如,你在一段时间后给予积极的奖励),那么代理将很难体验它。然而,这是不可避免的:"safety / learning time" 和 "exploration / exploitation".
之间总是存在妥协
我最近参加了 RL 课程,我正在为电源管理应用程序编写 Q 学习控制器,其中我有连续状态和离散动作。我正在使用神经网络(Q 网络)来近似动作值和 selecting 最大动作值。像任何控制系统一样,我对代理人不能违反的变量有一定的约束或界限。比如说,如果我的控制器(代理)的动作是对电池进行放电或充电,则产生的能量不能分别小于 0 或大于最大容量。
我想了解如何在动作 selection 或值近似例程中添加此类约束?我想到了两种方法
(1) 假设我是 运行 T 步的一集。在每一步,我都将我的当前状态和 select 最大动作值输入到 Q 网络。采取此操作后,如果我的约束被违反,我可以分配一个巨大的负奖励,否则我可以分配相关的奖励。最终,所有获得巨大负回报(对应于不良行为)的行为都将被避免,因此代理将在模型约束内运行。但是,如果我从优化的角度考虑,则永远不应采取此类操作,因为它们不属于允许的区域。所以理想情况下,我应该在那里停止迭代,因为所有顺序操作都是不可接受的。这会造成严重的数据浪费。
(2) 其次,我将当前状态提供给 Q 网络,select 对应于最大 Q 值的动作并检查约束。如果违反,我将采取对应于第二高 Q 值的操作并重复直到满足我的约束。但这会导致最优吗?
我认为这可能是训练涉及多个变量约束的自主控制系统时反复出现的问题。非常高兴收到您的反馈!
我会说选项 (1) 更可取,通常也是这样做的。如果您真的不想执行某项操作,那就不要执行并停止情节(并给予巨大的负面奖励)。关于选项(2),我不认为它会导致最优。
此外,Q-learning 是一种离策略算法。这意味着您可以使用其他一些 samplers 策略 收集的样本来训练您的 target policy,这可以是 "safer" 并避免危险操作.但是,由于探索减少,这可能需要更多时间。
无论如何,这在 RL 中是一个非常普遍的问题。我建议你看看 Google 上的 "cost sensitive exploration",你会发现一些关于你的问题的有趣研究。
回复评论
我不太明白。你已经有元组 (s,a,r,s')
的数据集了吗? (由任何代理/政策收集)。如果是这样,请不要停止情节并继续学习(使用批处理算法,如拟合 Q 迭代)。如果你必须在线收集数据,我建议你停止:你收集一个动作,通过 Q-learning 更新规则更新策略,然后继续这一集。如果是这样,并且安全是你最关心的问题,只要发生不允许的事情就停止这一集。
我看到的与 "it will take to much to learn" 相关的唯一问题是,如果你的真正目标是 "far in time"(例如,你在一段时间后给予积极的奖励),那么代理将很难体验它。然而,这是不可避免的:"safety / learning time" 和 "exploration / exploitation".
之间总是存在妥协