How to do reinforcement learning with regression instead of classification
我将策略定义为 epsilon greedy,其中 (1-eps) 时间使用输出控制值,eps 时间使用输出值 +/- 小高斯扰动。
在大多数强化文献中,我看到策略学习需要离散的动作,可以通过 REINFORCE (Williams 1992) 算法学习,但是我不确定在这里使用什么方法。
目前我所做的是使用掩码仅使用基于 Metropolis Hastings 的算法来学习最佳选择,以确定过渡是否朝着最优策略发展。伪代码:
input: rewards, timeIndices
// rewards in (0,1) and optimal is 1
// relate rewards to likelihood via L(r) = exp(-|r - 1|/std)
// r <= 1 => |r - 1| = 1 - r
timeMask = zeros(timeIndices.length)
neglogLi = (1 - mean(rewards)) / std
// Go through random order of reward to approximate Markov process
for r,idx in shuffle(rewards, timeIndices):
neglogLj = (1 - r)/std
if neglogLj < neglogLi || log(random.uniform()) < neglogLi - neglogLj:
// Accept transition, i.e. learn this action
targetMask[idx] = 1
neglogLi = neglogLj
这提供了一个 targetMask
策略梯度方法有利于学习连续控制输出。如果您查看 http://rll.berkeley.edu/deeprlcourse/#lectures,2 月 13 日的讲座以及 3 月 8 日至 3 月 15 日的讲座可能对您有用。那里也介绍了 Actor Critic 方法。
我将策略定义为 epsilon greedy,其中 (1-eps) 时间使用输出控制值,eps 时间使用输出值 +/- 小高斯扰动。 从这个意义上讲,代理可以探索。 在大多数强化文献中,我看到策略学习需要离散的动作,可以通过 REINFORCE (Williams 1992) 算法学习,但是我不确定在这里使用什么方法。
目前我所做的是使用掩码仅使用基于 Metropolis Hastings 的算法来学习最佳选择,以确定过渡是否朝着最优策略发展。伪代码:
input: rewards, timeIndices
// rewards in (0,1) and optimal is 1
// relate rewards to likelihood via L(r) = exp(-|r - 1|/std)
// r <= 1 => |r - 1| = 1 - r
timeMask = zeros(timeIndices.length)
neglogLi = (1 - mean(rewards)) / std
// Go through random order of reward to approximate Markov process
for r,idx in shuffle(rewards, timeIndices):
neglogLj = (1 - r)/std
if neglogLj < neglogLi || log(random.uniform()) < neglogLi - neglogLj:
// Accept transition, i.e. learn this action
targetMask[idx] = 1
neglogLi = neglogLj
这提供了一个 targetMask
策略梯度方法有利于学习连续控制输出。如果您查看 http://rll.berkeley.edu/deeprlcourse/#lectures,2 月 13 日的讲座以及 3 月 8 日至 3 月 15 日的讲座可能对您有用。那里也介绍了 Actor Critic 方法。