深度强化学习背景下的batch size是什么意思?
What is the meaning of batch size in the background of deep reinforcement learning?
batch size是监督学习中神经工作训练的样本数,但是在强化学习的背景下batch size是什么意思呢?它也指样品吗?如果有,强化学习背景下的samples是什么意思?
与监督学习相比,批量大小在强化学习中确实意味着同样的事情。 "batch learning" 的直觉(通常在小批量中)有两个方面:
- 由于硬件的内存限制,可能很难对超过 1,000,000 个数据点进行批量梯度下降。
- 计算整个数据子集的损失梯度,即代表整个数据。如果你在每一步训练的批次不能代表整个数据,你的更新步骤就会有偏差。
在神经网络等监督学习中,您可以进行小批量梯度下降来更新您的神经网络。在深度强化学习中,你正在训练相同的神经网络,所以它以相同的方式工作。
在监督学习中,您的批次将包含一组特征及其各自的标签。在深度强化学习中,也是类似的。它是一个元组(状态、动作、奖励、t + 1 时的状态,有时完成)。
状态:描述您的环境的原始状态
动作:您在该环境状态下执行的动作
奖励:在该状态下执行该动作后获得的奖励信号
状态 t+1:您的操作使您进入的新状态。
完成:一个布尔值,表示您的任务已结束。例如,如果你训练 RL 下象棋,完成的将是赢得或输掉棋局。
您将对这些 (s, a, r, s(t+1), done) 元组中的一批进行采样。然后你把它送入TD更新规则,通常是这样的形式:
这两个 Q 是动作值,通过将 s、s(t+1) 和 a 传递到您的神经网络来计算。
然后,您将使用 Q 作为标签更新您的神经网络。
batch size是监督学习中神经工作训练的样本数,但是在强化学习的背景下batch size是什么意思呢?它也指样品吗?如果有,强化学习背景下的samples是什么意思?
与监督学习相比,批量大小在强化学习中确实意味着同样的事情。 "batch learning" 的直觉(通常在小批量中)有两个方面:
- 由于硬件的内存限制,可能很难对超过 1,000,000 个数据点进行批量梯度下降。
- 计算整个数据子集的损失梯度,即代表整个数据。如果你在每一步训练的批次不能代表整个数据,你的更新步骤就会有偏差。
在神经网络等监督学习中,您可以进行小批量梯度下降来更新您的神经网络。在深度强化学习中,你正在训练相同的神经网络,所以它以相同的方式工作。
在监督学习中,您的批次将包含一组特征及其各自的标签。在深度强化学习中,也是类似的。它是一个元组(状态、动作、奖励、t + 1 时的状态,有时完成)。
状态:描述您的环境的原始状态
动作:您在该环境状态下执行的动作
奖励:在该状态下执行该动作后获得的奖励信号
状态 t+1:您的操作使您进入的新状态。
完成:一个布尔值,表示您的任务已结束。例如,如果你训练 RL 下象棋,完成的将是赢得或输掉棋局。
您将对这些 (s, a, r, s(t+1), done) 元组中的一批进行采样。然后你把它送入TD更新规则,通常是这样的形式:
这两个 Q 是动作值,通过将 s、s(t+1) 和 a 传递到您的神经网络来计算。
然后,您将使用 Q 作为标签更新您的神经网络。