强化学习演员在初始训练期间预测相同的动作

Reinforcement learning actor predicting same actions during initial training

我有一个带有 lstm 的强化学习 Actor Critic 模型。 在初始训练期间,它为所有状态提供相同的动作值。

AI/RL 方面的专家能否帮助我了解这是否是训练期间的正常行为? 如果我有 state_dimension = 50 和 action_dimension = 3.

,您还可以帮助让我知道 lstm 和线性层的理想尺寸应该是多少

提前致谢

这可能是由多种原因引起的:

1 - 检查权重初始化

2 - 检查模型进行推理的接口,如果没有其他因素阻止它做出除了激活特定神经元之外的动作选择

3 - 检查您的奖励功能。避免过大的负面奖励。此外,如果采取相同的行动并不是避免负面奖励的明显方法。