强化学习演员在初始训练期间预测相同的动作
Reinforcement learning actor predicting same actions during initial training
我有一个带有 lstm 的强化学习 Actor Critic 模型。
在初始训练期间,它为所有状态提供相同的动作值。
AI/RL 方面的专家能否帮助我了解这是否是训练期间的正常行为?
如果我有 state_dimension = 50 和 action_dimension = 3.
,您还可以帮助让我知道 lstm 和线性层的理想尺寸应该是多少
提前致谢
这可能是由多种原因引起的:
1 - 检查权重初始化
2 - 检查模型进行推理的接口,如果没有其他因素阻止它做出除了激活特定神经元之外的动作选择
3 - 检查您的奖励功能。避免过大的负面奖励。此外,如果采取相同的行动并不是避免负面奖励的明显方法。
我有一个带有 lstm 的强化学习 Actor Critic 模型。 在初始训练期间,它为所有状态提供相同的动作值。
AI/RL 方面的专家能否帮助我了解这是否是训练期间的正常行为? 如果我有 state_dimension = 50 和 action_dimension = 3.
,您还可以帮助让我知道 lstm 和线性层的理想尺寸应该是多少提前致谢
这可能是由多种原因引起的:
1 - 检查权重初始化
2 - 检查模型进行推理的接口,如果没有其他因素阻止它做出除了激活特定神经元之外的动作选择
3 - 检查您的奖励功能。避免过大的负面奖励。此外,如果采取相同的行动并不是避免负面奖励的明显方法。