Q-Learning 中级奖励

Q-Learning Intermediate Rewards

如果 Q-Learning 智能体在包含中间奖励的情况下在特定纸牌游戏中对对手的表现确实明显更好,这是否表明算法存在缺陷或实施存在缺陷?

如果没有关于 Q-Learning 代理的更多具体信息,很难回答这个问题。您可以将寻求即时奖励称为开发率,它通常与探索率成反比。应该可以在您的实施中配置它和学习率。另一个重要因素是勘探策略的选择,您应该可以轻松找到有助于做出此选择的资源。例如:

http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf

https://www.cs.mcgill.ca/~vkules/bandits.pdf

直接回答这个问题,可能是实现、配置、代理架构或学习策略的问题,导致立即利用和固定局部最小值。