计算机可以通过分析他人的游戏来学习游戏策略吗？

Can a computer learn strategies of a game by analyzing others' game?

我想知道是否有任何强化学习技术能够通过分析其他人玩的比赛而不是自己玩游戏来学习如何玩游戏和从中学习一些策略。

使用不是由学习策略本身生成的移动来学习策略的方法通常称为 off-policy 学习 方法，它们与 一起被广泛研究on-policy learning 方法（这些方法指的是学习算法本身生成动作时的情况）。

这里和其他来源有大量关于离策略学习方法的信息。

离策略方法的一个很好的例子是Q-learning。虽然 on-policy 方法的示例是直接策略梯度方法（例如 REINFORCE 算法及其变体，如 A3C 等）

当我第一次关注强化学习领域时，这两篇文章对我帮助很大：RL article with high level overview of popular algorithms, Policy gradients lecture。