如何在视频游戏中给 AI 控制权？

Question

所以我使用 PyGame 制作了 Pong，我想使用遗传算法让 AI 学习玩游戏。我希望它只知道桨、球和控件的位置。我只是不知道如何让 AI 自己移动桨。我不想这样做："If the ball is above you, go up." 我希望它只是尝试随机的东西，直到它学会做什么。

所以我的问题是，如何让 AI 尝试控制并查看效果如何？

Answer 1

一个可能有用的设计考虑是，如果您可以通过另一个界面提供一些最小的显示细节集；并反过来允许向玩家桨发出命令。例如，您可以通过 socket 发送一个简单的结构来描述球的位置以及球拍和球的每一帧更新。按照相同的模式，您可以创建一个结构，作为对描述如何移动玩家桨的消息的回复发送。例如：

# Pong Game program
import socket
import struct

# Set up server or client socket

# ... Into game loop
state = (p1_paddle_y, p2_paddle_y, ball_x, ball_y, victory_state)
# assuming pixel locations, and victory_state is -1:Loss, 0:InProgress, 1:Win

myGameStateMsg = struct.pack('>LLLLh', state[0], state[1], state[2], state[3])
sock.send(myGameStateMsg) # Sending game state to player

playerMsg = sock.recv(4) # Get player command
playerCmd = struct.unpack('i', playerMsg) 
# playerCmd is an integer describing direction & speed of paddle motion

# ... Process game state update, repeat loop

您可以使用线程和事务处理结构实现相同的效果，但您需要考虑适当保护这些结构（边写边读问题等）

就我个人而言，出于稳定性原因，我更喜欢第一种方法（套接字和多处理）。假设有某种导致崩溃的错误；如果您已经进行了进程分离，那么识别崩溃的根源就会变得更加容易。在线程级别，它仍然是可能的，但更具挑战性。多处理方法的另一个好处是您可以轻松设置多个玩家并扩展游戏（1vInGameAI、1v1、3v3、4v4）。尤其是当你扩展的时候，你可以尝试不同的算法，比如Q-Learning、自适应动态规划等，让它们相互发挥！

附录：插槽 101

Sockets 是一种让多个进程（即运行程序）相互发送消息的机制。这些进程可以运行在同一台机器上，也可以跨网络。从某种意义上说，使用它们就像读写一个不断修改的文件（这是套接字提供的抽象），而且还提供阻塞调用以便让进程等待信息可用。

关于套接字（例如文件套接字与网络套接字（FD 与 IP）；UDP 与 TCP 等）可以讨论的细节很多，可以轻松填满多个页面。相反，请参阅以下有关基本设置的教程：https://docs.python.org/3/howto/sockets.html。有了这些，您将基本了解它们可以提供什么以及从哪里获得更高级的技术。

您可能还想参考 struct 教程以及介绍性消息打包：https://docs.python.org/3/library/struct.html。有更好的方法可以做到这一点，但如果不了解结构，您将无法了解 它们如何工作和分解。

Answer 2

所以你希望 AI 输入球拍的位置和球的位置。 AI 输出是两个布尔输出，AI 是否应该在下一个模拟步骤中按下向上或向下按钮。

我还建议添加另一个输入值，即球的速度。否则，您可能需要添加另一个输入，即前面模拟步骤中球的位置，以及一个更复杂的中间层，让 AI 学习速度的概念。

Answer 3

Learning Atari-Pong has become a standard task in reinforcement learning. For example there is the OpenAI baselines github repo 实现了可以插入各种任务的 RL 算法。

你绝对不需要那些高级算法只是为了按照你描述的方式学习 Pong，但你可以从 API 他们用来区分任务的方法中学习（"environments" 在强化学习术语）和 AI 部分（"controller" 或 "agent"）。为此，我建议阅读 OpenAI Gymn Documentation 以了解如何添加新环境。

简而言之，您可以使用一些浮点数（球的位置和速度，或者两个位置而不是速度，以及球拍的位置）。或者您可以使用离散输入（整数或像素，更难学习）。这些输入可以连接到一个小型神经网络。

对于命令输出，最简单的事情就是预测向上或向下移动的概率。这是个好主意，因为当您评估您的控制器时，它将有一些非零得分机会，因此您的遗传算法可以将不同的控制器（具有不同的权重）相互比较.只需在神经网络输出上使用 sigmoid 函数，并将其解释为概率。

如果您将所有神经网络权重初始化为一个良好的随机范围，您可能可以通过尝试随机权重足够长的时间（即使没有 GA）来获得一个不会完全糟糕的乒乓球播放器。

PS：如果您不打算使用神经网络：如果您只需要实现前向传播，那么从头开始实现它们真的很简单。例如。如果您不实施反向传播训练，而是使用 GA 来学习权重（或 evolution strategy，或只是随机权重）。最难的部分是为初始随机权重找到一个好的范围。

如何在视频游戏中给 AI 控制权？

How to give an AI controls in a video game?

python

pygame

artificial-intelligence

machine-learning

genetic-algorithm

附录：插槽 101