如何实施 Q-learning 来逼近最优控制?

How to implement Q-learning to approximate an optimal control?

我有兴趣实施 Q 学习(或某种形式的强化学习)以找到最佳协议。目前,我有一个用 Python 编写的函数,我可以在其中接受协议或 "action" 和 "state" 和 returns 一个新状态和一个 "reward"。但是,我很难找到可以在这种情况下使用的 Q-learning 的 Python 实现(即可以像黑盒子一样学习函数的东西)。我看过 OpenAI gym,但这需要编写一个新环境。有人知道我可以为此采用的更简单的包或脚本吗?

我的代码格式如下:

def myModel (state, action, param1, param2):
    ...
    return (state, reward)

我正在寻找的是以下形式的算法:

def QLearning (state, reward):
    ...
    return (action)

还有一些方法可以保持在状态之间转换的动作。如果有人知道在哪里可以找到这个,我会非常兴奋!

此处提出的许多评论要求您对强化学习有深入的了解。看来你刚开始接触强化学习,所以我建议从最基本的 Q 学习算法开始。

学习 RL 的最佳方法是自己编写基本算法。该算法有两部分(模型、代理),看起来像这样:

model(state, action):
    ...
    return s2, reward, done

其中 s2 是模型在执行动作 a 后进入的新状态。奖励基于在该状态下执行该操作。完成只是代表剧集是否结束。看来你已经有了这部分。

下一部分是代理,如下所示:

states = [s1, s2, s3, ...]
actions = [a1, a2, a3, ...]
Q_matrix = np.zeros([state_size, action_size])
discount = 0.95
learning_rate = 0.1
action_list = []

def q_learning_action(s, Q_matrix):

    action = index_of_max(Q_matrix[s, :])
    action_list.append(action)      # Record your action as requested

    return action

def q_learning_updating(s, a, reward, s2, Q_matrix):

    Q_matrix[s, a] = (1 - learning_rate)Q_matrix[s, a] + learning_rate*(reward + gamma*maxQ_matrix[s2, a])
    s = s2

    return s, Q_matrix

有了这个,您可以构建一个 RL 智能体来学习许多基本知识以实现最优控制。

基本上,Q_learning_actions 为您提供了对环境执行所需的操作。然后使用该动作,计算模型的下一个状态和奖励。然后使用所有信息,用新知识更新您的 Q 矩阵。

如果有任何不合理的地方,请告诉我!

我还建议您从标准的 Q 学习算法开始。虽然如果你真的想尝试一个近似的 Q 学习算法,你可以从 openAI 获取任何 Atari 游戏并尝试解决控制问题

首先你需要设计一个神经网络策略。

import tensorflow as tf
import keras
import keras.layers as L
tf.reset_default_graph()
sess = tf.InteractiveSession()

keras.backend.set_session(sess)
network = keras.models.Sequential()
network.add(L.InputLayer(state_dim))

network.add(L.Dense(200, activation='relu'))
network.add(L.Dense(200, activation='relu'))
network.add(L.Dense(n_actions))

这是一个非常简单的网络,但可以正常工作。还要避免使用像 sigmoid 和 tanh 这样的非线性函数:agent 的观察结果没有被归一化,所以 sigmoids 可能会从 init 开始饱和。

然后我们使用 epsilon-greedy 策略对动作进行采样

def get_action(state, epsilon=0):

    if np.random.random() < epsilon:
        return int(np.random.choice(n_actions))

    return int(np.argmax(q_values))

然后我们需要训练代理的 Q 函数以最小化 TD 损失

做梯度下降时,我们不会通过它传播梯度,使训练更稳定

states_ph = keras.backend.placeholder(dtype='float32', shape=(None,) + state_dim)
actions_ph = keras.backend.placeholder(dtype='int32', shape=[None])
rewards_ph = keras.backend.placeholder(dtype='float32', shape=[None])
next_states_ph = keras.backend.placeholder(dtype='float32', shape=(None,) + state_dim)
is_done_ph = keras.backend.placeholder(dtype='bool', shape=[None])

#get q-values for all actions in current states
predicted_qvalues = network(states_ph)

#select q-values for chosen actions
predicted_qvalues_for_actions = tf.reduce_sum(predicted_qvalues * tf.one_hot(actions_ph, n_actions), axis=1)

gamma = 0.99

# compute q-values for all actions in next states
predicted_next_qvalues = network(next_states_ph)

# compute V*(next_states) using predicted next q-values
next_state_values = tf.reduce_max(predicted_next_qvalues, axis=1)

# compute "target q-values" for loss - it's what's inside square parentheses in the above formula.
target_qvalues_for_actions = rewards_ph + gamma*next_state_values

# at the last state we shall use simplified formula: Q(s,a) = r(s,a) since s' doesn't exist
target_qvalues_for_actions = tf.where(is_done_ph, rewards_ph, target_qvalues_for_actions)

最后实现一个你想最小化的均方误差

loss = (predicted_qvalues_for_actions - tf.stop_gradient(target_qvalues_for_actions)) ** 2
loss = tf.reduce_mean(loss)

# training function that resembles agent.update(state, action, reward, next_state) from tabular agent
train_step = tf.train.AdamOptimizer(1e-4).minimize(loss)

剩下的部分就是生成session——用近似q-learning agent玩env,同时训练它。