在 reinforcementlearning.jl 中使用神经网络逼近器

Using neural network approximator in reinforcementlearning.jl

我正在尝试使用 reinforcementlearning.jl
创建同步多代理环境 我已经成功地代表了环境,它适用于每个代理的 RandomPolicy。

但我的状态space很大(实际上它是一个14元组,每个值都在一定范围内)。所以我不能使用表格逼近器来估计 Q 或 V 值。这就是我决定使用神经网络逼近器的原因。但是文档对此讨论不多,也没有使用神经网络逼近器的示例。我不知道如何弄清楚如何使用这种近似器。如果有人可以解释如何去做,或者参考任何例子,那将会很有帮助。

此外,我从文档中发现,使用神经网络逼近器需要我们使用 CircularArraySARTTrajectory。但是定义这个轨迹需要一个叫做容量的关键词参数。我不知道它是什么意思,也没有在文档和 GitHub.

中讨论过

我尝试编写使用神经网络逼近器的代码,但出现错误。

# Create a flux based DNN for q - value estimation
STATE_SIZE = length(myenv.channels) # 14
ACTION_SIZE = length(values)        # 2

model = Chain(
      Dense(STATE_SIZE, 24, tanh),
      Dense(24, 48, tanh),
      Dense(48, ACTION_SIZE)
  ) |> gpu

η = 1f-2 # Learning rate
η_decay = 1f-3
opt = Flux.Optimiser(ADAM(η), InvDecay(η_decay))

policies = MultiAgentManager(
   (
       Agent(
           policy = NamedPolicy(
              p => VBasedPolicy(;
                  learner = BasicDQNLearner(;
                     approximator = NeuralNetworkApproximator(;
                         model = model,
                         optimizer = opt
                    )
                 )
             )
         ),
         trajectory = CircularArraySARTTrajectory(;
             capacity = 14,
             state=Array{Float64, 1},
             action=Int,
             terminal = Bool
         )
     )
     for p in players(myenv)
 )...
)

Error/StackTrace

MethodError: no method matching iterate(::Type{Array{Float64,1}})
Closest candidates are:
  iterate(::Plots.NaNSegmentsIterator) at 
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
  iterate(::Plots.NaNSegmentsIterator, ::Int64) at 
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
  iterate(::LibGit2.GitBranchIter) at 
C:\buildbot\worker\package_win64\build\usr\share\julia\stdlib\v1.5\LibGit2\src\reference.jl:343
  ...

Stacktrace:
 [1] first(::Type{T} where T) at .\abstractarray.jl:341
 [2] (::ReinforcementLearningCore.var"#53#54"{Int64})(::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:46
 [3] map(::ReinforcementLearningCore.var"#53#54"{Int64}, ::Tuple{DataType,DataType}) at .\tuple.jl:158
 [4] map(::Function, ::NamedTuple{(:state, :action),Tuple{DataType,DataType}}) at .\namedtuple.jl:187
 [5] CircularArrayTrajectory(; capacity::Int64, kwargs::Base.Iterators.Pairs{Symbol,DataType,Tuple{Symbol,Symbol},NamedTuple{(:state, :action),Tuple{DataType,DataType}}}) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:45
 [6] Trajectory{var"#s57"} where var"#s57"<:(NamedTuple{(:state, :action, :reward, :terminal),var"#s16"} where var"#s16"<:(Tuple{var"#s15",var"#s14",var"#s12",var"#s84"} where var"#s84"<:CircularArrayBuffers.CircularArrayBuffer where var"#s12" <:CircularArrayBuffers.CircularArrayBuffer where var"#s14"<:CircularArrayBuffers.CircularArrayBuffer where var"#s15"<:CircularArrayBuffers.CircularArrayBuffer))(; capacity::Int64, state::Type{T} where T, action::Type{T} where T, reward::Pair{DataType,Tuple{}}, terminal::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:76
 [7] (::var"#24#25")(::String) at .\none:0
 [8] iterate(::Base.Generator{Array{String,1},var"#24#25"}) at .\generator.jl:47
 [9] top-level scope at In[18]:15
 [10] include_string(::Function, ::Module, ::String, ::String) at .\loading.jl:1091

这里的capacity表示经验回放缓冲区的最大长度。在应用DQN相关算法时,我们通常使用循环缓冲区来存储每一步的转换。

您在上面发布的错误意味着您在定义 CircularArraySARTTrajectory 时忘记定义状态的大小。

-              state=Array{Float64, 1},
+              state=Array{Float64, 1} => (STATE_SIZE,),

您可以找到一些示例用法 here。我建议您在该包中创建一个问题,因为 CircularArraySARTTrajectory 的文档字符串绝对应该包含在文档中。