在 reinforcementlearning.jl 中使用神经网络逼近器
Using neural network approximator in reinforcementlearning.jl
我正在尝试使用 reinforcementlearning.jl
创建同步多代理环境
我已经成功地代表了环境,它适用于每个代理的 RandomPolicy。
但我的状态space很大(实际上它是一个14元组,每个值都在一定范围内)。所以我不能使用表格逼近器来估计 Q 或 V 值。这就是我决定使用神经网络逼近器的原因。但是文档对此讨论不多,也没有使用神经网络逼近器的示例。我不知道如何弄清楚如何使用这种近似器。如果有人可以解释如何去做,或者参考任何例子,那将会很有帮助。
此外,我从文档中发现,使用神经网络逼近器需要我们使用 CircularArraySARTTrajectory。但是定义这个轨迹需要一个叫做容量的关键词参数。我不知道它是什么意思,也没有在文档和 GitHub.
中讨论过
我尝试编写使用神经网络逼近器的代码,但出现错误。
# Create a flux based DNN for q - value estimation
STATE_SIZE = length(myenv.channels) # 14
ACTION_SIZE = length(values) # 2
model = Chain(
Dense(STATE_SIZE, 24, tanh),
Dense(24, 48, tanh),
Dense(48, ACTION_SIZE)
) |> gpu
η = 1f-2 # Learning rate
η_decay = 1f-3
opt = Flux.Optimiser(ADAM(η), InvDecay(η_decay))
policies = MultiAgentManager(
(
Agent(
policy = NamedPolicy(
p => VBasedPolicy(;
learner = BasicDQNLearner(;
approximator = NeuralNetworkApproximator(;
model = model,
optimizer = opt
)
)
)
),
trajectory = CircularArraySARTTrajectory(;
capacity = 14,
state=Array{Float64, 1},
action=Int,
terminal = Bool
)
)
for p in players(myenv)
)...
)
Error/StackTrace
MethodError: no method matching iterate(::Type{Array{Float64,1}})
Closest candidates are:
iterate(::Plots.NaNSegmentsIterator) at
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
iterate(::Plots.NaNSegmentsIterator, ::Int64) at
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
iterate(::LibGit2.GitBranchIter) at
C:\buildbot\worker\package_win64\build\usr\share\julia\stdlib\v1.5\LibGit2\src\reference.jl:343
...
Stacktrace:
[1] first(::Type{T} where T) at .\abstractarray.jl:341
[2] (::ReinforcementLearningCore.var"#53#54"{Int64})(::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:46
[3] map(::ReinforcementLearningCore.var"#53#54"{Int64}, ::Tuple{DataType,DataType}) at .\tuple.jl:158
[4] map(::Function, ::NamedTuple{(:state, :action),Tuple{DataType,DataType}}) at .\namedtuple.jl:187
[5] CircularArrayTrajectory(; capacity::Int64, kwargs::Base.Iterators.Pairs{Symbol,DataType,Tuple{Symbol,Symbol},NamedTuple{(:state, :action),Tuple{DataType,DataType}}}) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:45
[6] Trajectory{var"#s57"} where var"#s57"<:(NamedTuple{(:state, :action, :reward, :terminal),var"#s16"} where var"#s16"<:(Tuple{var"#s15",var"#s14",var"#s12",var"#s84"} where var"#s84"<:CircularArrayBuffers.CircularArrayBuffer where var"#s12" <:CircularArrayBuffers.CircularArrayBuffer where var"#s14"<:CircularArrayBuffers.CircularArrayBuffer where var"#s15"<:CircularArrayBuffers.CircularArrayBuffer))(; capacity::Int64, state::Type{T} where T, action::Type{T} where T, reward::Pair{DataType,Tuple{}}, terminal::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:76
[7] (::var"#24#25")(::String) at .\none:0
[8] iterate(::Base.Generator{Array{String,1},var"#24#25"}) at .\generator.jl:47
[9] top-level scope at In[18]:15
[10] include_string(::Function, ::Module, ::String, ::String) at .\loading.jl:1091
这里的capacity
表示经验回放缓冲区的最大长度。在应用DQN相关算法时,我们通常使用循环缓冲区来存储每一步的转换。
您在上面发布的错误意味着您在定义 CircularArraySARTTrajectory
时忘记定义状态的大小。
- state=Array{Float64, 1},
+ state=Array{Float64, 1} => (STATE_SIZE,),
您可以找到一些示例用法 here。我建议您在该包中创建一个问题,因为 CircularArraySARTTrajectory
的文档字符串绝对应该包含在文档中。
我正在尝试使用 reinforcementlearning.jl
创建同步多代理环境
我已经成功地代表了环境,它适用于每个代理的 RandomPolicy。
但我的状态space很大(实际上它是一个14元组,每个值都在一定范围内)。所以我不能使用表格逼近器来估计 Q 或 V 值。这就是我决定使用神经网络逼近器的原因。但是文档对此讨论不多,也没有使用神经网络逼近器的示例。我不知道如何弄清楚如何使用这种近似器。如果有人可以解释如何去做,或者参考任何例子,那将会很有帮助。
此外,我从文档中发现,使用神经网络逼近器需要我们使用 CircularArraySARTTrajectory。但是定义这个轨迹需要一个叫做容量的关键词参数。我不知道它是什么意思,也没有在文档和 GitHub.
中讨论过我尝试编写使用神经网络逼近器的代码,但出现错误。
# Create a flux based DNN for q - value estimation
STATE_SIZE = length(myenv.channels) # 14
ACTION_SIZE = length(values) # 2
model = Chain(
Dense(STATE_SIZE, 24, tanh),
Dense(24, 48, tanh),
Dense(48, ACTION_SIZE)
) |> gpu
η = 1f-2 # Learning rate
η_decay = 1f-3
opt = Flux.Optimiser(ADAM(η), InvDecay(η_decay))
policies = MultiAgentManager(
(
Agent(
policy = NamedPolicy(
p => VBasedPolicy(;
learner = BasicDQNLearner(;
approximator = NeuralNetworkApproximator(;
model = model,
optimizer = opt
)
)
)
),
trajectory = CircularArraySARTTrajectory(;
capacity = 14,
state=Array{Float64, 1},
action=Int,
terminal = Bool
)
)
for p in players(myenv)
)...
)
Error/StackTrace
MethodError: no method matching iterate(::Type{Array{Float64,1}})
Closest candidates are:
iterate(::Plots.NaNSegmentsIterator) at
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
iterate(::Plots.NaNSegmentsIterator, ::Int64) at
C:\Users\vchou\.julia\packages\Plots\lzHOt\src\utils.jl:124
iterate(::LibGit2.GitBranchIter) at
C:\buildbot\worker\package_win64\build\usr\share\julia\stdlib\v1.5\LibGit2\src\reference.jl:343
...
Stacktrace:
[1] first(::Type{T} where T) at .\abstractarray.jl:341
[2] (::ReinforcementLearningCore.var"#53#54"{Int64})(::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:46
[3] map(::ReinforcementLearningCore.var"#53#54"{Int64}, ::Tuple{DataType,DataType}) at .\tuple.jl:158
[4] map(::Function, ::NamedTuple{(:state, :action),Tuple{DataType,DataType}}) at .\namedtuple.jl:187
[5] CircularArrayTrajectory(; capacity::Int64, kwargs::Base.Iterators.Pairs{Symbol,DataType,Tuple{Symbol,Symbol},NamedTuple{(:state, :action),Tuple{DataType,DataType}}}) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:45
[6] Trajectory{var"#s57"} where var"#s57"<:(NamedTuple{(:state, :action, :reward, :terminal),var"#s16"} where var"#s16"<:(Tuple{var"#s15",var"#s14",var"#s12",var"#s84"} where var"#s84"<:CircularArrayBuffers.CircularArrayBuffer where var"#s12" <:CircularArrayBuffers.CircularArrayBuffer where var"#s14"<:CircularArrayBuffers.CircularArrayBuffer where var"#s15"<:CircularArrayBuffers.CircularArrayBuffer))(; capacity::Int64, state::Type{T} where T, action::Type{T} where T, reward::Pair{DataType,Tuple{}}, terminal::Type{T} where T) at C:\Users\vchou\.julia\packages\ReinforcementLearningCore\NWrFY\src\policies\agents\trajectories\trajectory.jl:76
[7] (::var"#24#25")(::String) at .\none:0
[8] iterate(::Base.Generator{Array{String,1},var"#24#25"}) at .\generator.jl:47
[9] top-level scope at In[18]:15
[10] include_string(::Function, ::Module, ::String, ::String) at .\loading.jl:1091
这里的capacity
表示经验回放缓冲区的最大长度。在应用DQN相关算法时,我们通常使用循环缓冲区来存储每一步的转换。
您在上面发布的错误意味着您在定义 CircularArraySARTTrajectory
时忘记定义状态的大小。
- state=Array{Float64, 1},
+ state=Array{Float64, 1} => (STATE_SIZE,),
您可以找到一些示例用法 here。我建议您在该包中创建一个问题,因为 CircularArraySARTTrajectory
的文档字符串绝对应该包含在文档中。