如何描述贝尔曼方程的最优策略 (pi*)?
How do I describe optimal policy (pi*) of bellman's equation?
我试图在 this link 等许多资源中找到 pi* 是什么。但是,我找不到什么是 pi*。 V* 是否与 V_pi* 相同?
Screenshot of the question
π*用来表示"optimal policy"。 V* 和 Q* 是最优值函数。最佳价值函数导致最佳政策。
查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm
我试图在 this link 等许多资源中找到 pi* 是什么。但是,我找不到什么是 pi*。 V* 是否与 V_pi* 相同?
Screenshot of the question
π*用来表示"optimal policy"。 V* 和 Q* 是最优值函数。最佳价值函数导致最佳政策。
查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm