如何描述贝尔曼方程的最优策略 (pi*)？

How do I describe optimal policy (pi*) of bellman's equation?

我试图在 this link 等许多资源中找到 pi* 是什么。但是，我找不到什么是 pi*。 V* 是否与 V_pi* 相同？

Screenshot of the question

π*用来表示"optimal policy"。 V* 和 Q* 是最优值函数。最佳价值函数导致最佳政策。

查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm