与 Q 学习情节定义混淆

Confusion with Q learning Episode Definition

在阅读了一些教程后,我仍然不确定任何情节的定义。剧集是否定义为从开始状态到 exit/goal 状态的一次步行?

这取决于task/environment。在存在 well-defined exit/goal 状态(可能还有其他类型的终止状态,如失败状态)的任务中,是的,这可能是一个插曲。

通常也会有时间限制(例如,如果超过一定时间,剧集将终止,无论 success/failure。

基本上,谁指定问题也可以选择如何定义一集,并不总是以相同的方式定义。