什么是强化学习中的矢量化环境?

What are vectorized environments in reinforcement learning?

我很难思考应该使用什么以及何时使用矢量化环境。如果您能提供一个用例示例,那就太好了。

SB3 中矢量化环境的文档: https://stable-baselines3.readthedocs.io/en/master/guide/vec_envs.html

矢量化环境是一种将多个独立环境堆叠到单个环境中的方法。它允许每步在多个环境中训练代理,而不是每步在 1 个环境中执行和训练代理。

通常你也希望这些环境有不同的种子,以获得更多样化的体验。这对加速训练非常有用。

我认为它们被称为“矢量化”,因为智能体在每个训练步骤中观察多个状态(插入到一个向量中),输出多个动作(每个环境一个),这些动作被插入到一个向量中,并获得多个奖励.因此,“矢量化”术语