什么是强化学习中的矢量化环境？

What are vectorized environments in reinforcement learning?

我很难思考应该使用什么以及何时使用矢量化环境。如果您能提供一个用例示例，那就太好了。

矢量化环境是一种将多个独立环境堆叠到单个环境中的方法。它允许每步在多个环境中训练代理，而不是每步在 1 个环境中执行和训练代理。

通常你也希望这些环境有不同的种子，以获得更多样化的体验。这对加速训练非常有用。

我认为它们被称为“矢量化”，因为智能体在每个训练步骤中观察多个状态（插入到一个向量中），输出多个动作（每个环境一个），这些动作被插入到一个向量中，并获得多个奖励.因此，“矢量化”术语