在 hadoop 流处理过程中导入 pytz 模块时出错

Error importing pytz module during hadoop streaming process

我正在 运行在 hadoop 上创建一个 python 脚本,它给出了以下错误

导入错误:没有名为 pytz 的模块

当我在终端上 运行 python 脚本时,它执行得很好。理想情况下,它不应该发生,因为 hadoop 使用与系统相同的 python 版本和库。有什么想法吗?

如果您在流作业中使用任何 python 包,则需要在集群的每个单独节点上安装它。另一种选择是将包压缩到压缩包中并与 -file 选项一起发送。有关详细信息,请参阅此答案 - How can I include a python package with Hadoop streaming job?