Spark on cluster: 想知道下面报错的含义和可能的原因:

Spark on cluster: I would like to know the meaning of the following error and possible causes:


我关注errors/warns:

1) 警告 AkkaRpcEndpointRef:在 1 次尝试中发送消息 [message = Heartbeat(2,[Lscala.Tuple2;@58149ee3,BlockManagerId(2, 192.168.0.171, 49714))] 时出错 java.util.concurrent.TimeoutException:期货在 [120 秒]

后超时

2) 错误 CoarseGrainedExecutorBackend:驱动程序 192.168.0.131:41837 分离!正在关机。

我是 运行 一个 Spark (v. 1.4.0) 应用程序,在一个由 4 台机器组成的集群中,其中驱动程序拥有较少的工作内存 (4 GB)(每台机器 8 Gb)。是否有可能是驱动程序由于工作量的原因产生了错误?

驱动程序无法响应执行程序,因为它在计算期间处于压力之下。 只需向驱动程序添加 mroe RAM 即可解决该问题。