PySpark PCA:负载错误会话不活动

PySpark PCA: payload error session inactive

我使用 VectorAssembler 库创建了一个 spark 数据框,其中的一个示例:

|            features|
--------------------
|(2446,[2,3,4,9,12...|
|(2446,[2,4,9,12,5...|
|(2446,[335,338,34...|
|(2446,[172,208,22...|
|(2446,[2,3,4,9,53...|
--------------------

数据框不大 (538045, 1),我可以 运行 在标准 Mac 上 Python。

然后我应用 PCA:

    from pyspark.ml.feature import PCA

    pca = PCA(k=20, inputCol="features", outputCol="pcaFeatures")

    model = pca.fit(final_df)

几分钟后(小于 60 分钟 livy 超时)我收到此错误:

    An error was encountered:
    Invalid status code '400' from <redacted> with error payload: {"msg":"requirement     failed: Session isn't active."}

由于这种情况发生在不到 livy 超时后,我认为这不是配置问题。

我用的集群也很大:

    Master:Running1m5d.xlarge
    Core:Running4r3.8xlarge

问题出在驱动程序内存中;通过在 EMR 笔记本中更新 conf,如下所示:

%%configure -f
{ "conf":{
          "driverMemory": "6000M"
         }
}

重启笔记本,问题解决