PySpark PCA:负载错误会话不活动
PySpark PCA: payload error session inactive
我使用 VectorAssembler 库创建了一个 spark 数据框,其中的一个示例:
| features|
--------------------
|(2446,[2,3,4,9,12...|
|(2446,[2,4,9,12,5...|
|(2446,[335,338,34...|
|(2446,[172,208,22...|
|(2446,[2,3,4,9,53...|
--------------------
数据框不大 (538045, 1),我可以 运行 在标准 Mac 上 Python。
然后我应用 PCA:
from pyspark.ml.feature import PCA
pca = PCA(k=20, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(final_df)
几分钟后(小于 60 分钟 livy 超时)我收到此错误:
An error was encountered:
Invalid status code '400' from <redacted> with error payload: {"msg":"requirement failed: Session isn't active."}
由于这种情况发生在不到 livy 超时后,我认为这不是配置问题。
我用的集群也很大:
Master:Running1m5d.xlarge
Core:Running4r3.8xlarge
问题出在驱动程序内存中;通过在 EMR 笔记本中更新 conf
,如下所示:
%%configure -f
{ "conf":{
"driverMemory": "6000M"
}
}
重启笔记本,问题解决
我使用 VectorAssembler 库创建了一个 spark 数据框,其中的一个示例:
| features|
--------------------
|(2446,[2,3,4,9,12...|
|(2446,[2,4,9,12,5...|
|(2446,[335,338,34...|
|(2446,[172,208,22...|
|(2446,[2,3,4,9,53...|
--------------------
数据框不大 (538045, 1),我可以 运行 在标准 Mac 上 Python。
然后我应用 PCA:
from pyspark.ml.feature import PCA
pca = PCA(k=20, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(final_df)
几分钟后(小于 60 分钟 livy 超时)我收到此错误:
An error was encountered:
Invalid status code '400' from <redacted> with error payload: {"msg":"requirement failed: Session isn't active."}
由于这种情况发生在不到 livy 超时后,我认为这不是配置问题。
我用的集群也很大:
Master:Running1m5d.xlarge
Core:Running4r3.8xlarge
问题出在驱动程序内存中;通过在 EMR 笔记本中更新 conf
,如下所示:
%%configure -f
{ "conf":{
"driverMemory": "6000M"
}
}
重启笔记本,问题解决