我可以在 pyspark 中提取逻辑回归系数的显着值吗

Can I extract significane values for Logistic Regression coefficients in pyspark

在训练数据上拟合逻辑回归模型后,有没有办法得到我们收到的每个系数的显着性水平?

一直在想办法,自己也想不通。

如果我 运行 卡方检验,我想我可能会得到每个特征的显着性水平,但首先不确定我是否可以 运行 对所有特征一起进行检验,其次我有数字数据值,所以它是否会给我正确的结果,这仍然是一个问题。

现在我正在 运行 使用 statsmodel 和 scikit 学习建模部分,但我当然想知道如何从 pySparl ML 或 MLLib 本身获得这些结果

如果任何人都可以阐明,将会有所帮助

我只使用 mllib,我认为当你训练模型时你可以使用 toPMML 方法将你的模型导出为非 PMML 格式(xml 文件),然后你可以解析 xml 文件要获得特征权重,这里有一个例子

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

希望对您有所帮助