通过 pip 部署时,我们如何找到 PySpark 的所有额外依赖项?

How can we find all extra dependencies for PySpark when deploying via pip?

我正在尝试使用

中的说明在本地部署 PySpark

https://spark.apache.org/docs/latest/api/python/getting_started/install.html#using-pypi

我可以看到额外的依赖项可用,例如 sql 和 pandas_on_spark 可以用

部署

pip install pyspark[sql,pandas_on_spark]

但是我们怎样才能找到所有可用的附加功能呢?

查看pyspark包的json(基于https://wiki.python.org/moin/PyPIJSON

https://pypi.org/pypi/pyspark/json

我找不到可能的额外依赖项(如 中所述); requires_dist 的值为空。

非常感谢您的帮助。

据我所知,extras 的列表不是你能轻易得到的。如果此列表没有明确记录,那么您将不得不查看 code/config 的包装。在本例中,here 给出以下列表:mlmllibsqlpandas_on_spark.