将第三方库与 Pyspark 一起使用
Using 3rd party libraries with Pyspark
我一直在使用 python 的 PYOD 库,并且一直在使用 LOF、LOCI 和 CBLOF 算法。现在我想转而使用 Pyspark。我在 pyspark MLlib 上做了一些 RnD。但是,我还没有在 Pyspark 中找到 LOF、LOCI 或 CBLOF 的实现。我想知道以下内容:
- Pyspark 中有 LOF、LOCI、CBLOF 实现吗?
- 如果不是问题 1,如何将 PyOD 库算法与 pyspark 集成。所以我可以使用 PySpark 对数据进行预处理,并使用 PyOD 中实现的算法进行训练。
如果有参考,请分享。谢谢
不幸的是,这些算法在 Spark MLlib 上不可用,您可能可以使用的唯一方法(虽然不是很有效,即使它有效)是通过 UDF https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.udf.html?highlight=udf#pyspark.sql.functions.udf
我一直在使用 python 的 PYOD 库,并且一直在使用 LOF、LOCI 和 CBLOF 算法。现在我想转而使用 Pyspark。我在 pyspark MLlib 上做了一些 RnD。但是,我还没有在 Pyspark 中找到 LOF、LOCI 或 CBLOF 的实现。我想知道以下内容:
- Pyspark 中有 LOF、LOCI、CBLOF 实现吗?
- 如果不是问题 1,如何将 PyOD 库算法与 pyspark 集成。所以我可以使用 PySpark 对数据进行预处理,并使用 PyOD 中实现的算法进行训练。
如果有参考,请分享。谢谢
不幸的是,这些算法在 Spark MLlib 上不可用,您可能可以使用的唯一方法(虽然不是很有效,即使它有效)是通过 UDF https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.udf.html?highlight=udf#pyspark.sql.functions.udf