代码存储库 - pyspark 中用于代码存储库的 CTX 究竟是什么？

Question

我在代码库中看到了ctx的使用，这到底是什么？它是一个内置的图书馆吗？我什么时候使用它？

我在下面的示例中看到过它：

df = ctx.spark.createdataframe(...

Answer 1

对于代码存储库转换，您可以选择包含一个参数 ctx，这使您可以更多地访问底层基础设施运行您的工作。通常，您将访问 ctx.spark_session 属性以从 Python 对象创建您自己的 pyspark.sql.Dataframe 对象，例如：

from transforms.api import transform_df, Output
from pyspark.sql import types as T

@transform_df(
  Output=("/my/output")
)
def my_compute_function(ctx):

   schema = T.StructType(
     [
       T.StructField("name", T.StringType(), True)
     ]
   )
   return ctx.spark_session.createDataFrame([["Alex"]], schema=schema)

您将在 transforms.api.TransformContext class 的文档中找到完整的 API 描述，其中 spark_session 和 parameters 等属性可用供您阅读。

注意：spark_session 属性的类型为 pyspark.sql.SparkSession

代码存储库 - pyspark 中用于代码存储库的 CTX 究竟是什么？

Code Repository - What exactly is CTX in pyspark for a code repo?

palantir-foundry

foundry-code-repositories