将 printSchema() 函数的结果保存到 Pyspark 中的变量?

Save a result of printSchema() function to variable in Pyspark?

我正在使用 printSchema 函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中以逐行解析它,以便我可以提取模式的结构并将其转换为 DDL 模式以在配置单元中创建 table。

如何做到这一点?

如果您检查 source code for printSchema(),您会看到此函数仅执行以下操作:

print(self._jdf.schema().treeString())

因此,您可以将输出保存如下:

printSchemaString = df._jdf.schema().treeString()

其他参考资料: