将 printSchema() 函数的结果保存到 Pyspark 中的变量？

Question

我正在使用 printSchema 函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中以逐行解析它，以便我可以提取模式的结构并将其转换为 DDL 模式以在配置单元中创建 table。

如何做到这一点？

Answer 1

如果您检查 source code for printSchema()，您会看到此函数仅执行以下操作：

print(self._jdf.schema().treeString())

因此，您可以将输出保存如下：

printSchemaString = df._jdf.schema().treeString()

其他参考资料：

Save a result of printSchema() function to variable in Pyspark?