将 printSchema() 函数的结果保存到 Pyspark 中的变量?
Save a result of printSchema() function to variable in Pyspark?
我正在使用 printSchema
函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中以逐行解析它,以便我可以提取模式的结构并将其转换为 DDL 模式以在配置单元中创建 table。
如何做到这一点?
如果您检查 source code for printSchema()
,您会看到此函数仅执行以下操作:
print(self._jdf.schema().treeString())
因此,您可以将输出保存如下:
printSchemaString = df._jdf.schema().treeString()
其他参考资料:
我正在使用 printSchema
函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中以逐行解析它,以便我可以提取模式的结构并将其转换为 DDL 模式以在配置单元中创建 table。
如何做到这一点?
如果您检查 source code for printSchema()
,您会看到此函数仅执行以下操作:
print(self._jdf.schema().treeString())
因此,您可以将输出保存如下:
printSchemaString = df._jdf.schema().treeString()
其他参考资料: