指定 Parquet 属性 pyspark
Specify Parquet properties pyspark
如何在 PySpark 中指定 Parquet 块大小和页面大小?我到处搜索,但找不到函数调用或导入库的任何文档。
sc.hadoopConfiguration.setInt("dfs.blocksize", some_value)
sc.hadoopConfiguration.setInt("parquet.block.size", some_value)
因此在 PySpark 中
sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value)
sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)
如何在 PySpark 中指定 Parquet 块大小和页面大小?我到处搜索,但找不到函数调用或导入库的任何文档。
sc.hadoopConfiguration.setInt("dfs.blocksize", some_value)
sc.hadoopConfiguration.setInt("parquet.block.size", some_value)
因此在 PySpark 中
sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value)
sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)