使用 pyspark 检查 dbfs 中 parquet table 长度的最佳方法?
Most optimal method to check length of a parquet table in dbfs with pyspark?
我在 dbfs 上有一个 table 我可以用 pyspark 读取,但我只需要知道它的长度 (nrows)。我知道我可以只读取文件并执行 table.count()
来获取它,但这需要一些时间。
有没有更好的方法解决这个问题?
恐怕不会。
由于您使用的是 dbfs,我想您使用的是带有 Databricks 的 Delta 格式。因此,理论上,您可以检查 Metastore,但是:
The metastore is not the source of truth about the latest information
of a Delta table
https://docs.delta.io/latest/delta-batch.html#control-data-location
我在 dbfs 上有一个 table 我可以用 pyspark 读取,但我只需要知道它的长度 (nrows)。我知道我可以只读取文件并执行 table.count()
来获取它,但这需要一些时间。
有没有更好的方法解决这个问题?
恐怕不会。
由于您使用的是 dbfs,我想您使用的是带有 Databricks 的 Delta 格式。因此,理论上,您可以检查 Metastore,但是:
The metastore is not the source of truth about the latest information of a Delta table
https://docs.delta.io/latest/delta-batch.html#control-data-location