Spark 中预测给定 hdfs 数据集中记录数的足够方法

Sufficient way in Spark to predict number of records in given hdfs dataset

我有大数据集要加载。 我想根据记录数预先计算分区数。 如果有足够的方法来做到这一点? 这个想法很糟糕吗?

你要么