火花检查点和本地检查点有什么区别?

What is the difference between spark checkpoint and local checkpoint?

spark checkpoint和local checkpoint有什么区别?在制作本地检查点时,我在 spark UI:

中看到了这个

说明本地检查点保存在内存中。

  • 本地检查点 将数据写入执行程序存储
  • 经典检查点 在 HDFS 上写入数据

本地检查点经典检查点快,但经典检查点更安全,因为它利用 HDFS 可靠性,例如块复制。

本地检查点将您的数据存储在执行程序存储中(如您的屏幕截图所示)。 它对于截断 RDD 的沿袭图很有用,但是,如果节点发生故障,您将丢失数据并且需要重新计算它(取决于您的应用程序,您可能需要付出高昂的代价)。

'Standard' 检查点将您的数据存储在可靠的文件系统(如 hdfs)中。它的执行成本更高,但即使在出现故障的情况下也不需要重新计算数据。当然,它会截断谱系图。

截断长谱系图可避免出现堆栈溢出异常,并且在迭代中特别有用algorithms