spark persist MEMOERY_AND_DISK vs. Tachyon

spark persist MEMOERY_AND_DISK vs. Tachyon

我想确保我了解快子。使用带有 hdfs 的 Tachyon 或多或少等同于使用 MEMORY_AND_DISK 持久化 RDD。在这两种情况下,当数据量超过 运行 内存时,它们就会被转移到硬盘驱动器上。

我了解由于 jvm 垃圾回收造成的性能差异。我只是问溢出行为。

在磁盘中持久化 RDD 的推荐方法是使用本地 fs,而不是 dfs - 检查 SPARK_LOCAL_DIRS 参数-。 这是因为 spark 不会跟踪 dfs 所做的数据移动。此外,本地 fs 比 dfs 快得多,因为没有复制等...

在集群中,在将数据写入 (d)fs 之前,tachyon 有可能使用其他节点内存进行溢出。 所以,如果网络 + 内存成本 < 磁盘成本更好。

在单节点中,我认为tachyon除了去除gc开销外不会带来任何性能提升。