spark persist MEMOERY_AND_DISK vs. Tachyon

我想确保我了解快子。使用带有 hdfs 的 Tachyon 或多或少等同于使用 MEMORY_AND_DISK 持久化 RDD。在这两种情况下，当数据量超过运行内存时，它们就会被转移到硬盘驱动器上。

我了解由于 jvm 垃圾回收造成的性能差异。我只是问溢出行为。

在磁盘中持久化 RDD 的推荐方法是使用本地 fs，而不是 dfs - 检查 SPARK_LOCAL_DIRS 参数-。这是因为 spark 不会跟踪 dfs 所做的数据移动。此外，本地 fs 比 dfs 快得多，因为没有复制等...

在集群中，在将数据写入 (d)fs 之前，tachyon 有可能使用其他节点内存进行溢出。所以，如果网络 + 内存成本 < 磁盘成本更好。

在单节点中，我认为tachyon除了去除gc开销外不会带来任何性能提升。

in-memory