序列化 RDD

Question

我有一个 RDD，我正在尝试对其进行序列化，然后通过反序列化进行重建。我想看看这在 Apache Spark 中是否可行。

     static JavaSparkContext sc = new JavaSparkContext(conf);
        static SerializerInstance si = SparkEnv.get().closureSerializer().newInstance();
    static ClassTag<JavaRDD<String>> tag = scala.reflect.ClassTag$.MODULE$.apply(JavaRDD.class);
..
..
            JavaRDD<String> rdd = sc.textFile(logFile, 4);
            System.out.println("Element 1 " + rdd.first());
            ByteBuffer bb= si.serialize(rdd, tag);
            JavaRDD<String> rdd2 = si.deserialize(bb, Thread.currentThread().getContextClassLoader(),tag);
            System.out.println(rdd2.partitions().size());
            System.out.println("Element 0 " + rdd2.first());

当我对新创建的 RDD 执行操作时，最后一行出现异常。我序列化的方式类似于它在 Spark 内部完成的方式。

Exception in thread "main" org.apache.spark.SparkException: RDD transformations and actions can only be invoked by the driver, not inside of other transformations; for example, rdd1.map(x => rdd2.values.count() * x) is invalid because the values transformation and count action cannot be performed inside of the rdd1.map transformation. For more information, see SPARK-5063.
    at org.apache.spark.rdd.RDD.sc(RDD.scala:87)
    at org.apache.spark.rdd.RDD.take(RDD.scala:1177)
    at org.apache.spark.rdd.RDD.first(RDD.scala:1189)
    at org.apache.spark.api.java.JavaRDDLike$class.first(JavaRDDLike.scala:477)
    at org.apache.spark.api.java.JavaRDD.first(JavaRDD.scala:32)
    at SimpleApp.sparkSend(SimpleApp.java:63)
    at SimpleApp.main(SimpleApp.java:91)

RDD是在同一个进程中创建和加载的，所以我不明白这个错误是怎么发生的。

Answer 1

我是这条警告消息的作者。

Spark 不支持对通过反序列化创建的 RDD 副本执行操作和转换。 RDD 是可序列化的，因此可以在执行程序中调用它们的某些方法，但最终用户不应尝试手动执行 RDD 序列化。

当 RDD 被序列化时，它会失去对创建它的 SparkContext 的引用，从而阻止使用它启动作业（请参阅 here）。在早期版本的 Spark 中，当 Spark 尝试访问私有的 null RDD.sc 字段时，您的代码将导致 NullPointerException。

此错误消息的措辞如此，因为用户在尝试执行 rdd1.map { _ => rdd2.count() } 之类的操作时经常运行混淆 NullPointerExceptions，这导致在执行器机器上的反序列化 RDD 上调用操作。我没想到有人会尝试在驱动程序上手动序列化/反序列化他们的 RDD，所以我可以看出这个错误消息是如何产生误导的。

序列化 RDD

Serializing RDD

java

apache-spark

rdd