如何修复 Dataflow 无法序列化我的 DoFn?

How to fix Dataflow unable to serialize my DoFn?

当我 运行 我的 Dataflow 管道时,出现以下异常,抱怨我的 DoFn 无法序列化。我该如何解决这个问题?

这是堆栈跟踪:

Caused by: java.lang.IllegalArgumentException: unable to serialize contrail.dataflow.AvroMRTransforms$AvroReducerDoFn@bba0fc2
    at com.google.cloud.dataflow.sdk.util.SerializableUtils.serializeToByteArray(SerializableUtils.java:51)
    at com.google.cloud.dataflow.sdk.util.SerializableUtils.ensureSerializable(SerializableUtils.java:81)
    at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.ensureSerializable(DirectPipelineRunner.java:784)
    at com.google.cloud.dataflow.sdk.transforms.ParDo.evaluateHelper(ParDo.java:1025)
    at com.google.cloud.dataflow.sdk.transforms.ParDo.evaluateSingleHelper(ParDo.java:963)
    at com.google.cloud.dataflow.sdk.transforms.ParDo.access[=10=]0(ParDo.java:441)
    at com.google.cloud.dataflow.sdk.transforms.ParDo.evaluate(ParDo.java:951)
    at com.google.cloud.dataflow.sdk.transforms.ParDo.evaluate(ParDo.java:946)
    at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.visitTransform(DirectPipelineRunner.java:611)
    at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:200)
    at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:196)
    at com.google.cloud.dataflow.sdk.runners.TransformHierarchy.visit(TransformHierarchy.java:109)
    at com.google.cloud.dataflow.sdk.Pipeline.traverseTopologically(Pipeline.java:204)
    at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.run(DirectPipelineRunner.java:584)
    at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:328)
    at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:70)
    at com.google.cloud.dataflow.sdk.Pipeline.run(Pipeline.java:145)
    at contrail.stages.DataflowStage.stageMain(DataflowStage.java:51)
    at contrail.stages.NonMRStage.execute(NonMRStage.java:130)
    at contrail.stages.NonMRStage.run(NonMRStage.java:157)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at contrail.stages.ValidateGraphDataflow.main(ValidateGraphDataflow.java:139)
    ... 6 more
Caused by: java.io.NotSerializableException: org.apache.hadoop.mapred.JobConf
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1183)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
    at com.google.cloud.dataflow.sdk.util.SerializableUtils.serializeToByteArray(SerializableUtils.java:47)
    ... 27 more

如果您滚动浏览堆栈跟踪,其中一个原因会清楚地识别不可序列化的数据。

Caused by: java.io.NotSerializableException: org.apache.hadoop.mapred.JobConf

问题是我的 DoFn 在构造函数中获取了一个 JobConf 实例并将其存储在一个实例变量中。我假设 JobConf 是可序列化的,但事实证明它不是。

为了解决这个问题,我做了以下工作

  • 我将 JobConf 成员变量标记为瞬态,这样它就不会被序列化。
  • 我创建了一个类型为 byte[] 的单独变量来存储 JobConf 的序列化版本
  • 在我的构造函数中,我将 JobConf 序列化为一个字节[]并将其存储在一个实例变量中。
  • 我覆盖了 startBundle 并从 byte[]
  • 反序列化了 JobConf

这是我的 DoFn 的 gist

补充 Jeremy 所说的...

可序列化问题的另一个常见原因是当您在非静态上下文中使用匿名 DoFn 时。匿名内部 classes 有一个指向封闭 class 的隐式指针,这将导致它也被序列化。