数据流作业中相同 class 的不同编码器

Different coders for the same class in dataflow job

我正在尝试针对两种不同的情况对相同的 class 使用不同的编码器:

  1. 正在从 JSON 个输入文件中读取 - 使用 data = TextIO.Read.from(options.getInput()).withCoder(new Coder1())
  2. 在工作的其他地方,我希望使用 SerializableCoder 使用 data.setCoder(SerializableCoder.of(MyClass.class)
  3. 来保留 class

它在本地工作,但在云中运行时失败

 Caused by: java.io.StreamCorruptedException: invalid stream header: 7B227365.

是否支持场景?这样做的原因首先是为了避免 read/write 的 JSON 格式,另一方面使从输入文件中读取更有效(UTF-8 解析是 JSON 阅读器,所以它可以直接从 InputStream 读取)

说明: Coder1 是我的编码器。

另一个编码器是 SerializableCoder.of(MyClass.class)

系统如何选择使用哪个编码器?这两种格式是二进制不兼容的,看起来由于一些优化,第二个编码器用于只能由第一个编码器读取的数据格式。

是的,使用两个这样的不同编码器应该可以。 (需要注意的是,#2 中的编码器仅在系统选择坚持 'data' 而不是将其优化为环绕计算时才会使用。)

您使用的是自己的编码器还是 Dataflow SDK 提供的编码器?关于 TextIO 的快速警告——因为它使用换行符对元素边界进行编码,所以如果您使用的编码器生成的编码值包含可能被误认为换行符的内容,就会遇到麻烦。你真的应该只在 TextIO 中使用文本编码。我们希望将来能使这一点更清楚。