如何使用 apache avro 生成无模式的 avro 文件?

How to generate schema-less avro files using apache avro?

我正在使用 Apache avro 进行数据序列化。因为,数据有一个固定的模式,我不希望模式成为序列化数据的一部分。在以下示例中,架构是 avro 文件 "users.avro" 的一部分。

User user1 = new User();
user1.setName("Alyssa");
user1.setFavoriteNumber(256);
User user2 = new User("Ben", 7, "red");
User user3 = User.newBuilder()
         .setName("Charlie")
         .setFavoriteColor("blue")
         .setFavoriteNumber(null)
         .build();

// Serialize user1 and user2 to disk
File file = new File("users.avro");
DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User>(User.class);
DataFileWriter<User> dataFileWriter = new DataFileWriter<User (userDatumWriter);
dataFileWriter.create(user1.getSchema(), new File("users.avro"));
dataFileWriter.append(user1);
dataFileWriter.append(user2);
dataFileWriter.append(user3);
dataFileWriter.close();

谁能告诉我如何存储没有嵌入架构的 avro 文件?

应该可以。

给定编码器,您可以使用 DatumWriter 将数据直接写入 ByteArrayOutputStream(然后您可以将其写入 java.io.File)。

以下是 Scala 入门方法(来自 Salat-Avro):

val baos = new ByteArrayOutputStream
val encoder = EncoderFactory.get().binaryEncoder(baos, null)
encoder.write(myRecord, encoder)

Here 你会找到一个全面的方法,我在其中解释了如何使用 Apache Avro 实现无模式序列化。 配套测试活动会显示一些您可能期望的性能数据。

code is on GitHub:示例和测试 classes 展示了如何使用数据 Reader 和 Writer 以及 Avro 本身生成的存根 class。