以分布式方式转换二进制文件 - Spark、Flume 或任何其他选项?
Binary file conversion in distributed manner - Spark, Flume or any other option?
我们有一个场景,其中将有一组连续传入的二进制文件(准确地说是 ASN.1 类型)。我们想将这些二进制文件转换为不同的格式,比如 XML 或 JSON,并写入不同的位置。我想知道处理此类问题的最佳架构设计是什么?我知道我们可以将 Spark 集群用于 CSV、JSON、parquet 类文件,但我不确定我们是否可以将它用于二进制文件处理,或者我们可以使用 Apache Flume 从一个文件中移动文件放置到另一个地方,甚至使用拦截器来转换内容。
如果我们在不改变分布式处理的底层框架的情况下考虑性能时可以切换 ASN.1 解码器(例如:使用基于 C++ 或基于 python 或基于 Java解码器库)。
就可扩展性、可靠性和面向未来的解决方案而言,我会查看 Apache NiFi rather than Flume. You can start by developing your own ASN.1 Processor or try using the patch 已经可用但尚未发布的版本的一部分。
我们有一个场景,其中将有一组连续传入的二进制文件(准确地说是 ASN.1 类型)。我们想将这些二进制文件转换为不同的格式,比如 XML 或 JSON,并写入不同的位置。我想知道处理此类问题的最佳架构设计是什么?我知道我们可以将 Spark 集群用于 CSV、JSON、parquet 类文件,但我不确定我们是否可以将它用于二进制文件处理,或者我们可以使用 Apache Flume 从一个文件中移动文件放置到另一个地方,甚至使用拦截器来转换内容。
如果我们在不改变分布式处理的底层框架的情况下考虑性能时可以切换 ASN.1 解码器(例如:使用基于 C++ 或基于 python 或基于 Java解码器库)。
就可扩展性、可靠性和面向未来的解决方案而言,我会查看 Apache NiFi rather than Flume. You can start by developing your own ASN.1 Processor or try using the patch 已经可用但尚未发布的版本的一部分。