Flume 在边缘或工作节点上?

Flume on edge or worker node?

对于数据摄取,我想使用 flume 并将其放在边缘节点(在集群外的安全 DMZ 中)或工作节点之一上。

工作节点(即数据节点)上的 Flume 存在一个问题。使用HDFS,如果客户端在datanode上运行写入数据时,数据的第一个副本总是写入本地datanode。

所以如果你有很多数据节点,然后你只有几个 Flume 运行,这些数据节点将比其他节点使用更多 space .这实际上取决于您打算用 Flume 写入多少数据,这是否可能是一个问题,还取决于您是否在写入数据后对其进行处理。

在边缘节点上也有 Flume 可能有很好的防火墙/安全原因 - 这实际上取决于您的要求。