运行带有 JDBC 输入插件的多个节点上的 Logstash

Question

我有一个基本的 Logstash HA 设置 - 两个相同的节点位于两个单独的 AWS 可用性区域。每个节点运行都是一个管道，从数据库集群中提取数据集，然后将其输出到下游的 ELasticSearch 集群以进行索引。这适用于一个 Logstash 节点，但两个节点运行并行发送相同的数据两次到 ES 以进行索引，因为每个节点单独跟踪 :sql_last_value。由于我在两个节点上使用相同的 ID 作为文档 ID，所有重复的数据都被简单地更新而不是被插入两次。换句话说，每个数据集有 1 次插入和 1 次更新。显然，这不是很有效，并且会给 ELK 资源带来不必要的负载。随着额外的 Logstash 节点的添加，情况会变得更糟。

有没有人知道应该如何设置并行 Logstash 节点的更好方法，以便每个节点不会提取相同的数据集，如果它已经被另一个先前的节点提取过？一个可怜人的解决方案可能是在 Logstash 节点之间创建一个共享的 NFS 文件夹，并让每个节点在那里写入 :sql_last_value，但我不确定我可能运行使用此设置会有什么样的副作用，尤其是在更高的负载。谢谢！

Answer 1

我们有完全相同的场景：3 个 logstash 实例，以确保使用多个数据库作为数据源的高可用性。

在每个 logstash 实例上安装并启用相同的 jdbc-pipelines，遵循以下逻辑：

在结果集中为每个文档找到一个唯一标识符（主键等）或使用结果中的字段（MD5、SHA，而不是 UUID）生成 fingerprint。这个标识符需要稳定！当返回相同的实体时，它在其他 logstash 节点上必须相同。
在elasticsearch-output中使用id或指纹作为文档_id。

下面是简单情况的简化示例（id 是结果集的一部分）：

input{
  jdbc{
     ...
     statement => "select log_id, * from ..."
     ...
  }
}
filter{...}
output{
  elasticsearch{
    ...
    index => "logs-%{+YYYY.MM.dd}"
    document_id => "%{[log_id]}"
    ...
  }
}

当您的数据缺少唯一标识符并且您需要生成指纹时，就会出现这种变体

input{
  jdbc{
     ...
     statement => "select * from ..."
     ...
  }
}
filter{
  fingerprint {
    method => "MD5"
    concatenate_all_fields => true
  }
}
output{
  elasticsearch{
    ...
    index => "logs-%{+YYYY.MM.dd}"
    document_id => "%{[fingerprint]}"
    ...
  }
}

在这两种方式中，当文档成为一个 logstash 实例的结果集的一部分时，它们将被创建。所有其他 logstash 实例稍后将获得相同的文档。使用 id/fingerprint 作为 _id 将更新以前创建的文档，而不是复制您的数据。

对我们来说效果很好，试试吧！

Answer 2

我更喜欢有一个公共 last_run_metadata_path（在 NFS 或其他共享文件系统上），在不同 Logstash 实例的计划参数中有一定的偏移量。

请检查输入 jdbc 插件以获取有关 last_run_metadata_path

的更多详细信息

运行带有 JDBC 输入插件的多个节点上的 Logstash

Running Logstash on multiple nodes with JDBC input plugin

elasticsearch

logstash

elastic-stack

logstash-jdbc

运行 带有 JDBC 输入插件的多个节点上的 Logstash

Running Logstash on multiple nodes with JDBC input plugin

elasticsearch

logstash

elastic-stack

logstash-jdbc

运行带有 JDBC 输入插件的多个节点上的 Logstash