grok 解析器(%{IPORHOST:syslog_server} 中出现意外空值)HAproxy

grok parser (unexpected null in %{IPORHOST:syslog_server}) HAproxy

以下日志:

Jul 25 07:45:12 tst-proxy202 haproxy[1104]: 10.64.111.222:36635 [25/Jul/2016:07:45:12.479] promocloud~ promocloud/tst-service-proxy203 32/0/1/27/60 200 664 - - ---- 0/0/0/0/0 0/0 {} {} "POST /RTI HTTP/1.1"

使用 ${HAPROXYHTTP} grok 模式进行解析

%{SYSLOGTIMESTAMP:syslog_timestamp} %{IPORHOST:syslog_server} %{SYSLOGPROG}: %{IP:client_ip}:%{INT:client_port} \[%{HAPROXYDATE:accept_date}\] %{NOTSPACE:frontend_name} %{NOTSPACE:backend_name}/%{NOTSPACE:server_name} %{INT:time_request}/%{INT:time_queue}/%{INT:time_backend_connect}/%{INT:time_backend_response}/%{NOTSPACE:time_duration} %{INT:http_status_code} %{NOTSPACE:bytes_read} %{DATA:captured_request_cookie} %{DATA:captured_response_cookie} %{NOTSPACE:termination_state} %{INT:actconn}/%{INT:feconn}/%{INT:beconn}/%{INT:srvconn}/%{NOTSPACE:retries} %{INT:srv_queue}/%{INT:backend_queue} (\{%{HAPROXYCAPTUREDREQUESTHEADERS}\})?( )?(\{%{HAPROXYCAPTUREDRESPONSEHEADERS}\})?( )?"(<BADREQ>|(%{WORD:http_verb} (%{URIPROTO:http_proto}://)?(?:%{USER:http_user}(?::[^@]*)?@)?(?:%{URIHOST:http_host})?(?:%{URIPATHPARAM:http_request})?( HTTP/%{NUMBER:http_version})?))?"

这很好用,直到 HOSTNAME 部分 syslog_server 中出现一些意外的空值

 "syslog_server": [
    [
      "tst-proxy202"
    ]
  ],
  "HOSTNAME": [
    [
      "tst-proxy202",
      null                 <<<<<<<<< 
    ]
  ],
  "IP": [
    [
      null,
      null
    ]
  ],
  "IPV6": [
    [
      null,
      null,
      null
    ]
  ],
  "IPV4": [
    [
      null,
      "10.64.111.222",
      null
    ]
  ],

我确实用 https://grokdebug.herokuapp.com/ 解析了这个 和模式 IPORHOST,以及 IPORHOST https://grokdebug.herokuapp.com/patterns# 适用于主机名

tst-proxy202
%{IPORHOST:syslog_server}

{
  "syslog_server": [
    [
      "tst-proxy202"
    ]
  ],
  "HOSTNAME": [
    [
      "tst-proxy202"
    ]
  ],
  "IP": [
    [
      null
    ]
  ],
  "IPV6": [
    [
      null
    ]
  ],
  "IPV4": [
    [
      null
    ]
  ]
}

知道可能是什么问题吗?

如果我对你的理解正确的话,你正试图摆脱那个空值。好吧,空值的出现是因为 HAPROXYHTTP 模式的最后一部分(它表示 ?(?:%{URIHOST:http_host})?(?:%{URIPATHPARAM:http_request})?( HTTP/%{NUMBER:http_version})?))?")。它以某种方式添加了一个空的主机名。幸运的是,这不是一个严重的问题,原因如下:

grok 过滤器的默认选项包括 named_captures_only => true (docs) and keep_empty_captures => false (docs)。在 grok 调试器中尝试这两个选项,您的输出看起来非常干净。在 logstash 中,您无需更改任何内容。

如果 logstash 误解了您的主机名,请尝试自己从 grok 值中检索它(例如使用 mutate filter):

filter {
  mutate {
    replace => { "HOSTNAME" => "%{syslog_server}" }
  }
}

如果您还有其他问题,请告诉我。