正则表达式从 FQDN 中提取最后 2 个段

Regex to pull last 2 segments from FQDN

正在尝试找出一些正则表达式来提取 FQDN 的最后 2 个片段。

^.*\shostname=[\w-]+\.(?P<myfield>[^\t]+)

此 RegEx 有效并取出 FQDN 的第一段。

www.aaa.bbb.someurl.net --> aaa.bbb.someurl.net

但是……我只想保留任何 FQDN 的最后 2 个片段。

我需要它 --> someurl.net

其他限制:
主机名字段将始终至少为 3 个段 - 不知道最大值。

这是针对 Splunk 的,所以我不能使用脚本。我需要它是 PCRE 兼容的正则表达式。

这是一个数据示例:

2021-07-20 18:19:14 reason=Not allowed to browse this category event_id=12345 protocol=HTTP action=Blocked transactionsize=16051 responsesize=789 requestsize=456 urlcategory=Blocked serverip=1.2.4.5 clienttranstime=0 requestmethod=GET refererURL=None useragent=Microsoft-Delivery location=Internal ClientIP=5.6.7.8 status=403 user=John url=dl.delivery.mp.microsoft.com/filestreamingservice/files/abcd-efgh-ijkl/pieceshash vendor=Zscaler hostname=dl.delivery.mp.microsoft.com

根据我的数据,我需要字段“myfield”为:microsoft.com

对于 OP 有效的更简单的正则表达式 ((?:\s|^)hostname=(?:[^\s.]+\.)*(?P<myfield>[^\s.]+\.[^\s.]+)) 的原始答案在 question history.


你可以使用

(?:\s|^)hostname=(?:[^\s.]+\.)*?(?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S))

或者,要匹配一行中的最后一个 hostname=... 值:

^.*\shostname=(?:[^\s.]+\.)*?(?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S))

regex #1 demo and regex #2 demo详情:

  • (?:\s|^) - 空格或字符串开头
  • hostname= - 文字子串
  • (?:[^\s.]+\.)*? - 出现零次或多次(但尽可能少)一个或多个字符,而不是空格和点,然后是点
  • (?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S)) - 组“myfield”:除空格和点之外的一个或多个字符,然后是点,然后是任何 second-level domain 或除空格和点之外的任何一个或多个字符,然后是空格或字符串结尾。

注意:\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk 模式部分(从正则表达式特里构建)匹配此列表:

.ac.uk
.co.uk
.gov.uk
.judiciary.uk
.ltd.uk
.me.uk
.mod.uk
.net.uk
.nhs.uk
.nic.uk
.org.uk
.parliament.uk
.plc.uk
.police.uk
.royal.uk
.sch.uk
.co.uk
.ltd.uk
.me.uk
.net.uk
.nic.uk
.org.uk
.plc.uk
.sch.uk
.govt.uk
.orgn.uk
.lea.uk
.mil.uk

如果要添加更多的二级域名,请添加到列表中并使用https://www.myregextester.com或类似服务构建单词列表正则表达式。

您可以匹配 hostname= 之后的所有非空白字符,然后使用捕获组捕获带有单个点的最后部分。

^.*\shostname=(?:\S+\.)?([^\s.]+\.[^\s.]+)
  • ^.*\shostname=
  • (?:\S+\.)? 可选地匹配前面可能的点
  • ( 捕获 组 1
    • [^\s.]+\.[^\s.]+ 匹配 2 个非圆点部分,中间有一个 .
  • ) 关闭群组

Regex demo

如果您想考虑国家/地区代码,我之前已在以下位置回答过此问题:

正则表达式看起来像(简化版):\w+((\.[a-z]{2,3})(\.(uk|au))?)$

包含所有国家/地区代码的完整表达式:\w+((\.[a-z]{2,3})(\.(ad|ae|af|ag|ai|al|am|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bl|bm|bn|bo|bq|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cu|cv|cw|cx|cy|cz|de|dj|dk|dm|do|dz|ec|ee|eg|er|es|et|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mf|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk|sl|sm|sn|so|sr|ss|st|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|za|zm|zw))?)$