正则表达式从 FQDN 中提取最后 2 个段

Question

正在尝试找出一些正则表达式来提取 FQDN 的最后 2 个片段。

^.*\shostname=[\w-]+\.(?P<myfield>[^\t]+)

此 RegEx 有效并取出 FQDN 的第一段。

www.aaa.bbb.someurl.net --> aaa.bbb.someurl.net

但是……我只想保留任何 FQDN 的最后 2 个片段。

我需要它 --> someurl.net

其他限制:
主机名字段将始终至少为 3 个段 - 不知道最大值。

这是针对 Splunk 的，所以我不能使用脚本。我需要它是 PCRE 兼容的正则表达式。

这是一个数据示例：

2021-07-20 18:19:14 reason=Not allowed to browse this category event_id=12345 protocol=HTTP action=Blocked transactionsize=16051 responsesize=789 requestsize=456 urlcategory=Blocked serverip=1.2.4.5 clienttranstime=0 requestmethod=GET refererURL=None useragent=Microsoft-Delivery location=Internal ClientIP=5.6.7.8 status=403 user=John url=dl.delivery.mp.microsoft.com/filestreamingservice/files/abcd-efgh-ijkl/pieceshash vendor=Zscaler hostname=dl.delivery.mp.microsoft.com

根据我的数据，我需要字段“myfield”为：microsoft.com。

Answer 1

对于 OP 有效的更简单的正则表达式 ((?:\s|^)hostname=(?:[^\s.]+\.)*(?P<myfield>[^\s.]+\.[^\s.]+)) 的原始答案在 question history.

你可以使用

(?:\s|^)hostname=(?:[^\s.]+\.)*?(?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S))

或者，要匹配一行中的最后一个 hostname=... 值：

^.*\shostname=(?:[^\s.]+\.)*?(?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S))

见regex #1 demo and regex #2 demo。详情:

(?:\s|^) - 空格或字符串开头
hostname= - 文字子串
(?:[^\s.]+\.)*? - 出现零次或多次（但尽可能少）一个或多个字符，而不是空格和点，然后是点
(?P<myfield>[^\s.]+\.(?:(?:ac|co)\.uk|govt?\.uk|judiciary\.uk|l(?:ea|td)\.uk|m(?:e|il|od)\.uk|n(?:et|hs|ic)\.uk|orgn?\.uk|p(?:arliament|lc|olice)\.uk|(?:royal|sch)\.uk|[^\s.]+)(?!\S)) - 组“myfield”：除空格和点之外的一个或多个字符，然后是点，然后是任何 second-level domain 或除空格和点之外的任何一个或多个字符，然后是空格或字符串结尾。

.ac.uk
.co.uk
.gov.uk
.judiciary.uk
.ltd.uk
.me.uk
.mod.uk
.net.uk
.nhs.uk
.nic.uk
.org.uk
.parliament.uk
.plc.uk
.police.uk
.royal.uk
.sch.uk
.co.uk
.ltd.uk
.me.uk
.net.uk
.nic.uk
.org.uk
.plc.uk
.sch.uk
.govt.uk
.orgn.uk
.lea.uk
.mil.uk

如果要添加更多的二级域名，请添加到列表中并使用https://www.myregextester.com或类似服务构建单词列表正则表达式。

Answer 2

您可以匹配 hostname= 之后的所有非空白字符，然后使用捕获组捕获带有单个点的最后部分。

^.*\shostname=(?:\S+\.)?([^\s.]+\.[^\s.]+)

^.*\shostname=
(?:\S+\.)? 可选地匹配前面可能的点
( 捕获 组 1
- [^\s.]+\.[^\s.]+ 匹配 2 个非圆点部分，中间有一个 .
) 关闭群组

Regex demo

Answer 3

如果您想考虑国家/地区代码，我之前已在以下位置回答过此问题：

正则表达式看起来像（简化版）：\w+((\.[a-z]{2,3})(\.(uk|au))?)$

包含所有国家/地区代码的完整表达式：\w+((\.[a-z]{2,3})(\.(ad|ae|af|ag|ai|al|am|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bl|bm|bn|bo|bq|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cu|cv|cw|cx|cy|cz|de|dj|dk|dm|do|dz|ec|ee|eg|er|es|et|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mf|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk|sl|sm|sn|so|sr|ss|st|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|za|zm|zw))?)$

正则表达式从 FQDN 中提取最后 2 个段

Regex to pull last 2 segments from FQDN

regex

splunk