PySpark 正则表达式从数据帧列中过滤无效的 IPv4 和 IPv6 地址
PySpark regex to filter invalid IPv4 and IPv6 addresses from dataframe column
我在代码中有以下行:
.filter((~f.col("DestinationIP").rlike("^([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})$")) |
~f.col("DestinationIP").rlike("^([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])"))
但我收到此错误消息:
raise ValueError('%r does not appear to be an IPv4 or IPv6 address' %
ValueError: '016301004081' does not appear to be an IPv4 or IPv6 address
如何解决?我只希望有效的 IPv4 和 IPv6 地址保留在我的列中并过滤掉所有其他行。
您可能应该删除 ~
符号,它在 Spark 中等同于 NOT
。
您当前的过滤器保留不符合任一条件的行。如果您有 IPv4,它可能不符合 IPv6 条件,因此该值保留。 016301004081
也是如此 - 它不符合任何条件,所以它仍然存在。
而不是:
Keep:
(NOT IPv4)
OR
(NOT IPv6)
更改后您将拥有
Keep:
IPv4
OR
IPv6
我在代码中有以下行:
.filter((~f.col("DestinationIP").rlike("^([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})$")) |
~f.col("DestinationIP").rlike("^([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])"))
但我收到此错误消息:
raise ValueError('%r does not appear to be an IPv4 or IPv6 address' %
ValueError: '016301004081' does not appear to be an IPv4 or IPv6 address
如何解决?我只希望有效的 IPv4 和 IPv6 地址保留在我的列中并过滤掉所有其他行。
您可能应该删除 ~
符号,它在 Spark 中等同于 NOT
。
您当前的过滤器保留不符合任一条件的行。如果您有 IPv4,它可能不符合 IPv6 条件,因此该值保留。 016301004081
也是如此 - 它不符合任何条件,所以它仍然存在。
而不是:
Keep:
(NOT IPv4)
OR
(NOT IPv6)
更改后您将拥有
Keep:
IPv4
OR
IPv6