PySpark 正则表达式从数据帧列中过滤无效的 IPv4 和 IPv6 地址

PySpark regex to filter invalid IPv4 and IPv6 addresses from dataframe column

我在代码中有以下行:

.filter((~f.col("DestinationIP").rlike("^([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})\.([0-9]{1,3})$")) | 
                            ~f.col("DestinationIP").rlike("^([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])"))

但我收到此错误消息:

raise ValueError('%r does not appear to be an IPv4 or IPv6 address' %
ValueError: '016301004081' does not appear to be an IPv4 or IPv6 address

如何解决?我只希望有效的 IPv4 和 IPv6 地址保留在我的列中并过滤掉所有其他行。

您可能应该删除 ~ 符号,它在 Spark 中等同于 NOT

您当前的过滤器保留不符合任一条件的行。如果您有 IPv4,它可能不符合 IPv6 条件,因此该值保留。 016301004081 也是如此 - 它不符合任何条件,所以它仍然存在。

而不是:

Keep:
    (NOT IPv4)
    OR
    (NOT IPv6)

更改后您将拥有

Keep:
    IPv4
    OR
    IPv6