在 Scala 中使用正则表达式和 Spark 过滤 DataFrame

Question

我想过滤掉 Spark DataFrame 中具有看起来像真实电子邮件列的行，这是我尝试过的：

df.filter($"Email" match {case ".*@.*".r => true case _ => false})

但这行不通。正确的做法是什么？

Answer 1

要扩展@TomTom101 的评论，您要查找的代码是：

df.filter($"Email" rlike ".*@.*")

match 不起作用的主要原因是因为 DataFrame 有两个 filter functions which take either a String or a Column. This is unlike RDD with one filter 接受从 T 到布尔值的函数。

filter DataFrame with Regex with Spark in Scala