根据 Pyspark Dataframe 的长度值删除列

Question

我有一个 Pyspark 数据框，我需要在其中检查 number 列，如果 drop the row if the size of value present is not 4

    +------+
    |number| 
    +------+
    |  1234|
    |  1345|
    |   223|
    +------+

所需输出：

+------+
|number| 
+------+
|  1234|
|  1345|
+------+

我知道如何使用 length(df.number) 计算数字的大小，但我无法实现所需的条件。

请帮我解决这个问题。非常感谢！

Answer 1

您可以使用过滤器，并且只有长度为 4 的数字

 from pyspark.sql import functions as F


    # InputDF
    # +------+
    # |number|
    # +------+
    # |  1234|
    # |  1345|
    # |   223|
    # +------+

    df.filter(F.length("number") == 4).show()

    # OutputDF
    # +------+
    # |number|
    # +------+
    # |  1234|
    # |  1345|
    # +------+

根据 Pyspark Dataframe 的长度值删除列

Droping columns based on the length value Pyspark Dataframe

apache-spark

apache-spark-sql

pyspark

pyspark-dataframes