查看 Spark Dataframe 列的内容

Viewing the content of a Spark Dataframe Column

我正在使用 Spark 1.3.1。

我正在尝试查看 Python 中 Spark 数据框列的值。使用 Spark 数据框,我可以 df.collect() 查看数据框的内容,但据我所知,没有针对 Spark 数据框列的最佳方法。

例如,数据框 df 包含一个名为 'zip_code' 的列。所以我可以做 df['zip_code'] 并且它变成了 pyspark.sql.dataframe.Column 类型,但是我找不到查看 df['zip_code'].

中的值的方法

您可以访问底层 RDD 并在其上进行映射

df.rdd.map(lambda r: r.zip_code).collect()

如果您不介意使用 Row 个对象包装结果,您也可以使用 select

df.select('zip_code').collect()

最后,如果您只是想检查内容,那么 show 方法应该足够了:

df.select('zip_code').show()

查看完整内容:

df.select("raw").take(1).foreach(println)

show 将向您展示概览)。

你可以简单地写:

df.select('your column's name').show()

在您的情况下,它将是:

df.select('zip_code').show()