查看 Spark Dataframe 列的内容
Viewing the content of a Spark Dataframe Column
我正在使用 Spark 1.3.1。
我正在尝试查看 Python 中 Spark 数据框列的值。使用 Spark 数据框,我可以 df.collect()
查看数据框的内容,但据我所知,没有针对 Spark 数据框列的最佳方法。
例如,数据框 df
包含一个名为 'zip_code'
的列。所以我可以做 df['zip_code']
并且它变成了 pyspark.sql.dataframe.Column
类型,但是我找不到查看 df['zip_code']
.
中的值的方法
您可以访问底层 RDD
并在其上进行映射
df.rdd.map(lambda r: r.zip_code).collect()
如果您不介意使用 Row
个对象包装结果,您也可以使用 select
:
df.select('zip_code').collect()
最后,如果您只是想检查内容,那么 show
方法应该足够了:
df.select('zip_code').show()
查看完整内容:
df.select("raw").take(1).foreach(println)
(show
将向您展示概览)。
你可以简单地写:
df.select('your column's name').show()
在您的情况下,它将是:
df.select('zip_code').show()
我正在使用 Spark 1.3.1。
我正在尝试查看 Python 中 Spark 数据框列的值。使用 Spark 数据框,我可以 df.collect()
查看数据框的内容,但据我所知,没有针对 Spark 数据框列的最佳方法。
例如,数据框 df
包含一个名为 'zip_code'
的列。所以我可以做 df['zip_code']
并且它变成了 pyspark.sql.dataframe.Column
类型,但是我找不到查看 df['zip_code']
.
您可以访问底层 RDD
并在其上进行映射
df.rdd.map(lambda r: r.zip_code).collect()
如果您不介意使用 Row
个对象包装结果,您也可以使用 select
:
df.select('zip_code').collect()
最后,如果您只是想检查内容,那么 show
方法应该足够了:
df.select('zip_code').show()
查看完整内容:
df.select("raw").take(1).foreach(println)
(show
将向您展示概览)。
你可以简单地写:
df.select('your column's name').show()
在您的情况下,它将是:
df.select('zip_code').show()