如何找到 VALUE 列中有多少个 TRUE 或 FALSE
How to find the how many TRUE or FALSE are in the VALUE column
我有一个带有一列字符串的 PySpark 数据框。我确实发现这些列是否为数字。但是现在我想知道 Value 列中有多少个 TRUE。
values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
| ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+
我确实应用了以下内容
from pyspark.sql import functions as F
my_df.select(
"ID",
F.col("ID").cast("int").isNotNull().alias("Value ")
).show()
+-----+------+
| ID|Value |
+-----+------+
|25q36| false|
|75647| true|
|13864| true|
|8758K| false|
|07645| true|
+-----+------+
但现在我想知道该列中有多少个 TRUE 或 False。
晚安。
尝试类似的东西...
df.groupBy('Value').count().show()
这应该可以完成工作!
df['Value'].value_counts()
我有一个带有一列字符串的 PySpark 数据框。我确实发现这些列是否为数字。但是现在我想知道 Value 列中有多少个 TRUE。
values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
| ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+
我确实应用了以下内容
from pyspark.sql import functions as F
my_df.select(
"ID",
F.col("ID").cast("int").isNotNull().alias("Value ")
).show()
+-----+------+
| ID|Value |
+-----+------+
|25q36| false|
|75647| true|
|13864| true|
|8758K| false|
|07645| true|
+-----+------+
但现在我想知道该列中有多少个 TRUE 或 False。
晚安。
尝试类似的东西...
df.groupBy('Value').count().show()
这应该可以完成工作!
df['Value'].value_counts()