使用 sparkR 列

Question

SparkR 专栏提供了一长串有用的方法，例如 'isNull' 但在 sparkR 中我在使用它们时遇到问题。我运行 R 中的 sparkR 像这样

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sql上下文

例如当我输入这个 u=c() isNull(u) 我收到这条消息 (函数 (类, fdef, mtable) 中的错误：无法找到签名“"NULL"

的函数“isNull”的继承方法

Answer 1

那是因为 isNull 需要 DataFrame 的列而不是向量。它检查条目是否为 NULL，其工作方式如下：

a   <- createDataFrame(sqlContext,data.frame(b=c("a","b",NA,"c"),c=c(1,2,3,4)))
a$d <- isNull(a$b)
collect(a)

它也是 returns 一个（逻辑）列，这就是我将它附加到 DataFrame 的原因。但是您会注意到 SparkR 没有将 NA 存储为 NULL，因此所有逻辑都是 FALSE，但是您已经看到函数是如何工作的。

To use sparkR columns