使用 sparkR 列

To use sparkR columns

SparkR 专栏提供了一长串有用的方法,例如 'isNull' 但在 sparkR 中我在使用它们时遇到问题。我 运行 R 中的 sparkR 像这样

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sql上下文

例如当我输入这个 u=c() isNull(u) 我收到这条消息 (函数 (类, fdef, mtable) 中的错误: 无法找到签名“"NULL"

的函数“isNull”的继承方法

那是因为 isNull 需要 DataFrame 的列而不是向量。它检查条目是否为 NULL,其工作方式如下:

a   <- createDataFrame(sqlContext,data.frame(b=c("a","b",NA,"c"),c=c(1,2,3,4)))
a$d <- isNull(a$b)
collect(a)

它也是 returns 一个(逻辑)列,这就是我将它附加到 DataFrame 的原因。但是您会注意到 SparkR 没有将 NA 存储为 NULL,因此所有逻辑都是 FALSE,但是您已经看到函数是如何工作的。