如何将变量传递给 spark_apply() 中调用的函数?
How to pass variables to functions called in spark_apply()?
我希望能够将额外的变量传递给 spark_apply 在 sparklyr 中调用的函数。
例如:
# setup
library(sparklyr)
sc <- spark_connect(master='local', packages=TRUE)
iris2 <- iris[,1:(ncol(iris) - 1)]
df1 <- sdf_copy_to(sc, iris2, repartition=5, overwrite=T)
# This works fine
res <- spark_apply(df1, function(x) kmeans(x, 3)$centers)
# This does not
k <- 3
res <- spark_apply(df1, function(x) kmeans(x, k)$centers)
作为一个丑陋的解决方法,我可以通过将值保存到 R 包中,然后引用它们来做我想做的事。即
> myPackage::k_equals_three == 3
[1] TRUE
# This also works
res <- spark_apply(df1, function(x) kmeans(x, myPackage::k_equals_three)$centers)
有更好的方法吗?
我没有设置 spark 来测试,但你能创建一个闭包吗?
kmeanswithk <- function(k) {force(k); function(x) kmeans(x, k)$centers})
k <- 3
res <- spark_apply(df1, kmeanswithk(k))
基本上只是创建一个函数到 return 一个函数然后使用它。
spark_apply()
现在有一个 context
参数供您将额外的 objects/variables/etc 传递给环境。
res <- spark_apply(df1, function(x, k) {
kmeans(x, k)$cluster},
context = {k <- 3})
或
k <- 3
res <- spark_apply(df1, function(x, k) {
kmeans(x, k)$cluster},
context = {k})
R 文档不包含任何带有上下文参数的示例,但您可以通过阅读 PR 了解更多信息:https://github.com/rstudio/sparklyr/pull/1107.
我希望能够将额外的变量传递给 spark_apply 在 sparklyr 中调用的函数。
例如:
# setup
library(sparklyr)
sc <- spark_connect(master='local', packages=TRUE)
iris2 <- iris[,1:(ncol(iris) - 1)]
df1 <- sdf_copy_to(sc, iris2, repartition=5, overwrite=T)
# This works fine
res <- spark_apply(df1, function(x) kmeans(x, 3)$centers)
# This does not
k <- 3
res <- spark_apply(df1, function(x) kmeans(x, k)$centers)
作为一个丑陋的解决方法,我可以通过将值保存到 R 包中,然后引用它们来做我想做的事。即
> myPackage::k_equals_three == 3
[1] TRUE
# This also works
res <- spark_apply(df1, function(x) kmeans(x, myPackage::k_equals_three)$centers)
有更好的方法吗?
我没有设置 spark 来测试,但你能创建一个闭包吗?
kmeanswithk <- function(k) {force(k); function(x) kmeans(x, k)$centers})
k <- 3
res <- spark_apply(df1, kmeanswithk(k))
基本上只是创建一个函数到 return 一个函数然后使用它。
spark_apply()
现在有一个 context
参数供您将额外的 objects/variables/etc 传递给环境。
res <- spark_apply(df1, function(x, k) {
kmeans(x, k)$cluster},
context = {k <- 3})
或
k <- 3
res <- spark_apply(df1, function(x, k) {
kmeans(x, k)$cluster},
context = {k})
R 文档不包含任何带有上下文参数的示例,但您可以通过阅读 PR 了解更多信息:https://github.com/rstudio/sparklyr/pull/1107.