缺少 Sparklyr 中的 Concat_ws() 函数
Concat_ws() function in Sparklyr is missing
我正在学习有关 Web (Adobe) 分析的教程,我想在其中构建马尔可夫链模型。 (http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/)。
在示例中,他们使用的是函数:
concat_ws(来自图书馆(sparklyr))。但看起来该函数不存在(安装包并调用库后,我收到该函数不存在的错误...)。
博客评论作者: concat_ws是Spark的一个SQL函数:
https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/sql/functions.html
因此,您必须依赖 sparklyr 才能使该功能正常工作。
我的问题:是否有变通方法来访问 concat_ws() 函数?我试过了:
- 在 Github (https://github.com/rstudio/sparklyr) 上搜索,如果我能找到函数(或源代码)..不幸的是没有结果..
函数的目标是什么?
使用给定的分隔符将多个输入字符串列连接成一个字符串列。
您可以简单地使用基础 R 中的 paste
。
library(sparklyr)
library(dplyr)
config <- spark_config()
sc <- spark_connect(master = "local", config = config)
df <- as.data.frame(cbind(c("1", "2", "3"), c("a", "b", "c")))
sdf <- sdf_copy_to(sc, df, overwrite = T)
sdf %>%
mutate(concat = paste(V1, V2, sep = "-"))
您找不到该函数,因为它不存在于 sparklyr
包中。 concat_ws
是一个 Spark SQL 函数 (org.apache.spark.sql.functions.concat_ws
)。
sparklyr
依赖于 SQL 翻译层 - 函数调用被翻译成 SQL 表达式 dbplyr
:
> dbplyr::translate_sql(concat_ws("-", foo, bar))
<SQL> CONCAT_WS('-', "foo", "bar")
这意味着该函数只能在 sparklyr
上下文中应用:
sc <- spark_connect(master = "local[*]")
df <- copy_to(sc, tibble(x="foo", y="bar"))
df %>% mutate(xy = concat_ws("-", x, y))
# # Source: spark<?> [?? x 3]
# x y xy
# * <chr> <chr> <chr>
# 1 foo bar foo-bar
我对 dbplyr(BigQuery 数据库)也有类似的问题。
问题
我一直收到错误消息:
my_dbplyr_object %>%
mutate(datetime_char = paste(date_char, time_char))
# failed x Function not found: CONCAT_WS at [1:147] [invalidQuery]
解决方案
我写了自定义 SQL 并将其放在 sql()
中。
示例
一旦你知道 SQL 将生成你想要的东西(在我的例子中它是 CONCAT(date_char, ' ', time_char)
),然后只需将它放在 sql()
函数中,就像这样:
my_dbplyr_object %>%
mutate(datetime_char = sql("CONCAT(date_char, ' ', time_char)"))
我正在学习有关 Web (Adobe) 分析的教程,我想在其中构建马尔可夫链模型。 (http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/)。
在示例中,他们使用的是函数: concat_ws(来自图书馆(sparklyr))。但看起来该函数不存在(安装包并调用库后,我收到该函数不存在的错误...)。
博客评论作者: concat_ws是Spark的一个SQL函数: https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/sql/functions.html 因此,您必须依赖 sparklyr 才能使该功能正常工作。
我的问题:是否有变通方法来访问 concat_ws() 函数?我试过了:
- 在 Github (https://github.com/rstudio/sparklyr) 上搜索,如果我能找到函数(或源代码)..不幸的是没有结果..
函数的目标是什么? 使用给定的分隔符将多个输入字符串列连接成一个字符串列。
您可以简单地使用基础 R 中的 paste
。
library(sparklyr)
library(dplyr)
config <- spark_config()
sc <- spark_connect(master = "local", config = config)
df <- as.data.frame(cbind(c("1", "2", "3"), c("a", "b", "c")))
sdf <- sdf_copy_to(sc, df, overwrite = T)
sdf %>%
mutate(concat = paste(V1, V2, sep = "-"))
您找不到该函数,因为它不存在于 sparklyr
包中。 concat_ws
是一个 Spark SQL 函数 (org.apache.spark.sql.functions.concat_ws
)。
sparklyr
依赖于 SQL 翻译层 - 函数调用被翻译成 SQL 表达式 dbplyr
:
> dbplyr::translate_sql(concat_ws("-", foo, bar))
<SQL> CONCAT_WS('-', "foo", "bar")
这意味着该函数只能在 sparklyr
上下文中应用:
sc <- spark_connect(master = "local[*]")
df <- copy_to(sc, tibble(x="foo", y="bar"))
df %>% mutate(xy = concat_ws("-", x, y))
# # Source: spark<?> [?? x 3]
# x y xy
# * <chr> <chr> <chr>
# 1 foo bar foo-bar
我对 dbplyr(BigQuery 数据库)也有类似的问题。
问题
我一直收到错误消息:
my_dbplyr_object %>%
mutate(datetime_char = paste(date_char, time_char))
# failed x Function not found: CONCAT_WS at [1:147] [invalidQuery]
解决方案
我写了自定义 SQL 并将其放在 sql()
中。
示例
一旦你知道 SQL 将生成你想要的东西(在我的例子中它是 CONCAT(date_char, ' ', time_char)
),然后只需将它放在 sql()
函数中,就像这样:
my_dbplyr_object %>%
mutate(datetime_char = sql("CONCAT(date_char, ' ', time_char)"))