缺少 Sparklyr 中的 Concat_ws() 函数

Concat_ws() function in Sparklyr is missing

我正在学习有关 Web (Adobe) 分析的教程,我想在其中构建马尔可夫链模型。 (http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/)。

在示例中,他们使用的是函数: concat_ws(来自图书馆(sparklyr))。但看起来该函数不存在(安装包并调用库后,我收到该函数不存在的错误...)。

博客评论作者: concat_ws是Spark的一个SQL函数: https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/sql/functions.html 因此,您必须依赖 sparklyr 才能使该功能正常工作。

我的问题:是否有变通方法来访问 concat_ws() 函数?我试过了:

函数的目标是什么? 使用给定的分隔符将多个输入字符串列连接成一个字符串列。

您可以简单地使用基础 R 中的 paste

library(sparklyr)
library(dplyr)

config <- spark_config()
sc <- spark_connect(master = "local", config = config)

df <- as.data.frame(cbind(c("1", "2", "3"), c("a", "b", "c")))
sdf <- sdf_copy_to(sc, df, overwrite = T)

sdf %>%
  mutate(concat = paste(V1, V2, sep = "-"))

您找不到该函数,因为它不存在于 sparklyr 包中。 concat_ws 是一个 Spark SQL 函数 (org.apache.spark.sql.functions.concat_ws)。

sparklyr 依赖于 SQL 翻译层 - 函数调用被翻译成 SQL 表达式 dbplyr:

> dbplyr::translate_sql(concat_ws("-", foo, bar))
<SQL> CONCAT_WS('-', "foo", "bar")

这意味着该函数只能在 sparklyr 上下文中应用:

sc <- spark_connect(master = "local[*]")
df <- copy_to(sc, tibble(x="foo", y="bar"))

df %>% mutate(xy = concat_ws("-", x, y))
# # Source: spark<?> [?? x 3]
#   x     y     xy     
# * <chr> <chr> <chr>  
# 1 foo   bar   foo-bar

我对 dbplyr(BigQuery 数据库)也有类似的问题。

问题

我一直收到错误消息:

my_dbplyr_object %>%
  mutate(datetime_char = paste(date_char, time_char)) 
# failed x Function not found: CONCAT_WS at [1:147] [invalidQuery] 

解决方案

我写了自定义 SQL 并将其放在 sql() 中。

示例

一旦你知道 SQL 将生成你想要的东西(在我的例子中它是 CONCAT(date_char, ' ', time_char)),然后只需将它放在 sql() 函数中,就像这样:

my_dbplyr_object %>%
  mutate(datetime_char = sql("CONCAT(date_char, ' ', time_char)"))