在 SparkR 中使用 grep 时出错

Question

我在对我的 Spark DataFrame 进行子集化时遇到问题。

我有一个名为 nfe 的 DataFrame，其中包含一个名为 ITEM_PRODUTO 的列，其格式为字符串。我想根据项目列是否包含单词 "AREIA" 对 DataFrame 进行子集化。我可以轻松地根据确切的短语对数据进行子集化：

nfe.subset1 <- subset(nfe, nfe$ITEM_PRODUTO == "AREIA LAVADA FINA")

nfe.subset2 <- subset(nfe, nfe$ITEM_PRODUTO %in% "AREIA")

但是，我想要的是 ITEM_PRODUTO 列中包含单词 "AREIA" 的所有行的子集。但是，当我尝试使用 grep 时，我收到一条错误消息：

nfe.subset3 <- subset(nfe, grep("AREIA", nfe$ITEM_PRODUTO))

# Error in as.character.default(x) : 
#  no method for coercing this S4 class to a vector

我尝试了多次语法迭代，也尝试了 grepl，但似乎没有任何效果。这可能是一个语法错误，但谁能帮我解决一下？

谢谢！

Answer 1

标准 R 函数不能应用于 SparkDataFrame。使用像`:

where(nfe, like(nfe$ITEM_PRODUTO, "%AREIA%"))

或rlike:

where(nfe, rlike(nfe$ITEM_PRODUTO, ".*AREIA.*"))

在 SparkR 中使用 grep 时出错

Error in using grep in SparkR

r

apache-spark

sparkr