在 SparkR 中使用 grep 时出错

Error in using grep in SparkR

我在对我的 Spark DataFrame 进行子集化时遇到问题。

我有一个名为 nfeDataFrame,其中包含一个名为 ITEM_PRODUTO 的列,其格式为字符串。我想根据项目列是否包含单词 "AREIA" 对 DataFrame 进行子集化。我可以轻松地根据确切的短语对数据进行子集化:

nfe.subset1 <- subset(nfe, nfe$ITEM_PRODUTO == "AREIA LAVADA FINA")

nfe.subset2 <- subset(nfe, nfe$ITEM_PRODUTO %in% "AREIA")

但是,我想要的是 ITEM_PRODUTO 列中包含单词 "AREIA" 的所有行的子集。但是,当我尝试使用 grep 时,我收到一条错误消息:

nfe.subset3 <- subset(nfe, grep("AREIA", nfe$ITEM_PRODUTO))

# Error in as.character.default(x) : 
#  no method for coercing this S4 class to a vector

我尝试了多次语法迭代,也尝试了 grepl,但似乎没有任何效果。这可能是一个语法错误,但谁能帮我解决一下?

谢谢!

标准 R 函数不能应用于 SparkDataFrame。使用像`:

where(nfe, like(nfe$ITEM_PRODUTO, "%AREIA%"))

rlike:

where(nfe, rlike(nfe$ITEM_PRODUTO, ".*AREIA.*"))