在 SparkR 中使用 grep 时出错
Error in using grep in SparkR
我在对我的 Spark DataFrame 进行子集化时遇到问题。
我有一个名为 nfe
的 DataFrame
,其中包含一个名为 ITEM_PRODUTO
的列,其格式为字符串。我想根据项目列是否包含单词 "AREIA" 对 DataFrame
进行子集化。我可以轻松地根据确切的短语对数据进行子集化:
nfe.subset1 <- subset(nfe, nfe$ITEM_PRODUTO == "AREIA LAVADA FINA")
nfe.subset2 <- subset(nfe, nfe$ITEM_PRODUTO %in% "AREIA")
但是,我想要的是 ITEM_PRODUTO 列中包含单词 "AREIA" 的所有行的子集。但是,当我尝试使用 grep 时,我收到一条错误消息:
nfe.subset3 <- subset(nfe, grep("AREIA", nfe$ITEM_PRODUTO))
# Error in as.character.default(x) :
# no method for coercing this S4 class to a vector
我尝试了多次语法迭代,也尝试了 grepl
,但似乎没有任何效果。这可能是一个语法错误,但谁能帮我解决一下?
谢谢!
标准 R 函数不能应用于 SparkDataFrame
。使用像`:
where(nfe, like(nfe$ITEM_PRODUTO, "%AREIA%"))
或rlike
:
where(nfe, rlike(nfe$ITEM_PRODUTO, ".*AREIA.*"))
我在对我的 Spark DataFrame 进行子集化时遇到问题。
我有一个名为 nfe
的 DataFrame
,其中包含一个名为 ITEM_PRODUTO
的列,其格式为字符串。我想根据项目列是否包含单词 "AREIA" 对 DataFrame
进行子集化。我可以轻松地根据确切的短语对数据进行子集化:
nfe.subset1 <- subset(nfe, nfe$ITEM_PRODUTO == "AREIA LAVADA FINA")
nfe.subset2 <- subset(nfe, nfe$ITEM_PRODUTO %in% "AREIA")
但是,我想要的是 ITEM_PRODUTO 列中包含单词 "AREIA" 的所有行的子集。但是,当我尝试使用 grep 时,我收到一条错误消息:
nfe.subset3 <- subset(nfe, grep("AREIA", nfe$ITEM_PRODUTO))
# Error in as.character.default(x) :
# no method for coercing this S4 class to a vector
我尝试了多次语法迭代,也尝试了 grepl
,但似乎没有任何效果。这可能是一个语法错误,但谁能帮我解决一下?
谢谢!
标准 R 函数不能应用于 SparkDataFrame
。使用像`:
where(nfe, like(nfe$ITEM_PRODUTO, "%AREIA%"))
或rlike
:
where(nfe, rlike(nfe$ITEM_PRODUTO, ".*AREIA.*"))