如何在 R 中使用 gsub 删除 div 标签内的内容

How to remove content inside a div tag using gsub in R

如何使用 gsub 删除 div 标签内的内容,知道它可能包含其他 div 标签,而这些内容应该被删除。

给出这个例子

"<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>"

gsub 函数应该只提取 div 父级

<div id="body-wrapper"></div>

gsub 可能不是最简单或最好的方法,但可以:

gsub('>.*$', '></div>', string)

您还可以使用 stringr 包中的 str_extract_all 函数来提取所需的文本。

x1<-'<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>'
y1<-unlist(str_extract_all(x1, '<div id="([^<]*)"><'))
paste0(y1, '/div>', collapse="")

输出:<div id=\"body-wrapper\"></div>