如何在 R 中使用 gsub 删除 div 标签内的内容
How to remove content inside a div tag using gsub in R
如何使用 gsub 删除 div 标签内的内容,知道它可能包含其他 div 标签,而这些内容应该被删除。
给出这个例子
"<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>"
gsub 函数应该只提取 div 父级
<div id="body-wrapper"></div>
gsub
可能不是最简单或最好的方法,但可以:
gsub('>.*$', '></div>', string)
您还可以使用 stringr
包中的 str_extract_all
函数来提取所需的文本。
x1<-'<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>'
y1<-unlist(str_extract_all(x1, '<div id="([^<]*)"><'))
paste0(y1, '/div>', collapse="")
输出:<div id=\"body-wrapper\"></div>
如何使用 gsub 删除 div 标签内的内容,知道它可能包含其他 div 标签,而这些内容应该被删除。
给出这个例子
"<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>"
gsub 函数应该只提取 div 父级
<div id="body-wrapper"></div>
gsub
可能不是最简单或最好的方法,但可以:
gsub('>.*$', '></div>', string)
您还可以使用 stringr
包中的 str_extract_all
函数来提取所需的文本。
x1<-'<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>'
y1<-unlist(str_extract_all(x1, '<div id="([^<]*)"><'))
paste0(y1, '/div>', collapse="")
输出:<div id=\"body-wrapper\"></div>