从 R 中的语料库中删除 html 个标签

Remove html tags from a corpus in R

我正在尝试从 R 中的语料库(文档)中删除 html 标签:

tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC> 

我使用的代码:

tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)

但是它无法从语料库中删除标签,这是为什么?

如果您想删除所有开始和结束 HTML 标签,那么您可以尝试找到模式 </?[^>]+> 并替换为空字符串:

x <- "tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)


[1] "tags :     NYT-06-22-98 1759EDT &QL;  "

Demo

作为主要免责声明,一般来说,您应该使用正则表达式来解析HTML/XML内容。在这种特殊情况下,如果您只想去除所有标签,gsub 可能是一个可行的选择。