从 R 中的语料库中删除 html 个标签

Question

我正在尝试从 R 中的语料库（文档）中删除 html 标签：

tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>

我使用的代码：

tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)

但是它无法从语料库中删除标签，这是为什么？

Answer 1

如果您想删除所有开始和结束 HTML 标签，那么您可以尝试找到模式 </?[^>]+> 并替换为空字符串：

x <- "tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)


[1] "tags :     NYT-06-22-98 1759EDT &QL;  "

Demo

作为主要免责声明，一般来说，您应该不使用正则表达式来解析HTML/XML内容。在这种特殊情况下，如果您只想去除所有标签，gsub 可能是一个可行的选择。

从 R 中的语料库中删除 html 个标签

Remove html tags from a corpus in R

information-retrieval

r

text-mining

gsub

Demo