从 R 中的语料库中删除 html 个标签
Remove html tags from a corpus in R
我正在尝试从 R 中的语料库(文档)中删除 html 标签:
tags : </P></TEXT> </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>
我使用的代码:
tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)
但是它无法从语料库中删除标签,这是为什么?
如果您想删除所有开始和结束 HTML 标签,那么您可以尝试找到模式 </?[^>]+>
并替换为空字符串:
x <- "tags : </P></TEXT> </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)
[1] "tags : NYT-06-22-98 1759EDT &QL; "
作为主要免责声明,一般来说,您应该不使用正则表达式来解析HTML/XML内容。在这种特殊情况下,如果您只想去除所有标签,gsub
可能是一个可行的选择。
我正在尝试从 R 中的语料库(文档)中删除 html 标签:
tags : </P></TEXT> </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>
我使用的代码:
tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)
但是它无法从语料库中删除标签,这是为什么?
如果您想删除所有开始和结束 HTML 标签,那么您可以尝试找到模式 </?[^>]+>
并替换为空字符串:
x <- "tags : </P></TEXT> </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)
[1] "tags : NYT-06-22-98 1759EDT &QL; "
作为主要免责声明,一般来说,您应该不使用正则表达式来解析HTML/XML内容。在这种特殊情况下,如果您只想去除所有标签,gsub
可能是一个可行的选择。