BeautifulSoup (bs4) 解析错误
BeautifulSoup (bs4) parsing wrong
使用 bs4 解析此示例文档,来自 python 2.7.6:
<html>
<body>
<p>HTML allows omitting P end-tags.
<p>Like that and this.
<p>And this, too.
<p>What happened?</p>
<p>And can we <p>nest a paragraph, too?</p></p>
</body>
</html>
使用:
from bs4 import BeautifulSoup as BS
...
tree = BS(fh)
HTML 多年来,允许省略各种元素类型的结束标记,包括 P(检查架构或解析器)。但是,bs4 在本文档中的 prettify() 显示它不会结束任何这些段落,直到它看到
使用 bs4 解析此示例文档,来自 python 2.7.6:
<html>
<body>
<p>HTML allows omitting P end-tags.
<p>Like that and this.
<p>And this, too.
<p>What happened?</p>
<p>And can we <p>nest a paragraph, too?</p></p>
</body>
</html>
使用:
from bs4 import BeautifulSoup as BS
...
tree = BS(fh)
HTML 多年来,允许省略各种元素类型的结束标记,包括 P(检查架构或解析器)。但是,bs4 在本文档中的 prettify() 显示它不会结束任何这些段落,直到它看到