从 HTML 中提取文本比 NLTK 更快？

Question

我们使用 NLTK 从 HTML 页面中提取文本，但我们只需要最琐碎的文本分析，例如字数。

有没有一种更快的方法可以使用Python从HTML中提取可见文本？

了解HTML（最好是CSS）在一些最低限度的水平上，比如可见/不可见节点、图像的替代文本等，将会非常棒。

Answer 1

运行在我以前的工作场所遇到同样的问题。你会想看看 beautifulsoup.

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text

您可以根据属性忽略元素。至于理解外部样式表我不太确定。但是，您可以在那里做一些不会太慢（取决于页面）的事情是研究使用 phantomjs 之类的东西渲染页面，然后选择渲染的文本:)

Extract text from HTML faster than NLTK?