从 HTML 中提取文本比 NLTK 更快?

Extract text from HTML faster than NLTK?

我们使用 NLTK 从 HTML 页面中提取文本,但我们只需要最琐碎的文本分析,例如字数。

有没有一种更快的方法可以使用Python从HTML中提取可见文本?

了解HTML(最好是CSS)在一些最低限度的水平上,比如可见/不可见节点、图像的替代文本等,将会非常棒。

运行 在我以前的工作场所遇到同样的问题。你会想看看 beautifulsoup.

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text

您可以在此处找到它的文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

您可以根据属性忽略元素。至于理解外部样式表我不太确定。但是,您可以在那里做一些不会太慢(取决于页面)的事情是研究使用 phantomjs 之类的东西渲染页面,然后选择渲染的文本:)