用于网络抓取和 xml 解析,这是最好学习的库

For web scraping and xml parsing, which is best library to learn

我对同一工作的多个库感到困惑。我想学习一个可以处理 xml 和 html 解析的库。 Do elementtree 兼容 html 解析。我听说了 lxml、xml.elementtree、beautifulsoup、minidom、scrapy。谁能帮帮我

Scrapy 用于抓取网页(从网页中提取数据)因此得名。

Beautiful Soup 是来自 XML 和 HTML 文件的 parsing/pulling 数据的库。

xml.elementtree提供XML文件的对象表示,是Python的XML处理模块XML包。用于解析和操作 XML 格式的数据非常好。

lxml 正如他们声称的那样兼容但优于 Python XML 模块的 elementtree 但本质上是一样的但是,我从未将它用于解析 HTML 个文件。

根据我的经验,我使用 Scrapy 从各种用户面板中获取数据,而这些面板没有任何类型的 API 来提取数据。然而,我主要使用 Beautiful Soup 解析 HTML 文件,因为它非常简洁且易于使用。 关于 XML 解析我主要使用 Python XML 包但是,我从来没有执行任何复杂的 XML 解析所以 Python XML 包涵盖了一切我需要

正确的工具确实取决于您的要求。如果你需要库来解析 XML 和 HTML 文件,我会选择 Beautiful Soup,因为它真的很容易使用,而且你有大量的在线文档。