python beautifulsoup : lxml html.parser
python beautifulsoup : lxml html.parser
我必须使用beautifulsoup,但我不知道我必须使用哪个解析器。
我在 lxml 和 html.parser 之间犹豫不决,或者为什么不两者兼而有之。
如何知道网页是否符合 lxml?
如何知道网页是否符合 html 解析器?
非常感谢
没有灵丹妙药。 Different HTML parsers behave differently 并且您应该选择适合您的特定页面的那个。在这种情况下工作基本上意味着您可以获得所需的数据。
lxml
解析器通常更快,html5lib
是最宽松的解析器 - 如果您有一个损坏的或格式不正确的 HTML 到,这种差异将是相关的解析。 html.parser
是内置的,如果这是一个问题,可以帮助避免额外的依赖。这是突出差异的related table。
我必须使用beautifulsoup,但我不知道我必须使用哪个解析器。 我在 lxml 和 html.parser 之间犹豫不决,或者为什么不两者兼而有之。 如何知道网页是否符合 lxml? 如何知道网页是否符合 html 解析器? 非常感谢
没有灵丹妙药。 Different HTML parsers behave differently 并且您应该选择适合您的特定页面的那个。在这种情况下工作基本上意味着您可以获得所需的数据。
lxml
解析器通常更快,html5lib
是最宽松的解析器 - 如果您有一个损坏的或格式不正确的 HTML 到,这种差异将是相关的解析。 html.parser
是内置的,如果这是一个问题,可以帮助避免额外的依赖。这是突出差异的related table。