使用 Nokogiri 解析大型 HTML 文件

Question

我正在尝试使用 Nokogiri 解析 http://www.pro-medic.ru/index.php?ht=246&perpage=all，但遗憾的是我无法从页面中获取所有项目。

我的简单测试代码是：

require 'open-uri'
require 'nokogiri'

html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count

它returns只有83件，但实际数量约为186件。

我认为问题可能出在 open，但函数似乎正确读取了 HTML 页面。

有人遇到过同样的问题吗？

Answer 1

该文件似乎超出了 Nokogiri 的解析器限制。您可以通过添加 HUGE 标志放宽限制：

require 'open-uri'
require 'nokogiri'

url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
  config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186

注意|=是按位或赋值运算符，不要和逻辑运算符||=

混淆

根据 Parse Options，您还可以通过 config.huge

设置此标志

使用 Nokogiri 解析大型 HTML 文件

Parsing large HTML files with Nokogiri

ruby

nokogiri