如何使用 Nokogiri 获取一段时间后加载的 div 标签

How to get the div tag that is loaded after sometime using Nokogiri

我一直在尝试使用 Nokogiri 进行网络抓取。

我想在一段时间后加载内容,可能是因为 JavaScript。我试过使用 sleep 但我不知道哪里出错了。

这是片段:

require 'nokogiri'
require "open-uri"
require 'json'

url='https://www.instagram.com/someuser/'
file = Nokogiri::HTML(open(url))
sleep 600
puts file
data = JSON.parse file
links=file.css('div.v1Nh3 a')
puts links

我没有得到任何链接。

您要查找的内容必须通过 jQuery 或 AJAX 加载,我认为 Nokogiri 无法处理。

您应该查看“Watir”gem 并使用它在浏览器中打开 URL,然后您可以使用 Nokogiri 对其进行解析。