如何使用 Nokogiri 获取一段时间后加载的 div 标签
How to get the div tag that is loaded after sometime using Nokogiri
我一直在尝试使用 Nokogiri 进行网络抓取。
我想在一段时间后加载内容,可能是因为 JavaScript。我试过使用 sleep
但我不知道哪里出错了。
这是片段:
require 'nokogiri'
require "open-uri"
require 'json'
url='https://www.instagram.com/someuser/'
file = Nokogiri::HTML(open(url))
sleep 600
puts file
data = JSON.parse file
links=file.css('div.v1Nh3 a')
puts links
我没有得到任何链接。
您要查找的内容必须通过 jQuery 或 AJAX 加载,我认为 Nokogiri 无法处理。
您应该查看“Watir”gem 并使用它在浏览器中打开 URL,然后您可以使用 Nokogiri 对其进行解析。
我一直在尝试使用 Nokogiri 进行网络抓取。
我想在一段时间后加载内容,可能是因为 JavaScript。我试过使用 sleep
但我不知道哪里出错了。
这是片段:
require 'nokogiri'
require "open-uri"
require 'json'
url='https://www.instagram.com/someuser/'
file = Nokogiri::HTML(open(url))
sleep 600
puts file
data = JSON.parse file
links=file.css('div.v1Nh3 a')
puts links
我没有得到任何链接。
您要查找的内容必须通过 jQuery 或 AJAX 加载,我认为 Nokogiri 无法处理。
您应该查看“Watir”gem 并使用它在浏览器中打开 URL,然后您可以使用 Nokogiri 对其进行解析。