在网页的网格内抓取 javascript 数据

Question

我真的是网络抓取的新手，我正在做一个项目，我需要从加载的网格中抓取数据，需要滚动以获取所有值。
网页是(https://applipedia.paloaltonetworks.com/).

我需要网格内的所有数据 -（包含 NAME , CATEGORY, SUBCATEGORY, RISK, TECHNOLOGY 的数据）。

任何人都可以指导我解决这个问题的方法。我已经研究并发现带有 js 或 phantomjs 的 selenium 可能是一个很好的解决方案，但我不确定。我将使用的编程部分 Python.

Answer 1

您可以使用此代码从所需网站抓取所有内容：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC 

driver   = webdriver.Chrome(executable_path = r'C:/Users/abhishep/Downloads/chromedriver_win32/chromedriver.exe')
driver.maximize_window()

driver.get("https://applipedia.paloaltonetworks.com/") 

wait = WebDriverWait(driver,30)

table = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'tbody#bodyScrollingTable tr')))

for tab in table:
  print(tab.text)

在网页的网格内抓取 javascript 数据

Scraping javascript data within a grid of a webpage

javascript

python

selenium

web-scraping

phantomjs