我如何使用 Apache Nutch 抓取 ajax 网站

How do I crawl ajax website using Apache Nutch

我想使用 Apache Nutch 抓取此站点:https://511.org/alerts/traffic/incidents。该网页已动态加载 ajax 内容。如果我使用默认配置抓取它,Nutch 只会带来页眉和页脚,而动态加载的内容会丢失。我正在使用 Nutch 1.14。

使用 Nutch 1.14,您可以使用 Nutch Selenium or the Nutch Interactive Selenium 插件来抓取包含动态加载元素的页面。