网络蜘蛛,能够抓取基于 ajax 的网站

Web spider, which is able to crawl ajax-based websites

现在我正在使用 Crawler4j,我对此非常满意 - 但它无法抓取基于 ajax 的网站。我曾经将 selenium 用于另一种方法,它与 phantomjs 结合使用效果很好。那么有没有办法把Selenium塞进crawler4j呢?

如果没有 - Java 中是否有另一个很好的库来处理基于 ajax 的网站?

(对于 webspider,我的意思是,我必须给程序一个 url,它会自动开始从站点提取内容)

基本上是的。 crawler4j 的源代码托管在 GitHub 上。

您可以免费贡献一个扩展,这样 crawler4j 就可以获取基于 ajax 的网站。默认情况下 crawler4j 无法获取此类站点。

Apache Nutch is able to render JS while crawling web pages as described here。然而,为网络爬虫设置 Apache Nutch 比调整现有代码结构以与 crawler4j 一起使用要多得多。