通过延长网络超时读取 Apache Nutch 中的 JavaScript 内容
Reading JavaScript content in Apache Nutch by prolonging Network Timeout
我正在使用 Apache Nutch
抓取单个域。但是,它的大部分页面都使用 JavaScript/AJAX
操作来加载我想要获取的一些链接。延长 nutch-site.xml
中的网络超时设置是否有助于延长爬虫的等待时间(并可能允许 Ajax 调用完成并呈现自身)?
谢谢!
尝试使用nutch selenium插件。它最近与 nutch 1.11 一起发布。查看 protocol-selenium 和 protocol-interactiveselenium 插件以更好地了解它们的工作原理。
我正在使用 Apache Nutch
抓取单个域。但是,它的大部分页面都使用 JavaScript/AJAX
操作来加载我想要获取的一些链接。延长 nutch-site.xml
中的网络超时设置是否有助于延长爬虫的等待时间(并可能允许 Ajax 调用完成并呈现自身)?
谢谢!
尝试使用nutch selenium插件。它最近与 nutch 1.11 一起发布。查看 protocol-selenium 和 protocol-interactiveselenium 插件以更好地了解它们的工作原理。