通过延长网络超时读取 Apache Nutch 中的 JavaScript 内容

Reading JavaScript content in Apache Nutch by prolonging Network Timeout

我正在使用 Apache Nutch 抓取单个域。但是,它的大部分页面都使用 JavaScript/AJAX 操作来加载我想要获取的一些链接。延长 nutch-site.xml 中的网络超时设置是否有助于延长爬虫的等待时间(并可能允许 Ajax 调用完成并呈现自身)?

谢谢!

尝试使用nutch selenium插件。它最近与 nutch 1.11 一起发布。查看 protocol-selenium 和 protocol-interactiveselenium 插件以更好地了解它们的工作原理。