如何让crawler4j通过相对路径获取页面?
How to let crawler4j fetch page by relative path?
使用 Crawler4j,我可以通过完整的 url 获取页面 link,例如:
<a href='http://www.domain.com/thelink'>
但是我发现如果link是相对的,比如:
<a href='/thelink'>
Crawler4j会绕过这个link(page),我连shouldVisit(Page referringPage, WebURL url)
方法中的link都看不到
我在 Crawler4j Github page 中没有看到任何关于此的配置,我是不是漏掉了什么?
如项目页面上相关 issue 中所述,此行为似乎与此特定网页使用 ajax / 渲染大量内容这一事实有关javascript.
但是,crawler4j
无法按需呈现 javascript 样式,因为它不包含用于此目的的 javascript 引擎。此外,尚未扫描 script
标记的 URL。
使用 Crawler4j,我可以通过完整的 url 获取页面 link,例如:
<a href='http://www.domain.com/thelink'>
但是我发现如果link是相对的,比如:
<a href='/thelink'>
Crawler4j会绕过这个link(page),我连shouldVisit(Page referringPage, WebURL url)
方法中的link都看不到
我在 Crawler4j Github page 中没有看到任何关于此的配置,我是不是漏掉了什么?
如项目页面上相关 issue 中所述,此行为似乎与此特定网页使用 ajax / 渲染大量内容这一事实有关javascript.
但是,crawler4j
无法按需呈现 javascript 样式,因为它不包含用于此目的的 javascript 引擎。此外,尚未扫描 script
标记的 URL。