Storm-Crawler 中的重定向处理

Redirections handling in Storm-Crawler

有了 SC,我应该能够在不发出外链的情况下跟随重定向吗?是否应该将重定向的 URL 作为 "DISCOVERED" 注入我的后端?这似乎不是我使用以下设置进行的小实验:

crawler.yaml:        redirections.allowed: true
                     parser.emitOutlinks: false
urlfilters.json:     "maxDepth": 2

最后,当一个页面被视为重定向到另一个页面时,它是否会通过该页面的其余拓扑结构(我的意思是抓取器正在运行的任何东西)?

出站链接和重定向是分开处理的,请参阅 JSoupParserBolt.java#L341。大多数重定向发生在 FetcherBolt 中,其中 emitoulinks 配置无论如何都不适用。

重定向的目标将具有已发现的状态,除非它已经存在并具有不同的状态。

请记住,重定向的 URL 会像任何外链一样经过过滤和规范化,因此可能有一些东西阻止添加 URL,例如过滤主机名。

Finally, when a page is seen as redirecting to another one, will it go through the rest of the topology for that page (I mean whatever is behind the fetcher) or not?

否,参见 FetcherBolt