Nutch 2 从抓取中排除 content-type 图片

Nutch 2 exclude content-type image from crawling

问题是可能存在不具有特定图像扩展名的图像。例如 Nutch2 正在抓取一个以 .ashx 结尾的页面,但它仍然是一张图片。

有没有办法使用 HTML header 过滤器排除图像:content-type: images/* 或类似但不基于 url 模式的东西(regex-urlfilter.txt)?

您可以通过编写 plugin that will extend URLFilter 接口来实现。

String filter(String urlString) 方法中,您可以检查 url 是否有一些模糊的扩展名,然后通过从服务器获取其 HTTP header 值进一步验证并检查其内容类型是图像则return null 否则return URL。但我怀疑这不是非常有效的方法,因为将仅出于此验证目的生成许多无用的 HTTP 调用。

另一件事是顺其自然,Nutch 无论如何都不会解析 and/or 索引图像。