Nutch 2 从抓取中排除 content-type 图片
Nutch 2 exclude content-type image from crawling
问题是可能存在不具有特定图像扩展名的图像。例如 Nutch2 正在抓取一个以 .ashx
结尾的页面,但它仍然是一张图片。
有没有办法使用 HTML header 过滤器排除图像:content-type: images/*
或类似但不基于 url 模式的东西(regex-urlfilter.txt
)?
问题是可能存在不具有特定图像扩展名的图像。例如 Nutch2 正在抓取一个以 .ashx
结尾的页面,但它仍然是一张图片。
有没有办法使用 HTML header 过滤器排除图像:content-type: images/*
或类似但不基于 url 模式的东西(regex-urlfilter.txt
)?