Nutch 检索太多重复图像

Nutch retrieve too many duplicate images

我正在尝试使用 Nutch 检索图像。该插件只是搜索所需的图像并检索它们的 url。我最后得到的包含太多重复的网址。它检索了 43,000 个 url,其中 39,000 个是重复的。 这是正常的还是我写的代码有问题(我不认为是这种情况),或者 Nutch 本身有问题?

可能是例如相同的图像被多次引用?在这种情况下,您的结果可能是完全正常的,我猜想 运行在 given/known 组上测试示例URL 可以为您提供更好的答案,限制您仅抓取种子文件上的 URL 运行 测试并检查正在抓取哪些图像。您的爬网大小是多少?您是在获取已获取的页面还是专注于尚未访问的页面?您是否忽略了图标之类的小图像?

请记住,通常在一个网站上,很多图像资产会被一遍又一遍地重复使用,特别是如果该网站不是