未获取 nutch 网址
nutch urls not fetched
正在尝试从该域的本地网站抓取一些网址:
https://foo.foofoo.com
但是,我无法为下面这些特定的对象制作它。因为 nutch 会跳过它们,即使它会生成它们以便被获取。但它没有成功:
https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa
只有一些 url(不是全部!只有少数!)会被抓取:
https://foo.foofoo.com/en/foofoo
这是我的 regex-urlfilter 文件,通过它我只获取英文网页:
-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com
有什么好主意吗?
为我的用例删除一些无用的插件后,一切恢复正常。这些插件是 nutch-extensionpoints、parse-text 和 query(basic|site|url).
正在尝试从该域的本地网站抓取一些网址:
https://foo.foofoo.com
但是,我无法为下面这些特定的对象制作它。因为 nutch 会跳过它们,即使它会生成它们以便被获取。但它没有成功:
https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa
只有一些 url(不是全部!只有少数!)会被抓取:
https://foo.foofoo.com/en/foofoo
这是我的 regex-urlfilter 文件,通过它我只获取英文网页:
-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com
有什么好主意吗?
为我的用例删除一些无用的插件后,一切恢复正常。这些插件是 nutch-extensionpoints、parse-text 和 query(basic|site|url).