Nutch:输入 url 被 nutch parsechecker 修改

Nutch: input url gets modified by nutch parsechecker

我正在使用 v 1.0 Nutch parsechecker 命令来解析以下 URL
http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267

但是在 运行 parsechecker 上我得到以下结果 "bin/nutch parsechecker -dumpText http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267" [1] 8956 $ fetching: http://www.doctorslounge.com/forums/viewtopic.php?f=7 Fetch failed with protocol status: notfound(14), lastModified=0:http://www.doctorslounge.com/forums/viewtopic.php?f=7
nutch 以某种方式自动修改我的输入 url
http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267

http://www.doctorslounge.com/forums/viewtopic.php?f=7
谁能帮我规避这个问题。谢谢

P.S - 它获取同一域的其他 urls
输入- http://www.doctorslounge.com/index.php/articles/page/51032 完美运行

这似乎是特定站点的内部问题。尝试 运行 wget http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267.

时也会发生同样的事情

试试这个:

bin/nutch parsechecker -dumpText "http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267"

也就是说,您需要引用(或转义)&。

使用 nutch 解析此页面时会遇到的另一个问题是它被站点的 robots.txt 文件禁止:

User-agent: *
...
Disallow: /forums/viewtopic.php