nutch 1.10 输入路径不存在 /linkdb/current

Question

当我用下面的命令运行 nutch 1.10时，假设TestCrawl2以前不存在，需要创建，...

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一个关于索引的错误声明：

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在，但不包含'current'目录。该目录归 root 所有，因此应该没有权限问题。因为进程出错退出，所以linkdb目录下有.locked和..locked.crc两个文件。如果我再次运行命令，这些锁定文件会导致它在同一个地方退出。删除 TestCrawl2 目录，冲洗，重复。

请注意，nutch 和 solr 安装本身运行之前在 TestCrawl 实例中没有问题。只是现在我正在尝试一个新的，我遇到了问题。有关解决此问题的任何建议？

Answer 1

好的，看来我已经运行解决了这个问题的一个版本：

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬网脚本没有意识到 ignore_external_links 我的 nutch-site.xml 文件的变化。

我正在尝试抓取多个站点，并希望通过忽略外部链接并单独使用正则表达式-urlfilter.txt（仅使用 +.）来简化我的生活

现在看来我必须将 ignore_external_links 改回 false 并为我的每个网址添加正则表达式过滤器。希望我能尽快获得 nutch 1.11 版本。看起来这是固定在那里的。

nutch 1.10 输入路径不存在 /linkdb/current

nutch 1.10 input path does not exist /linkdb/current

solr

hadoop

nutch