nutch 1.10 输入路径不存在 /linkdb/current
nutch 1.10 input path does not exist /linkdb/current
当我用下面的命令运行 nutch 1.10
时,假设TestCrawl2
以前不存在,需要创建,...
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
我收到一个关于索引的错误声明:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
linkdb目录存在,但不包含'current'目录。该目录归 root 所有,因此应该没有权限问题。因为进程出错退出,所以linkdb目录下有.locked
和..locked.crc
两个文件。如果我再次 运行 命令,这些锁定文件会导致它在同一个地方退出。删除 TestCrawl2
目录,冲洗,重复。
请注意,nutch 和 solr 安装本身 运行 之前在 TestCrawl
实例中没有问题。只是现在我正在尝试一个新的,我遇到了问题。有关解决此问题的任何建议?
好的,看来我已经 运行 解决了这个问题的一个版本:
https://issues.apache.org/jira/browse/NUTCH-2041
这是由于爬网脚本没有意识到 ignore_external_links 我的 nutch-site.xml 文件的变化。
我正在尝试抓取多个站点,并希望通过忽略外部链接并单独使用正则表达式-urlfilter.txt(仅使用 +.)来简化我的生活
现在看来我必须将 ignore_external_links 改回 false 并为我的每个网址添加正则表达式过滤器。希望我能尽快获得 nutch 1.11 版本。看起来这是固定在那里的。
当我用下面的命令运行 nutch 1.10
时,假设TestCrawl2
以前不存在,需要创建,...
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
我收到一个关于索引的错误声明:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
linkdb目录存在,但不包含'current'目录。该目录归 root 所有,因此应该没有权限问题。因为进程出错退出,所以linkdb目录下有.locked
和..locked.crc
两个文件。如果我再次 运行 命令,这些锁定文件会导致它在同一个地方退出。删除 TestCrawl2
目录,冲洗,重复。
请注意,nutch 和 solr 安装本身 运行 之前在 TestCrawl
实例中没有问题。只是现在我正在尝试一个新的,我遇到了问题。有关解决此问题的任何建议?
好的,看来我已经 运行 解决了这个问题的一个版本:
https://issues.apache.org/jira/browse/NUTCH-2041
这是由于爬网脚本没有意识到 ignore_external_links 我的 nutch-site.xml 文件的变化。
我正在尝试抓取多个站点,并希望通过忽略外部链接并单独使用正则表达式-urlfilter.txt(仅使用 +.)来简化我的生活
现在看来我必须将 ignore_external_links 改回 false 并为我的每个网址添加正则表达式过滤器。希望我能尽快获得 nutch 1.11 版本。看起来这是固定在那里的。