Thread FetcherThread 没有更多可用的工作。获取 .com/ 失败：java.net.SocketTimeoutException：连接超时

Question

在给予 bin/nutch 获取 $s1 的同时关注 https://wiki.apache.org/nutch/NutchTutorial 面临以下问题

Thread FetcherThread has no more work available
-finishing thread FetcherThread, activeThreads=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1
fetch of http://nutch.apache.org/ failed with: java.net.SocketTimeoutException: connect timed out

请问这是怎么回事？

Answer 1

先删除您的爬网文件夹。

运行下面的命令：

bin/nutch inject crawl/crawldb dmoz
bin/nutch inject crawl/crawldb urls
bin/nutch generate crawl/crawldb crawl/segments
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
bin/nutch fetch $s1
bin/nutch parse $s1
bin/nutch updatedb crawl/crawldb $s1

启动dmoz下的url、nutch-site.xml等所有配置

Thread FetcherThread 没有更多可用的工作。获取 .com/ 失败：java.net.SocketTimeoutException：连接超时

Thread FetcherThread has no more work available. fetch of .com/ failed with: java.net.SocketTimeoutException: connect timed out

nutch