Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob

Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob

我正在关注 url https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 来抓取数据..

当我到达下面的命令时,我遇到了错误

bin/nutch inject crawl/crawldb dmoz

我的 java 路径已设置.. & 我也在路径 class DmozParser

/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch

这是因为 class 可能存在也可能不存在于您的系统中,但它不存在于所需位置。

首先,完成以下步骤

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz

DMOZ 包含大约三百万个 URL。我们 select 每 5,000 个中有一个,因此我们最终得到大约 1,000 个 URL:

mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls

解析器也需要几分钟时间,因为它必须解析整个文件。最后,我们使用 selected URL 初始化 crawdb。

bin/nutch inject crawl/crawldb dmoz

& 然后是您要完成的其余步骤。