Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
我正在关注 url https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 来抓取数据..
当我到达下面的命令时,我遇到了错误
bin/nutch inject crawl/crawldb dmoz
我的 java 路径已设置.. & 我也在路径 class DmozParser
/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch
这是因为 class 可能存在也可能不存在于您的系统中,但它不存在于所需位置。
首先,完成以下步骤
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz
DMOZ 包含大约三百万个 URL。我们 select 每 5,000 个中有一个,因此我们最终得到大约 1,000 个 URL:
mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls
解析器也需要几分钟时间,因为它必须解析整个文件。最后,我们使用 selected URL 初始化 crawdb。
bin/nutch inject crawl/crawldb dmoz
& 然后是您要完成的其余步骤。
我正在关注 url https://wiki.apache.org/nutch/NutchTutorial#Crawl_your_first_website 来抓取数据..
当我到达下面的命令时,我遇到了错误
bin/nutch inject crawl/crawldb dmoz
我的 java 路径已设置.. & 我也在路径 class DmozParser
/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch
这是因为 class 可能存在也可能不存在于您的系统中,但它不存在于所需位置。
首先,完成以下步骤
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz
DMOZ 包含大约三百万个 URL。我们 select 每 5,000 个中有一个,因此我们最终得到大约 1,000 个 URL:
mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls
解析器也需要几分钟时间,因为它必须解析整个文件。最后,我们使用 selected URL 初始化 crawdb。
bin/nutch inject crawl/crawldb dmoz
& 然后是您要完成的其余步骤。