线程异常 "main" java.lang.ClassNotFoundException 错误

Exception in thread "main" java.lang.ClassNotFoundException error

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5 但是我收到以下错误:

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:348)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:316)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:236)

我在 /home/apache-nutch-2.3.1/build/ 中创建了一个 urls/seed.text 文件,其中包含以下 URL: http://nutch.apache.org http://apache.org 我编辑 conf/regex-urlfilter.txt 如下: +^http://([a-z0-9]*\.)*apache.org/

class org.apache.nutch.crawl.Crawl 自 1.8 版后已被删除。建议改为 运行 shell 脚本 bin/crawl。它将为爬网的每个步骤启动 Hadoop 作业:注入、生成、获取、解析等。