Nutch 2.3 REST curl 语法

Nutch 2.3 REST curl syntax

我正在尝试使用 curl 来测试 Nutch 2.X REST API。我可以启动 nutchserver 并注入 URLS,但我无法让生成步骤正常工作。

这是我所做的:

curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"INJECT","confId":"default","args":{"seedDir":"/Users/username/myNutchFolder/apache-nutch-2.3/runtime/local/urls/"}}'

当我查看作业时,显示它已完成并注入了适当数量的 url。

然后我尝试使用

生成
curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"GENERATE","confId":"default","args":{}}'

失败,作业状态如下:

{
    "args": {},
    "confId": "default",
    "crawlId": "crawl-01",
    "id": "crawl-01-default-GENERATE-94689123",
    "msg": "ERROR: java.lang.RuntimeException: job failed: name=[crawl-01]generate: null, jobid=job_local473690964_0003",
    "result": null,
    "state": "FAILED",
    "type": "GENERATE"
},

除了官方 API 页面之外,我似乎找不到任何文档:https://wiki.apache.org/nutch/NutchRESTAPI#Create_job 所以我希望这里有人可能知道如何使用 REST API 进行爬网(注入、生成、获取、解析、更新b)任何有助于理解甚至为什么我的生成作业失败的帮助将不胜感激。

从用户邮件列表中,我了解到用于生成的参数是:

"normalize":布尔值

"filter":布尔值

"crawlId":字符串

"curTime":长

"batch":字符串