Nutch 2.3 REST curl 语法
Nutch 2.3 REST curl syntax
我正在尝试使用 curl 来测试 Nutch 2.X REST API。我可以启动 nutchserver 并注入 URLS,但我无法让生成步骤正常工作。
这是我所做的:
curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"INJECT","confId":"default","args":{"seedDir":"/Users/username/myNutchFolder/apache-nutch-2.3/runtime/local/urls/"}}'
当我查看作业时,显示它已完成并注入了适当数量的 url。
然后我尝试使用
生成
curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"GENERATE","confId":"default","args":{}}'
失败,作业状态如下:
{
"args": {},
"confId": "default",
"crawlId": "crawl-01",
"id": "crawl-01-default-GENERATE-94689123",
"msg": "ERROR: java.lang.RuntimeException: job failed: name=[crawl-01]generate: null, jobid=job_local473690964_0003",
"result": null,
"state": "FAILED",
"type": "GENERATE"
},
除了官方 API 页面之外,我似乎找不到任何文档:https://wiki.apache.org/nutch/NutchRESTAPI#Create_job
所以我希望这里有人可能知道如何使用 REST API 进行爬网(注入、生成、获取、解析、更新b)任何有助于理解甚至为什么我的生成作业失败的帮助将不胜感激。
从用户邮件列表中,我了解到用于生成的参数是:
"normalize":布尔值
"filter":布尔值
"crawlId":字符串
"curTime":长
"batch":字符串
我正在尝试使用 curl 来测试 Nutch 2.X REST API。我可以启动 nutchserver 并注入 URLS,但我无法让生成步骤正常工作。
这是我所做的:
curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"INJECT","confId":"default","args":{"seedDir":"/Users/username/myNutchFolder/apache-nutch-2.3/runtime/local/urls/"}}'
当我查看作业时,显示它已完成并注入了适当数量的 url。
然后我尝试使用
生成curl -i -X POST -H "Content-Type:application/json" http://localhost:8081/job/create -d '{"crawlId":"crawl-01","type":"GENERATE","confId":"default","args":{}}'
失败,作业状态如下:
{
"args": {},
"confId": "default",
"crawlId": "crawl-01",
"id": "crawl-01-default-GENERATE-94689123",
"msg": "ERROR: java.lang.RuntimeException: job failed: name=[crawl-01]generate: null, jobid=job_local473690964_0003",
"result": null,
"state": "FAILED",
"type": "GENERATE"
},
除了官方 API 页面之外,我似乎找不到任何文档:https://wiki.apache.org/nutch/NutchRESTAPI#Create_job 所以我希望这里有人可能知道如何使用 REST API 进行爬网(注入、生成、获取、解析、更新b)任何有助于理解甚至为什么我的生成作业失败的帮助将不胜感激。
从用户邮件列表中,我了解到用于生成的参数是:
"normalize":布尔值
"filter":布尔值
"crawlId":字符串
"curTime":长
"batch":字符串