Nutch REST api 结果(有限)
Nutch REST api Results (limited)
我刚刚弄清楚如何通过 REST api 为 Nutch 2.3 版本完成 Nutch 爬网。你可以看到我的post。所以在 运行 抓取之后,我去 MongoVue 查看结果,没有 "status" 或 "baseUrl" 字段,以及其他字段。现在,如果我通过 cygwin 进行正常爬网,我将获得所有字段。 POST 对 UPDATEDB 调用的请求中是否缺少某些参数?
这是我最后一次调用 Updatedb。
{
"args":{
"crawlId":"crawl-01",
"batch":"1428526896161-4430"
},
"confId":"default",
"crawlId":"crawl-01",
"type":"UPDATEDB"
}
我想通了。 GenerateJob 步骤中使用的时间戳是错误的。它需要采用特定格式,而我的代码不支持它。找到解决方法。
我刚刚弄清楚如何通过 REST api 为 Nutch 2.3 版本完成 Nutch 爬网。你可以看到我的post
这是我最后一次调用 Updatedb。
{
"args":{
"crawlId":"crawl-01",
"batch":"1428526896161-4430"
},
"confId":"default",
"crawlId":"crawl-01",
"type":"UPDATEDB"
}
我想通了。 GenerateJob 步骤中使用的时间戳是错误的。它需要采用特定格式,而我的代码不支持它。找到解决方法。