输出到 solr 的 nutch 服务器

nutch server that outputs to solr

我有闲置的服务器,我可以创造工作和一切。

  1. 如何配置nutch服务器输出到solr?在 conf 文件中没有找到任何配置(nutch-site,nutch-default)

您只需要配置 Nutch 所需的参数 (http.agent.name) 并表明您希望在所需的 Solr 实例中为您的内容建立索引,例如使用您的 bin/crawl 脚本我们只需要添加 solr.server.url 属性:

$ bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ crawl/ 2

如果您在终端中执行 bin/crawl,您将获得有关可用选项的更多信息。更全面的介绍是available here。对于 2.x 分支,bin/crawl 脚本有一些差异。

只需通过配置端点设置 solr.server.url,然后创建索引作业,这应该可以解决问题:

POST /job/create
{  
    "type":"INDEX",
    "confId":"new-config",
    "crawlId":"crawl01",
    "args": {}
}

可以找到有关此端点的更多信息here