输出到 solr 的 nutch 服务器
nutch server that outputs to solr
我有闲置的服务器,我可以创造工作和一切。
- 如何配置nutch服务器输出到solr?在 conf 文件中没有找到任何配置(nutch-site,nutch-default)
您只需要配置 Nutch 所需的参数 (http.agent.name
) 并表明您希望在所需的 Solr 实例中为您的内容建立索引,例如使用您的 bin/crawl
脚本我们只需要添加 solr.server.url
属性:
$ bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ crawl/ 2
如果您在终端中执行 bin/crawl
,您将获得有关可用选项的更多信息。更全面的介绍是available here。对于 2.x 分支,bin/crawl
脚本有一些差异。
只需通过配置端点设置 solr.server.url
,然后创建索引作业,这应该可以解决问题:
POST /job/create
{
"type":"INDEX",
"confId":"new-config",
"crawlId":"crawl01",
"args": {}
}
可以找到有关此端点的更多信息here
我有闲置的服务器,我可以创造工作和一切。
- 如何配置nutch服务器输出到solr?在 conf 文件中没有找到任何配置(nutch-site,nutch-default)
您只需要配置 Nutch 所需的参数 (http.agent.name
) 并表明您希望在所需的 Solr 实例中为您的内容建立索引,例如使用您的 bin/crawl
脚本我们只需要添加 solr.server.url
属性:
$ bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ crawl/ 2
如果您在终端中执行 bin/crawl
,您将获得有关可用选项的更多信息。更全面的介绍是available here。对于 2.x 分支,bin/crawl
脚本有一些差异。
只需通过配置端点设置 solr.server.url
,然后创建索引作业,这应该可以解决问题:
POST /job/create
{
"type":"INDEX",
"confId":"new-config",
"crawlId":"crawl01",
"args": {}
}
可以找到有关此端点的更多信息here