nutch crawl 脚本中的自定义选项不起作用

Custom options in nutch crawl script not working

我试图在 bin/crawl 脚本中提供自定义选项,但遇到了问题。我在 nutch 中提供了一个自定义配置,以忽略我的爬网命令中的外部外链,例如:-

bin/crawl -i -D elastic.index=test -D db.ignore.external.links=true urls/ CrawlTest/ 3

但这不起作用。然后我在 nutch-site.xml 中设置这个 属性 然后它就可以工作了。

然后我尝试设置一个自定义配置来将数据索引到特定的弹性索引,而不是 nutch-site.xml 中作为 bin/crawl 中的 java 选项给出的索引。令我惊讶的是它正在工作。 我使用的命令:-

bin/crawl -i -D elastic.index=test urls/ CrawlTest/ 3

所以我想知道为什么我的第一个命令不起作用?我是不是遗漏了什么。请帮忙。

通过进一步的研究,我自己得到了答案。第一个命令不起作用,因为 hadoop 没有将其检测为参数。它应该从 nutch 配置本身读取。