Nutch 跳过 url 包含#
Nutch skip url containing #
我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但是我无法弄清楚的一件事是如何限制包含#的url,因为这个#导致了几个重复。
我检查了正则表达式-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
如果我在概念上将# 添加到此行,这应该可以工作,但在添加# 之后它不起作用。是因为 # 用于注释行吗?如果是这样如何解决它。
Escape #
使用反斜杠。
我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但是我无法弄清楚的一件事是如何限制包含#的url,因为这个#导致了几个重复。 我检查了正则表达式-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
如果我在概念上将# 添加到此行,这应该可以工作,但在添加# 之后它不起作用。是因为 # 用于注释行吗?如果是这样如何解决它。
Escape #
使用反斜杠。