Nutch 跳过 url 包含#

Question

我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但是我无法弄清楚的一件事是如何限制包含#的url，因为这个#导致了几个重复。我检查了正则表达式-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

如果我在概念上将# 添加到此行，这应该可以工作，但在添加# 之后它不起作用。是因为 # 用于注释行吗？如果是这样如何解决它。

Answer 1

Escape # 使用反斜杠。

Nutch skip url containing #