我如何为 apache nutch 正则表达式网站 URL?
How do I Regex website URLs for apache nutch?
我正在尝试将 apache nutch 设置为使用 Regex 仅抓取具有指定域的网站。我对 Regex 没有太多经验,而且我在弄清楚如何在 Regex 中处理我的域时遇到了麻烦。
域是
https://www.health.gov.au/
我希望正则表达式接受任何带有此域的网页,然后是其他任何内容。
谢谢你的时间
编辑
例如,我希望 https://www.health.gov.au/health-topics
被 Regex
接受
您可以使用 (https://www.health.gov.au/.*)
.
这将匹配 https://www.health.gov.au/
之后的所有字符
我正在尝试将 apache nutch 设置为使用 Regex 仅抓取具有指定域的网站。我对 Regex 没有太多经验,而且我在弄清楚如何在 Regex 中处理我的域时遇到了麻烦。
域是
https://www.health.gov.au/
我希望正则表达式接受任何带有此域的网页,然后是其他任何内容。
谢谢你的时间
编辑
例如,我希望 https://www.health.gov.au/health-topics
被 Regex
您可以使用 (https://www.health.gov.au/.*)
.
这将匹配 https://www.health.gov.au/