我如何为 apache nutch 正则表达式网站 URL？

How do I Regex website URLs for apache nutch?

regex
url
nutch

我正在尝试将 apache nutch 设置为使用 Regex 仅抓取具有指定域的网站。我对 Regex 没有太多经验，而且我在弄清楚如何在 Regex 中处理我的域时遇到了麻烦。域是 https://www.health.gov.au/ 我希望正则表达式接受任何带有此域的网页，然后是其他任何内容。谢谢你的时间

编辑例如，我希望 https://www.health.gov.au/health-topics 被 Regex

接受

您可以使用 (https://www.health.gov.au/.*).

这将匹配 https://www.health.gov.au/

之后的所有字符

RegexDemo

我如何为 apache nutch 正则表达式网站 URL？

How do I Regex website URLs for apache nutch?

regex

url

nutch