我如何为 apache nutch 正则表达式网站 URL?

How do I Regex website URLs for apache nutch?

我正在尝试将 apache nutch 设置为使用 Regex 仅抓取具有指定域的网站。我对 Regex 没有太多经验,而且我在弄清楚如何在 Regex 中处理我的域时遇到了麻烦。 域是 https://www.health.gov.au/ 我希望正则表达式接受任何带有此域的网页,然后是其他任何内容。 谢谢你的时间

编辑 例如,我希望 https://www.health.gov.au/health-topics 被 Regex

接受

您可以使用 (https://www.health.gov.au/.*).

这将匹配 https://www.health.gov.au/

之后的所有字符

RegexDemo