在流 stormcrawler 中禁用子域

Disable subdomain in flow stormcrawler

我们如何禁用在流式传输中注入子域? 现在,如果我们在流中注入 www.ebay.com 而不是在流中注入,我们就会有子域页面:my.ebay.comcommunity.ebay.com、...

您可以配置 HostURLFilter 以排除种子主机名之外的 URL,方法是在 urlfilters.json 中将 ignoreOutsideHost 设置为 true

{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}