在流 stormcrawler 中禁用子域
Disable subdomain in flow stormcrawler
我们如何禁用在流式传输中注入子域?
现在,如果我们在流中注入 www.ebay.com
而不是在流中注入,我们就会有子域页面:my.ebay.com
、community.ebay.com
、...
您可以配置 HostURLFilter 以排除种子主机名之外的 URL,方法是在 urlfilters.json 中将 ignoreOutsideHost 设置为 true
{
"class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
"name": "HostURLFilter",
"params": {
"ignoreOutsideHost": true,
"ignoreOutsideDomain": true
}
}
我们如何禁用在流式传输中注入子域?
现在,如果我们在流中注入 www.ebay.com
而不是在流中注入,我们就会有子域页面:my.ebay.com
、community.ebay.com
、...
您可以配置 HostURLFilter 以排除种子主机名之外的 URL,方法是在 urlfilters.json 中将 ignoreOutsideHost 设置为 true
{
"class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
"name": "HostURLFilter",
"params": {
"ignoreOutsideHost": true,
"ignoreOutsideDomain": true
}
}