stormcrawler 可以为每个拓扑设置不同的状态索引吗?
can stormcrawler have different status index for each topology?
我正在抓取大约 20 个域并最终扩展到 300 个。每个域都有自己的解析器配置,作为单独的拓扑提交。
因此,当使用单个状态索引时,所有拓扑似乎都随机选取 url,而不是特定于特定域。
因此,为每个拓扑设置单独的状态索引是否可以解决问题?还有其他方法吗?
此外,我无法对所有域使用单一拓扑,因为抓取速度不同,抓取时间和每个域也大不相同。
每次爬网可以有一个索引,但是,如果您想 运行 每个域 1 个拓扑,只需将 1 个任意元数据添加到爬网种子并确保它获得 transferred to the outlinks. You can then use one filter query for each topology 以便 spout 仅获得该抓取的 URL。例如,元数据键可能类似于 crawlID。
Also I cannot use a single topology for all domains as the crawl rates are different, also time of crawl and each domain is far different than the other.
可能有办法解决这个问题。拥有单一拓扑会使事情变得简单得多。
我正在抓取大约 20 个域并最终扩展到 300 个。每个域都有自己的解析器配置,作为单独的拓扑提交。
因此,当使用单个状态索引时,所有拓扑似乎都随机选取 url,而不是特定于特定域。
因此,为每个拓扑设置单独的状态索引是否可以解决问题?还有其他方法吗?
此外,我无法对所有域使用单一拓扑,因为抓取速度不同,抓取时间和每个域也大不相同。
每次爬网可以有一个索引,但是,如果您想 运行 每个域 1 个拓扑,只需将 1 个任意元数据添加到爬网种子并确保它获得 transferred to the outlinks. You can then use one filter query for each topology 以便 spout 仅获得该抓取的 URL。例如,元数据键可能类似于 crawlID。
Also I cannot use a single topology for all domains as the crawl rates are different, also time of crawl and each domain is far different than the other.
可能有办法解决这个问题。拥有单一拓扑会使事情变得简单得多。