stormcrawler 可以为每个拓扑设置不同的状态索引吗?

can stormcrawler have different status index for each topology?

我正在抓取大约 20 个域并最终扩展到 300 个。每个域都有自己的解析器配置,作为单独的拓扑提交。

因此,当使用单个状态索引时,所有拓扑似乎都随机选取 url,而不是特定于特定域。

因此,为每个拓扑设置单独的状态索引是否可以解决问题?还有其他方法吗?

此外,我无法对所有域使用单一拓扑,因为抓取速度不同,抓取时间和每个域也大不相同。

每次爬网可以有一个索引,但是,如果您想 运行 每个域 1 个拓扑,只需将 1 个任意元数据添加到爬网种子并确保它获得 transferred to the outlinks. You can then use one filter query for each topology 以便 spout 仅获得该抓取的 URL。例如,元数据键可能类似于 crawlID

Also I cannot use a single topology for all domains as the crawl rates are different, also time of crawl and each domain is far different than the other.

可能有办法解决这个问题。拥有单一拓扑会使事情变得简单得多。