将正则表达式过滤器应用于爬虫以爬取特定页面
Applying a Regex Filter to Crawler to crawl specific pages
我正在使用 Storm 爬虫 1.10 和 Elastic Search 6.3.x。例如,我有一个主网站 https://www.abce.org
,它有像 https://abce.org/def
和 https://abce.org/ghi
这样的子页面。我想专门抓取 https://www.abce.org/ghi
.
下的页面
我的种子Url是https://www.abce.org/ghi/
。
目前我每次都应用以下不同的正则表达式过滤器。
+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$
我测试了我的正则表达式 regexr 它显示有效。但是当我检查 statusindex 时,它只显示发现的种子 url 而没有别的。
试试 FastURLFilter,您可能会发现它使用起来更直观。 运行 调试模式下的拓扑,用于检查您是否已将 URL 提交给 URLFilters 以及它们的行为是否符合您的预期。
在你提问之前,
我正在使用 Storm 爬虫 1.10 和 Elastic Search 6.3.x。例如,我有一个主网站 https://www.abce.org
,它有像 https://abce.org/def
和 https://abce.org/ghi
这样的子页面。我想专门抓取 https://www.abce.org/ghi
.
我的种子Url是https://www.abce.org/ghi/
。
目前我每次都应用以下不同的正则表达式过滤器。
+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$
我测试了我的正则表达式 regexr 它显示有效。但是当我检查 statusindex 时,它只显示发现的种子 url 而没有别的。
试试 FastURLFilter,您可能会发现它使用起来更直观。 运行 调试模式下的拓扑,用于检查您是否已将 URL 提交给 URLFilters 以及它们的行为是否符合您的预期。
在你提问之前,