StormCrawler：URL 数据库规范

StormCrawler: The URL Database Specifications

我对 StormCrawler 很陌生 - 因为我一直在研究文档、自述文件和其他资源，所以我注意到它经常被称为 "URL 数据库" 应该处理存储来自爬虫运行的 URL 的信息（例如 here） .

但是，我没有在任何地方找到此数据库的类型，也没有找到如何自定义它或用自定义模块替换它。我一直在关注代码并找到 IOOutputController，它有一些非常令人困惑的方法并且缺少文档字符串，实际上什至确定负责处理此问题的 class 都非常具有挑战性。

非常感谢任何指导！

Matyáš，谢谢你抽出时间

StormCrawler 中最常用的 URL 存储是 Elasticsearch。 tutorials. There are other ones available such as SQL or SOLR, see enter link description here 中对此进行了说明； StormCrawler 并不局限于特定的数据库。在大多数情况下，人们只是使用现有的后端实现，例如 Elasticsearch。

StormCrawler：URL 数据库规范

StormCrawler: The URL Database Specifications

java

url

stormcrawler