StormCrawler:URL 数据库规范
StormCrawler: The URL Database Specifications
我对 StormCrawler 很陌生 - 因为我一直在研究文档、自述文件和其他资源,所以我注意到它经常被称为 "URL 数据库" 应该处理存储来自爬虫 运行 的 URL 的信息(例如 here) .
但是,我没有在任何地方找到此数据库的类型,也没有找到如何自定义它或用自定义模块替换它。我一直在关注代码并找到 IOOutputController
,它有一些非常令人困惑的方法并且缺少文档字符串,实际上什至确定负责处理此问题的 class 都非常具有挑战性。
非常感谢任何指导!
Matyáš,谢谢你抽出时间
StormCrawler 中最常用的 URL 存储是 Elasticsearch。 tutorials. There are other ones available such as SQL or SOLR, see enter link description here 中对此进行了说明; StormCrawler 并不局限于特定的数据库。
在大多数情况下,人们只是使用现有的后端实现,例如 Elasticsearch。
我对 StormCrawler 很陌生 - 因为我一直在研究文档、自述文件和其他资源,所以我注意到它经常被称为 "URL 数据库" 应该处理存储来自爬虫 运行 的 URL 的信息(例如 here) .
但是,我没有在任何地方找到此数据库的类型,也没有找到如何自定义它或用自定义模块替换它。我一直在关注代码并找到 IOOutputController
,它有一些非常令人困惑的方法并且缺少文档字符串,实际上什至确定负责处理此问题的 class 都非常具有挑战性。
非常感谢任何指导!
Matyáš,谢谢你抽出时间
StormCrawler 中最常用的 URL 存储是 Elasticsearch。 tutorials. There are other ones available such as SQL or SOLR, see enter link description here 中对此进行了说明; StormCrawler 并不局限于特定的数据库。 在大多数情况下,人们只是使用现有的后端实现,例如 Elasticsearch。