Stormcrawler 是否遵循次要 JavaScript 页面内容加载？

Does Stormcrawler follow secondary JavaScript page content loads?

从我为 webmd.com 抓取的结果来看，它似乎可能不会，我想它会太过期望，因为那会非常复杂。但我想无论如何我都会要求仔细检查。

那么，如果我有一个页面在初始页面加载后使用 JavaScript 加载其主体，Stormcrawler 是否有任何方法可以等待次要内容加载然后抓取页面？

我想除了像 Google 或 Bing 可能使用的非常非常高级和复杂的爬虫之外，没有爬虫会这样做 - 或者甚至可能他们不这样做，因为它需要浏览器级智能和复杂性。一想到你会如何实施这种行为，就会让人感到焦虑。

StormCrawler selenium-based protocol implementation which delegates the navigation to a browser. There is a tutorial on our blog 解释了如何使用它。我倾向于在可视模式下使用 Chrome 驱动程序并使用 Chrome 进行测试以进行测试和调试，然后在产品中将其切换为无头模式。基本上，您让浏览器处理动态内容。您甚至可以实现导航操作，例如单击按钮、填写表单等...这对于抓取特定站点很有用，但对于一般抓取而言性能可能不是很好。

Stormcrawler 是否遵循次要 JavaScript 页面内容加载？

Does Stormcrawler follow secondary JavaScript page content loads?

web-crawler

nutch

stormcrawler