Stormcrawler 是否遵循次要 JavaScript 页面内容加载?

Does Stormcrawler follow secondary JavaScript page content loads?

从我为 webmd.com 抓取的结果来看,它似乎可能不会,我想它会太过期望,因为那会非常复杂。但我想无论如何我都会要求仔细检查。

那么,如果我有一个页面在初始页面加载后使用 JavaScript 加载其主体,Stormcrawler 是否有任何方法可以等待次要内容加载然后抓取页面?

我想除了像 Google 或 Bing 可能使用的非常非常高级和复杂的爬虫之外,没有爬虫会这样做 - 或者甚至可能他们不这样做,因为它需要浏览器级智能和复杂性。一想到你会如何实施这种行为,就会让人感到焦虑。

StormCrawler selenium-based protocol implementation which delegates the navigation to a browser. There is a tutorial on our blog 解释了如何使用它。我倾向于在可视模式下使用 Chrome 驱动程序并使用 Chrome 进行测试以进行测试和调试,然后在产品中将其切换为无头模式。 基本上,您让浏览器处理动态内容。您甚至可以实现导航操作,例如单击按钮、填写表单等...这对于抓取特定站点很有用,但对于一般抓取而言性能可能不是很好。