使用 python 的动态网页爬虫

dynamic web page crawler using python

我想在线阅读这篇文章，但出现了一些问题，我想我想在成功提取它后离线阅读它...所以经过 4 周的试用，我来到这里，所有问题都归结为是我的爬虫似乎无法阅读网页的内容，即使在所有的骚动之后......

最初的问题是所有信息都没有出现在一个页面上，因此使用按钮来导航网站本身的内容...

我试过 BeautifulSoup 但它似乎无法很好地解析页面。我目前正在使用 selenium 和 chromedriver。

爬虫无法读取页面的原因好像是robot.txt文件（爬虫单页等待时间3600，文章10页左右，可以忍受但是如果它说 100+ 会发生什么）我不知道如何绕过它或绕过它。

有什么帮助吗？？

如果 robots.txt 设置了限制，那就到此为止了。你应该 web-scraping 符合道德，这意味着如果网站所有者希望你在两次请求之间等待 3600 秒，那就这样吧。

即使 robots.txt 没有规定等待时间，您仍然应该注意。小型企业/网站所有者可能不知道这一点，如果你不断地修改网站，他们可能会付出高昂的代价。