使用 python 的动态网页爬虫
dynamic web page crawler using python
我想在线阅读这篇文章,但出现了一些问题,我想我想在成功提取它后离线阅读它...所以经过 4 周的试用,我来到这里,所有问题都归结为是我的爬虫似乎无法阅读网页的内容,即使在所有的骚动之后......
最初的问题是所有信息都没有出现在一个页面上,因此使用按钮来导航网站本身的内容...
我试过 BeautifulSoup 但它似乎无法很好地解析页面。我目前正在使用 selenium 和 chromedriver。
爬虫无法读取页面的原因好像是robot.txt文件(爬虫单页等待时间3600,文章10页左右,可以忍受但是如果它说 100+ 会发生什么)我不知道如何绕过它或绕过它。
有什么帮助吗??
如果 robots.txt 设置了限制,那就到此为止了。你应该 web-scraping 符合道德,这意味着如果网站所有者希望你在两次请求之间等待 3600 秒,那就这样吧。
即使 robots.txt 没有规定等待时间,您仍然应该注意。小型企业/网站所有者可能不知道这一点,如果你不断地修改网站,他们可能会付出高昂的代价。
我想在线阅读这篇文章,但出现了一些问题,我想我想在成功提取它后离线阅读它...所以经过 4 周的试用,我来到这里,所有问题都归结为是我的爬虫似乎无法阅读网页的内容,即使在所有的骚动之后......
最初的问题是所有信息都没有出现在一个页面上,因此使用按钮来导航网站本身的内容...
我试过 BeautifulSoup 但它似乎无法很好地解析页面。我目前正在使用 selenium 和 chromedriver。
爬虫无法读取页面的原因好像是robot.txt文件(爬虫单页等待时间3600,文章10页左右,可以忍受但是如果它说 100+ 会发生什么)我不知道如何绕过它或绕过它。
有什么帮助吗??
如果 robots.txt 设置了限制,那就到此为止了。你应该 web-scraping 符合道德,这意味着如果网站所有者希望你在两次请求之间等待 3600 秒,那就这样吧。
即使 robots.txt 没有规定等待时间,您仍然应该注意。小型企业/网站所有者可能不知道这一点,如果你不断地修改网站,他们可能会付出高昂的代价。