网络抓取只会对拥有网站的人造成伤害吗?
Will web scraping only cause harm to those who have a website?
今天,我使用 beautifulsoup4 抓取了一个网站,并尝试在该网站上获取大约 16.000 条数据。
几分钟后,该站点出现故障,大约几个小时后无法访问。
所以..我的问题是:
网络抓取是否只会对拥有网站的人造成伤害?
首先,建议在像刚才那样用自动请求轰炸每个站点之前检查每个站点的 robots.txt
文件。这对网站所有者和您都不利。为了抓取网站,请在开始编写网络抓取工具之前按照以下步骤操作:
- 检查该网站是否已有 API 可用,以简化您的任务。如果不是,则转到步骤 2。
- 查看
robots.txt
文件,该文件位于 www.anywebsite.com/robots.txt
。如果所有者列出了此页面(在大多数情况下他会列出),您可以看到是否允许 robots 访问该网站。如果是,则检查哪些页面是不允许的,并检查是否有任何速率限制。
- 如果
robots.txt
文件不存在,请确保您足够温和,不要以子弹般的速度向网站发送请求。它可能会对所有者造成伤害,并且您可能会永远被阻止访问该站点。
今天,我使用 beautifulsoup4 抓取了一个网站,并尝试在该网站上获取大约 16.000 条数据。 几分钟后,该站点出现故障,大约几个小时后无法访问。 所以..我的问题是:
网络抓取是否只会对拥有网站的人造成伤害?
首先,建议在像刚才那样用自动请求轰炸每个站点之前检查每个站点的 robots.txt
文件。这对网站所有者和您都不利。为了抓取网站,请在开始编写网络抓取工具之前按照以下步骤操作:
- 检查该网站是否已有 API 可用,以简化您的任务。如果不是,则转到步骤 2。
- 查看
robots.txt
文件,该文件位于www.anywebsite.com/robots.txt
。如果所有者列出了此页面(在大多数情况下他会列出),您可以看到是否允许 robots 访问该网站。如果是,则检查哪些页面是不允许的,并检查是否有任何速率限制。 - 如果
robots.txt
文件不存在,请确保您足够温和,不要以子弹般的速度向网站发送请求。它可能会对所有者造成伤害,并且您可能会永远被阻止访问该站点。