如何在 Python 中使用 VPN 进行网页抓取?

How to webscrape with VPN in Python?

我制作了一个 Python 程序,该程序使用 Beautifulsoup 对 IMDB 进行网络抓取,以创建一个 mySQL 数据库,其中包含不同类别中所有评分最高的电影的表格。到目前为止,一切都很好。我的问题是我在挪威做这件事,很多电影片名都被翻译成挪威语。例如,在从挪威 IP 地址打开的 IMDB 的顶部列表中,"The Shawshank Redemption" 被转换为 "Frihetens Regn"。我想要所有的英文标题。是否有一些您可以从 Python 激活并与 Beautifulsoup 一起使用的免费 VPN?或者有人对此有其他解决方案吗?

您有几个选项,VPN 和代理。

首先,是的,您可以使用 VPN。然而,大多数 VPN 需要整个主机连接才能通过 VPN 建立隧道。那里有一些很好的 VPN 服务,但有时你会得到你付出的代价。我会谨慎使用免费 VPN,因为有些人会出售您的网络,而另一些人会出售您的数据。

其次,这可能是最简单的选择。使用代理。您可以告诉您的抓取工具通过免费的匿名代理代理流量。您可以从 Google 中找到这些免费代理的列表。或者您可以查看 ProxyBroker,它可以为您找到免费代理。这只需要通过美国 IP 地址而不是整个主机连接来代理抓取程序流量。

我同意使用代理比使用 vpn 效果更好。

但是,如果您想要结果,请不要使用免费代理。如果这是您可以投资的东西,请找一个体面的付费提供商,否则很可能不会有任何好处,因为您会经常被封锁。