使用 selenium 通过 TOR 浏览器访问网站时如何避免检测?
How to avoid detection when accessing website through TOR browser with selenium?
我尝试抓取网站已有一段时间了,当您使用暴力从一个网站检索 500.000 多个 url 上的所有信息时,您可能会被阻止。因此,我现在正尝试使用 selenium webdriver 通过 TOR 浏览器抓取我的数据。到目前为止,一切都很好。搞定了 运行:
from selenium import webdriver
from selenium.webdriver.firefox.firefox_profile import FirefoxProfile
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
import os
torexe = os.popen(r'C:/location_to/Tor Browser/Browser/TorBrowser/Tor/tor.exe')
profile = FirefoxProfile(r"C:/location_to/Tor Browser/Browser/TorBrowser/Data/Browser/Caches/profile.default")
profile.set_preference('network.proxy.type', 1)
profile.set_preference('network.proxy.socks', '127.0.0.1')
profile.set_preference('network.proxy.socks_port', 9050)
profile.set_preference("network.proxy.socks_remote_dns", False)
profile.update_preferences()
driver = webdriver.Firefox(firefox_profile= profile, executable_path=r'C:/Location_to/geckodriver-v0.25.0-win64/geckodriver.exe')
driver.get("http://check.torproject.org")
导致:
恭喜。此浏览器配置为使用 Tor。
您的 IP 地址似乎是:94.230.208.147
太棒了。但是,当我尝试访问某些网站时,我被检测到:
driver.get("https://gearbest.com")
raw_html = driver.page_source
clean_html = soup(raw_html, 'html.parser')
访问被拒绝
您无权访问此服务器上的“http://gearbest.com/”。
参考#18.cff31502.1569612654.932f460
大多数网站都检测不到我,这只是少数。我已经尝试了一堆 "solutions" 但发布它们很可能比帮助更令人困惑。这可能是无头检测,但同样,我不确定。谁能帮帮我?
提前谢谢你。
可在此处找到通过 TOR 访问时被阻止的所有网站的完整列表:https://trac.torproject.org/projects/tor/wiki/org/doc/ListOfServicesBlockingTor可在此处找到临时解决方案以规避涉及通过其他网站获取内容的阻止。
出于安全原因,我已经切换到autoVPN(vm中linux),它是免费的,不会被目标网站屏蔽,并提供高端隐私。
我尝试抓取网站已有一段时间了,当您使用暴力从一个网站检索 500.000 多个 url 上的所有信息时,您可能会被阻止。因此,我现在正尝试使用 selenium webdriver 通过 TOR 浏览器抓取我的数据。到目前为止,一切都很好。搞定了 运行:
from selenium import webdriver
from selenium.webdriver.firefox.firefox_profile import FirefoxProfile
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
import os
torexe = os.popen(r'C:/location_to/Tor Browser/Browser/TorBrowser/Tor/tor.exe')
profile = FirefoxProfile(r"C:/location_to/Tor Browser/Browser/TorBrowser/Data/Browser/Caches/profile.default")
profile.set_preference('network.proxy.type', 1)
profile.set_preference('network.proxy.socks', '127.0.0.1')
profile.set_preference('network.proxy.socks_port', 9050)
profile.set_preference("network.proxy.socks_remote_dns", False)
profile.update_preferences()
driver = webdriver.Firefox(firefox_profile= profile, executable_path=r'C:/Location_to/geckodriver-v0.25.0-win64/geckodriver.exe')
driver.get("http://check.torproject.org")
导致: 恭喜。此浏览器配置为使用 Tor。 您的 IP 地址似乎是:94.230.208.147
太棒了。但是,当我尝试访问某些网站时,我被检测到:
driver.get("https://gearbest.com")
raw_html = driver.page_source
clean_html = soup(raw_html, 'html.parser')
访问被拒绝 您无权访问此服务器上的“http://gearbest.com/”。 参考#18.cff31502.1569612654.932f460
大多数网站都检测不到我,这只是少数。我已经尝试了一堆 "solutions" 但发布它们很可能比帮助更令人困惑。这可能是无头检测,但同样,我不确定。谁能帮帮我?
提前谢谢你。
可在此处找到通过 TOR 访问时被阻止的所有网站的完整列表:https://trac.torproject.org/projects/tor/wiki/org/doc/ListOfServicesBlockingTor可在此处找到临时解决方案以规避涉及通过其他网站获取内容的阻止。
出于安全原因,我已经切换到autoVPN(vm中linux),它是免费的,不会被目标网站屏蔽,并提供高端隐私。