如何避免 imperva 机器人检测?
How do I avoid imperva bot detection?
我正在 运行ning 一个抓取网站的 Python 脚本。它使用 Imperva 来检测通过其网页爬行的自动脚本。我 运行 脚本后,Imperva 已阻止我的 IP 访问该站点。我确实读过有人建议在脚本中包含 time.sleep(random.randint(a,b))
(尝试模仿人类行为),但它不起作用,或者它可能无法作为独立方法使用。如果他们检测到的是 chrome 驱动程序本身,那么我想这是无法避免的。有没有人对我可以在我的脚本中包含的东西有任何实用的建议来绕过这个?提前致谢。
简介
有许多不同的组件需要添加到网络抓取工具中以使其无法检测到。我建议使用以下代码测试您当前的检测水平:
driver.get("https://bot.sannysoft.com/")
更有可能的是,您会立即让大部分测试失败,幸运的是,很容易配置一个能够通过所有这些测试并且完全无法检测到的抓取工具.
Selenium-Stealth
selenium-stealth是一个python包,用来躲避检测。简直...
pip install selenium-stealth
并遵循以下配置:
stealth(driver,
user_agent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/83.0.4103.53 Safari/537.36',
languages=["en-US", "en"],
vendor="Google Inc.",
platform="Win32",
webgl_vendor="Intel Inc.",
renderer="Intel Iris OpenGL Engine",
fix_hairline=True,
)
您的网络抓取工具应该通过所有测试,现在尝试在 Imperva 站点上实施此解决方案。
更多信息
如果您仍然被阻止,我建议查看 random-user-agent library 以在 selenium-stealth 配置的“user_agent”变量中循环您的用户代理。否则,您可以支付代理提供商的费用来完全伪装您的 IP。请记住,代理网络目前没有 selenium 配置。
关于代理网络 Selenium 配置的信息: Python Selenium Proxy Network
有关云中 Selenium 可检测性的信息:
我正在 运行ning 一个抓取网站的 Python 脚本。它使用 Imperva 来检测通过其网页爬行的自动脚本。我 运行 脚本后,Imperva 已阻止我的 IP 访问该站点。我确实读过有人建议在脚本中包含 time.sleep(random.randint(a,b))
(尝试模仿人类行为),但它不起作用,或者它可能无法作为独立方法使用。如果他们检测到的是 chrome 驱动程序本身,那么我想这是无法避免的。有没有人对我可以在我的脚本中包含的东西有任何实用的建议来绕过这个?提前致谢。
简介
有许多不同的组件需要添加到网络抓取工具中以使其无法检测到。我建议使用以下代码测试您当前的检测水平:
driver.get("https://bot.sannysoft.com/")
更有可能的是,您会立即让大部分测试失败,幸运的是,很容易配置一个能够通过所有这些测试并且完全无法检测到的抓取工具.
Selenium-Stealth
selenium-stealth是一个python包,用来躲避检测。简直...
pip install selenium-stealth
并遵循以下配置:
stealth(driver,
user_agent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/83.0.4103.53 Safari/537.36',
languages=["en-US", "en"],
vendor="Google Inc.",
platform="Win32",
webgl_vendor="Intel Inc.",
renderer="Intel Iris OpenGL Engine",
fix_hairline=True,
)
您的网络抓取工具应该通过所有测试,现在尝试在 Imperva 站点上实施此解决方案。
更多信息
如果您仍然被阻止,我建议查看 random-user-agent library 以在 selenium-stealth 配置的“user_agent”变量中循环您的用户代理。否则,您可以支付代理提供商的费用来完全伪装您的 IP。请记住,代理网络目前没有 selenium 配置。
关于代理网络 Selenium 配置的信息: Python Selenium Proxy Network
有关云中 Selenium 可检测性的信息: