网站可以通过 Puppeteer 检测何时使用 Chromium 吗?
Can a website detect when using Chromium via Puppeteer?
当使用 Chromium 和 Node plus Puppeteer(不是 Selenium 和 ChromeDriver)抓取网站时,它能够检测并阻止我抛出自定义错误而不是为页面提供服务,而如果手动加载 Chromium 则同样可以正确加载。所以问题是:有没有办法检测网站上安装的反机器人软件并在浏览器自动化时绕过它?
PS:我已经通过@ 彻底讨论了所有要点,并考虑了从那里收集的所有关键点进行了相关测试,但最终得到了与 Selenium 相似的结果。因此,我想知道是否有任何最新发现,或者是否有任何最新的自动化技术可以应对这一技术挑战。根据我昨晚的测试,替换 $cdc_ 不再适用于最新版本的 Selenium 和 ChromeDriver。
示例站点:https://www.naukri.com/posted-today-jobs,我正在尝试使用 Chromium+Node+Puppeteer 抓取那里列出的作业,但它在无头模式和全头模式下在新选项卡中打开页面时检测并阻止.与最新的 Selenium+Node+ChromeDriver 相同的结果。
是的,可以 - 正如您自己所说。请联系您的管理员或开发人员为您停用它或将测试器旁路密钥交给您。
另一种选择是让他们将您的 IP 列入白名单,因为您肯定是合法用户,为他们的公司工作,而不是试图窃取其他人的数据,从而消耗他们的虚拟主机容量并推高他们的账单。
如果您仍然遇到此问题,我建议您使用以下选项,使用 Selenium 和 chrome webdriver。
option.add_argument('--disable-blink-features=AutomationControlled')
这帮助我加载了一个页面,否则该页面无法通过机器人完全加载。
当使用 Chromium 和 Node plus Puppeteer(不是 Selenium 和 ChromeDriver)抓取网站时,它能够检测并阻止我抛出自定义错误而不是为页面提供服务,而如果手动加载 Chromium 则同样可以正确加载。所以问题是:有没有办法检测网站上安装的反机器人软件并在浏览器自动化时绕过它?
PS:我已经通过@
示例站点:https://www.naukri.com/posted-today-jobs,我正在尝试使用 Chromium+Node+Puppeteer 抓取那里列出的作业,但它在无头模式和全头模式下在新选项卡中打开页面时检测并阻止.与最新的 Selenium+Node+ChromeDriver 相同的结果。
是的,可以 - 正如您自己所说。请联系您的管理员或开发人员为您停用它或将测试器旁路密钥交给您。 另一种选择是让他们将您的 IP 列入白名单,因为您肯定是合法用户,为他们的公司工作,而不是试图窃取其他人的数据,从而消耗他们的虚拟主机容量并推高他们的账单。
如果您仍然遇到此问题,我建议您使用以下选项,使用 Selenium 和 chrome webdriver。
option.add_argument('--disable-blink-features=AutomationControlled')
这帮助我加载了一个页面,否则该页面无法通过机器人完全加载。