如何阻止在 Drupal 网站上进行抓取?

How to discourage scraping on a Drupal website?

我有一个 Drupal 网站,上面有大量数据。然而,由于 Drupal class 和 ID 非常一致,人们可以很容易地抓取该站点。

  1. 有没有什么方法可以 "scramble" 代码,使使用 PHP Simple HTML Dom Parser 之类的东西更难抓取网站?
  2. 是否有其他技术可以使抓取网站变得更加困难?
  3. 我是在为失败的事业而战吗?

我不确定 "scraping" 是否是官方术语,但我指的是人们编写 "crawls" 网站脚本并解析部分内容的过程它是为了提取数据并将其存储在自己的数据库中。

我不确定,但我认为抓取所有内容都是 public 的网站非常容易,无论 ID 是否连续。您应该考虑到,如果人类可以阅读您的 Drupal 站点,那么脚本也可以。

根据您网站的性质,如果您不希望您的内容被其他人编入索引,您应该考虑设置注册用户访问权限。否则,我认为你是在为一场失败的事业而战。

  1. 首先,我建议您 google 而不是 web scraping anti-scrape。在那里,您会找到一些对抗网络爬虫的工具。
  2. 至于 Drupal,应该有一些防刮插件可用(google 以上)。
  3. 您可能会对我的 categorized layout of anti-scrape techniques 回答感兴趣。它适用于技术人员和非技术用户。