访问 Metacritic API and/or 抓取

Accessing Metacritic API and/or Scraping

有谁知道 Metacritic api is/if 的文档在哪里仍然有效。 https://market.mashape.com/byroredux/metacritic-v2#get-user-details 曾经有一个 Metacritic API,今天消失了。

否则我会尝试自己抓取网站,但一直被 429 减速阻止。这个小时我获得了大约 3 次数据,但在过去 20 分钟内再也无法获得数据,这使得测试变得困难并且应用程序可能无用。请让我知道是否有其他我可以做的我不知道的 scape。

我也在使用那个 API 以及我不久前写的一个应用程序。看起来创作者将其从 Mashape 中删除了。我刚刚给他发了一封电子邮件,询问它是否会备份。我确实在网上找到了 this scraper。它只有几个端点,但按照给出的示例,您可以轻松添加更多端点。如果您有任何进展,请告诉我!

编辑:看起来 CBS 要求将其删除。 ToS 禁止抓取:

[…] 您同意不进行以下行为,或协助他人进行以下行为: 从事未经授权的爬取、“抓取”、数据挖掘或内容收获,或使用任何其他未经授权的自动化方式从服务收集数据或收集有关服务的数据;

虽然我希望有一个 Javascript 的方法来做到这一点,API 的创建者也告诉了我一些信息。

他说我因为在 header 中没有用户代理而被阻止,应该使用 429 处理程序,即 re-request 之间有更长的暂停时间。

还有一个 PHP 插件可用:http://datalinx.io/shop/metacritic-api/

我不得不像 JCDJulian 所说的那样添加一个用户代理,现在它允许我抓取。所以对于 Ruby:

agent = Mechanize.new
agent.user_agent_alias = "Mac Firefox"

然后它不再给我 403 禁止错误。