Nutch 未获取 graph.facebook 响应

Nutch doesn't fetch graph.facebook response

我无法抓取 Facebook API 响应中的链接。当我抓取其他网页时一切正常。 我使用 Nutch 2.2.1,Hbase 0.9 进行存储,Solr 进行索引。 作为种子,我正在使用

https://graph.facebook.com/v2.10/me?fields=friends%7Bfeed%7Bpermalink_url%7D%2Cname%7D&access_token=<MY_ACC_TOKEN>

注射就可以了。 在爬行周期结束时,我将种子保存在我的数据库中。 但是在抓取过程中,nutch 没有看到任何 URL

Fetcher: throughput threshold: -1
-finishing thread FetcherThread49, activeThreads=0
Fetcher: throughput threshold sequence: 5
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0 pages/s, 0 0 kb/s, 0 URLs in 0 queues

我刚刚尝试编辑任何丢弃 URL 的文件,其中包含 charatchers 作为可能的查询,但没有任何反应。 我已经 实现了 https,它在默认情况下不起作用。

我该如何解决这个问题?

Facebook 不允许自动抓取。

  1. 未经 Facebook 明确书面许可,您不得参与自动数据收集。

在此处查看完整的服务条款:

https://www.facebook.com/apps/site_scraping_tos_terms.php