Nutch 未获取 graph.facebook 响应
Nutch doesn't fetch graph.facebook response
我无法抓取 Facebook API 响应中的链接。当我抓取其他网页时一切正常。 我使用 Nutch 2.2.1,Hbase 0.9 进行存储,Solr 进行索引。 作为种子,我正在使用
https://graph.facebook.com/v2.10/me?fields=friends%7Bfeed%7Bpermalink_url%7D%2Cname%7D&access_token=<MY_ACC_TOKEN>
注射就可以了。 在爬行周期结束时,我将种子保存在我的数据库中。 但是在抓取过程中,nutch 没有看到任何 URL
Fetcher: throughput threshold: -1
-finishing thread FetcherThread49, activeThreads=0
Fetcher: throughput threshold sequence: 5
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
我刚刚尝试编辑任何丢弃 URL 的文件,其中包含 charatchers 作为可能的查询,但没有任何反应。 我已经 实现了 https,它在默认情况下不起作用。
我该如何解决这个问题?
Facebook 不允许自动抓取。
- 未经 Facebook 明确书面许可,您不得参与自动数据收集。
在此处查看完整的服务条款: