抓取 API - "Platform source was missing"

Question

我正在尝试抓取 http://www.carwale.com/used/cars-in-mumbai/ 前 20 辆汽车及其数据在 html 中，很容易被抓取。我被困在 21 岁以上的汽车上——JSON。每增加 20 辆汽车的新页面的 URL 格式为“http://www.carwale.com/webapi/classified/stockfilters/?city=1&kms=0-&year=0-&budget=0-&pn=2”，pn 递增。

我试过：

i = 2  
while i in range(totalcars/20+1):
    link = 'http://www.carwale.com/webapi/classified/stockfilters/?city=2&kms=0-&year=0-&budget=0-&pn='+str(i)
    response = urllib2.urlopen(link)
    data = json.load(response)   
    print data
    i += 1

"HTTPError: HTTP Error 400: Bad Request" 是回应

手动尝试 link returns "Platform source was missing"

"http://www.carwale.com/webapi/" returns "403 - 禁止：访问被拒绝。"

访问此数据的最 pythonic 和最有效的方法是什么？

Answer 1

你必须添加这个 header，它对我有用。

{"sourceid":"1"}

抓取 API - "Platform source was missing"

Scraping API - "Platform source was missing"

python

json

web-scraping

python-2.7