抓取 API - "Platform source was missing"

Scraping API - "Platform source was missing"

我正在尝试抓取 http://www.carwale.com/used/cars-in-mumbai/ 前 20 辆汽车及其数据在 html 中,很容易被抓取。 我被困在 21 岁以上的汽车上——JSON。每增加 20 辆汽车的新页面的 URL 格式为“http://www.carwale.com/webapi/classified/stockfilters/?city=1&kms=0-&year=0-&budget=0-&pn=2”,pn 递增。

我试过:

i = 2  
while i in range(totalcars/20+1):
    link = 'http://www.carwale.com/webapi/classified/stockfilters/?city=2&kms=0-&year=0-&budget=0-&pn='+str(i)
    response = urllib2.urlopen(link)
    data = json.load(response)   
    print data
    i += 1  

"HTTPError: HTTP Error 400: Bad Request" 是回应

手动尝试 link returns "Platform source was missing"

"http://www.carwale.com/webapi/" returns "403 - 禁止:访问被拒绝。"

访问此数据的最 pythonic 和最有效的方法是什么?

你必须添加这个 header,它对我有用。

{"sourceid":"1"}