抓取 API - "Platform source was missing"
Scraping API - "Platform source was missing"
我正在尝试抓取 http://www.carwale.com/used/cars-in-mumbai/
前 20 辆汽车及其数据在 html 中,很容易被抓取。
我被困在 21 岁以上的汽车上——JSON。每增加 20 辆汽车的新页面的 URL 格式为“http://www.carwale.com/webapi/classified/stockfilters/?city=1&kms=0-&year=0-&budget=0-&pn=2”,pn 递增。
我试过:
i = 2
while i in range(totalcars/20+1):
link = 'http://www.carwale.com/webapi/classified/stockfilters/?city=2&kms=0-&year=0-&budget=0-&pn='+str(i)
response = urllib2.urlopen(link)
data = json.load(response)
print data
i += 1
"HTTPError: HTTP Error 400: Bad Request" 是回应
手动尝试 link returns "Platform source was missing"
"http://www.carwale.com/webapi/" returns "403 - 禁止:访问被拒绝。"
访问此数据的最 pythonic 和最有效的方法是什么?
你必须添加这个 header,它对我有用。
{"sourceid":"1"}
我正在尝试抓取 http://www.carwale.com/used/cars-in-mumbai/ 前 20 辆汽车及其数据在 html 中,很容易被抓取。 我被困在 21 岁以上的汽车上——JSON。每增加 20 辆汽车的新页面的 URL 格式为“http://www.carwale.com/webapi/classified/stockfilters/?city=1&kms=0-&year=0-&budget=0-&pn=2”,pn 递增。
i = 2
while i in range(totalcars/20+1):
link = 'http://www.carwale.com/webapi/classified/stockfilters/?city=2&kms=0-&year=0-&budget=0-&pn='+str(i)
response = urllib2.urlopen(link)
data = json.load(response)
print data
i += 1
"HTTPError: HTTP Error 400: Bad Request" 是回应
手动尝试 link returns "Platform source was missing"
"http://www.carwale.com/webapi/" returns "403 - 禁止:访问被拒绝。"
访问此数据的最 pythonic 和最有效的方法是什么?
你必须添加这个 header,它对我有用。
{"sourceid":"1"}