如何抓取 api url 返回 null 的动态网页？

Question

我有一个任务要抓取所有普利策奖得主，我发现这个页面有我想要的所有内容：https://www.pulitzer.org/prize-winners-by-year/2018。

但是我遇到了以下问题，

问题一：如何抓取动态页面？我使用 python/urllib2.urlopen 来获取页面的内容，但是这个动态页面并没有 return 来自这个的真实内容。

问题 2： 然后我从 devtool 中找到了一个 API URL：https://www.pulitzer.org/cache/api/1/winners/year/166/raw.json。但是当我从 urllib2.urlopen 发送 GET 请求时，我总是得到 null。它是如何发生的？或者我该如何处理？

如果这对你来说太天真了，请说出一些单词，以便我可以从中学习 Google。

提前致谢！

Answer 1

一种处理方法是使用请求模块创建 session。这样，它传递了下一个 api 调用所需的必要 session 详细信息，您还必须将另一个参数 Referer 传递给 header。这可以区分您在 api 调用中查找的年份。

import requests
s = requests.session()
url = "https://www.pulitzer.org/prize-winners-by-year/2017"
resp1 = s.get(url)
headers = {'Referer': 'https://www.pulitzer.org/prize-winners-by-year/2017'}
api = "https://www.pulitzer.org/cache/api/1/winners/year/166/raw.json"
data = s.get(api,headers=headers)

现在您可以从数据中的响应中提取数据。

如何抓取 api url 返回 null 的动态网页？

How to crawl dynamic web with api url returning null?

python

urllib2

web-crawler

dynamic-pages