解析最受关注的页面

Parse top followed pages

我专注于使用 Python 进行解析,目前从事社会学研究。在我的研究中,我需要从任何最流行的社交网络中解析最受关注的页面。我有 运行 通过他们的 API 和其他方法来搜索那些,发现他们中的大多数(Facebook、Twitter、Instagram)不允许通过关注者数量或其他信息进行搜索。

有人遇到过这个问题吗?你是如何克服它的?有没有办法解析我需要的东西(不仅在上述社交网络中,不包括 YouTube)?


UPD:出于研究目的,我需要数千个。

设法找到 Twitter 的答案。不是很优雅,但这正是我需要的。

如果您需要超过1k的某些博主(例如拥有100万粉丝或更多的博主),您可以使用以下算法:

  1. 以一位著名博主(例如 @LeoDiCaprio)为例并解析页面` 他关注的 ID 具有您需要的关注者数量(在我们的例子中 它大于 1 米)。
  2. 将这些页面添加到列表中,然后为每个 做一样的。

我想你说对了。 在大多数情况下,热门页面大多跟随最受欢迎的页面,这就是为什么它会起作用 =) 由于 twitters` API 每 15 分钟只给你 15 个请求,这取决于你需要的页数,这项工作将需要一些时间(对我来说,获得 1k 页需要 1 小时)