获取维基百科页面视图统计信息

Getting Wikipedia page view statistics

我正在尝试收集过去五年中特定网页 ("Bitcoin") 的维基百科页面查看统计数据的时间序列数据。我发现这个网站很有用:http://stats.grok.se 用于获取此数据。两个问题:

  1. 只要选择 2016 年作为获取数据的年份,网站就会触发 "internal server error" 错误。

  2. 是否有现成的工具可以将此输出转换为更有用的格式,例如 .csv?

我不知道 stats.grok.se,因为它似乎不存在于维基媒体生产或实验室服务器上。但是从 2015 年 7 月开始,有一个 API 用于页面浏览统计信息:

https://wikimedia.org/api/rest_v1/#!/Pageviews_data/get_metrics_pageviews_per_article_project_access_agent_article_granularity_start_end

例如,https://en.wikipedia.org/wiki/Bitcoin over the past year: https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/Bitcoin/daily/20151105/20161105

的每日页面浏览量

all-access = 桌面+移动网络+移动应用程序

all-agents = user+spider+bot

历史数据可以从https://dumps.wikimedia.org/other/pagecounts-raw/

下载

我在此处找到了 2007 年至 2016 年的页面浏览量统计存档:https://dumps.wikimedia.org/other/pagecounts-raw/

在页面底部,他们列出了涵盖不同时间段的其他几个来源。