在哪里/如何通过综合浏览量获得前 10,000 条维基百科文章标题?

Where / how to get the top 10,000 Wikipedia article titles, by pageview?

我想获得英语 Wiki 项目中页面浏览量最高的 ~10,000 篇维基百科文章 标题

不需要需要综合浏览量和数据。我只需要知道我有前 10,000 篇文章标题。

前 10,000 名的列表会很棒,因为我可以用它来抓取。 一个JSON的top X就更好了!

Topviews and Massviews 是很好的资源,oh-so-close 正是我要找的!

然而,Topviews 将列表限制为 490 个,而 Massviews 需要一个搜索词。我想要整个英语项目中最受欢迎的 Wiki 文章。

我愿意使用数据转储、API 或任何其他现有工具。 感谢帮助维基。

下面是 Massviews/Topviews 工具的创建者 Leon Ziemba 先生对我上述问题的回答:

我不确定 "all categories" 是什么意思。您是指所有项目中的所有文章吗?有 https://tools.wmflabs.org/topviews,如果有帮助的话。

或者你的意思是你想一次给 Massviews 几个类别?如果是这样,解决方法是结合使用 Petscan、Page Pile 和 Massviews: * 转到 https://petscan.wmflabs.org/ 添加您的类别,selecting "union" 作为 "Combination",然后点击 "Do it!"。 * 单击右上角的 "Output" 选项卡,select "PagePile" 作为格式。其他选项可能保持原样。再次单击 "Do It!"。 * 您现在应该在 PagePile 上。在左上角,它会显示 "Pile 123",其中 123 是桩号。请注意这一点。 * 回到 Massviews。 Select "Page Pile" 作为出处,填入堆号。 * 利润!

在 Massviews 中,有一个选项 "Include all subcategories"。也许这会对你有所帮助。但是,出于性能原因,您将获得超过 20,000 个结果。

如果您需要 10,000 页的综合浏览量,对于所有英文维基百科的所有页面,这将必须使用原始数据集手动计算。一个工具实时浏览每一篇维基百科文章是不可行的。可以在 https://dumps.wikimedia.org/other/pageviews/.

找到原始数据集转储