我怎样才能通过 wiki API 获得大数据?

How could I get bigdata with wiki API?

对于列表中的每个人,我需要获取一个人的姓名、出生日期、死亡日期和图像 URL。

我计划在一年中的每一天通过维基百科(每天大约有 1000 人)使用这个 Category:Born_on_day_month

当我尝试使用 php-script 列表 here 时,它按预期工作。

但是,当我试图通过 this and then by this 为每个人获取 Wiki id 时,它会在 5-10 次请求后抛出错误(一次请求大约需要 0.5 秒)。

我知道这不是最好的方法,希望能找到更好的方法。最好的方法是什么? (也许是对某些子目的的一个大要求)?

前两个请求可以合并为https://ru.wikipedia.org/w/api.php?action=query&format=xml&generator=categorymembers&gcmlimit=max&gcmtitle=Category:родившиеся_1_января&prop=pageprops

使用 "action=wbgetentities" 可以减少维基数据请求。然后您最多可以添加 50 个由竖线分隔的项目 ID,例如https://www.wikidata.org/w/api.php?format=xml&action=wbgetentities&ids=Q4054186|Q2669358|Q4054194

但是,由于您基本上想要提取所有拥有维基百科文章的人的数据,您仍然需要执行数千次请求。与其复制所有数据,不如考虑您的应用程序真正需要哪些数据,然后仅查询这些数据。